目录
图片分类
提特征:
处理特征:
pca 降维 bootstrap 增维
视频分类: 提取视频内的interest point
特征:有区分性和鲁棒性,合适的特征是任务驱动的
普通的nn是不具备平移不变性的,而cnn可以,因为同一个卷积核在不同位置的权重是一样的
imgnet: top5:打5个标签 有一个对就算对
vgg:不断用3*3的卷积核
inception: google系的,用各种不同大小的卷积核,然后再拼起来
分组卷积:嵌入式的地方常用,mobilenet,因为速度快。例如256层,变成8组,每组32层,在cpu上加速很快,在gpu一般
残差:2015年的paper,在所有网络都有提升
se-net:引入se-block,在所有网络都有提升==》浅层、中层、深层 分别去做分类,然后把结果merge到一起
视频分类:先对每个图做光流,然后把rgb和光流图一起去做分类
用上lstm: 1.拿出最后一个隐状态的结果做分类 2.把每一个时间步的状态做pooling,再分类,会稍微好一点
做3d的卷积,直接输入32张图,32*3个channel,然后分块卷积,参数变大了
空间维度,先用一个cnn提取出1024维,t个时间步,看成1024个channel的图像,高1,宽是t,就变成了一个图像分类问题
与3d卷积相比,参数少很多
训练时 会采样,例如只采样10帧(不用采太多),采一样多zhen,只要样本够多;测试可以所有帧
分类 欠拟合:区分性不足, 解决:把类别分细一点,类间不要有重合 加batchnorm
过拟合:对于hardsample,不容易区分是哪一类,人工加入正确的样本
交叉熵等价mle 加入weightdecay等价于map
学习率优化(2个很有效的方法):
cos annealing sgd+nestrov momentom
plateau anealing + rmsprop
图文相关性
百度去搜图 搜出top10的 提出来 当做这个文本的表示
ocr:一般先做检测再做分类