图像数据不足时的处理方法

一个模型所能提供的信息一般来源于另个方面,一是训练数据中蕴含的信 息;而是在模型的形成的过程中(包括构造、学习、推理等),人们提供的先验信息。 当训练数据不足时,说明模型从原始数据中获取的信息比较少,这种情况下想要保证模型的效果,就需要更多先验信息。 先验信息可以作用在模型上,例如,让模型采用特定的内在结构、条件假设或添加其他一些约束条件;先验信息也可以直接施加在数据集上,即根据特定的先验假设去调整、变换或扩展训练数据,让其展示出更多的更有用的信息,以利于后续模型的训练和学习

对于图像分类任务处理方法:

  • 基于模型的方法,主要是采用降低过拟合风险的措施
    • 简化模型
      • 如:将非线性模型简化为线性模型
    • 添加约束项以缩小假设空间,如:L1/L2正则项
    • 集成学习
    • Dropout超参数
    • ...
  • 基于数据的方法,主要是通过数据扩充(data augmentation),即根据一些先验知识,在保证特定信息的前提下,对原始数据进行适当变换以达到扩充数据集的效果
    • (1) 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等,这些变换对应着同一个目标在不同角度的观察结果
    • (2) 对图像中的像素添加噪音扰动,比如椒盐噪声、高斯噪声等
    • (3) 颜色变换,比如:在图像的 RGB 颜色空间上进行主成分分析,得到3个主成分的特征向量 $p_{1}, p_{2}, p_{3}$ 及其对应的特征值 $\lambda_{1}, \lambda_{2}, \lambda_{3}$,然后在每个像素的 RGB 值上添加增量 $[p_{1}, p_{2}, p_{3}]\cdot [\alpha_{1}\lambda_{1}, \alpha_{2}\lambda_{2}, \alpha_{3}\lambda_{3}]^{T}$,其中 $\alpha_{1}, \alpha_{2}, \alpha_{3}$ 是均值为 0、方差较小的高斯分布随机数
    • (4) 改变图像的亮度、清晰度、对比度、锐度等
    • (5) 对图像进行特征提取,然后在图像的特征空间内进行转换,利用一些通用的数据扩充或上采样技术,例如:SMOTE(Synthetic Minority Over-sampling Technique) 算法
    • (6) 利用生成模型生成新样本,例如:生成式对抗网络(GNN)
    • (7) 借助已有的其他模型或数据来进行迁移学习,例如:对于大部分图像分类任务,并不需要从头开始训练模型,而是借用一个在大规模数据集上预训练好的通用模型,并在针对目标任务的小数据集上进行微调(fine-tune),这种微调操作就 可以看成是一种简单的迁移学习

1.图像处理

1.1 图像调整

1.2 图像噪音扰动

1.3 颜色转换

1.4 改变图像亮度、清晰度、对比度、锐度

2. 图像特征提取

2.1 图像上采样

3. 生成对抗网络

4. 迁移学习