Image

图像数据不足时的处理方法

一个模型所能提供的信息一般来源于另个方面，一是训练数据中蕴含的信息；而是在模型的形成的过程中(包括构造、学习、推理等)，人们提供的先验信息。当训练数据不足时，说明模型从原始数据中获取的信息比较少，这种情况下想要保证模型的效果，就需要更多先验信息。先验信息可以作用在模型上，例如，让模型采用特定的内在结构、条件假设或添加其他一些约束条件；先验信息也可以直接施加在数据集上，即根据特定的先验假设去调整、变换或扩展训练数据，让其展示出更多的更有用的信息，以利于后续模型的训练和学习

对于图像分类任务处理方法：

基于模型的方法，主要是采用降低过拟合风险的措施
- 简化模型
  - 如：将非线性模型简化为线性模型
- 添加约束项以缩小假设空间，如:L1/L2正则项
- 集成学习
- Dropout超参数
- ...
基于数据的方法，主要是通过数据扩充(data augmentation)，即根据一些先验知识，在保证特定信息的前提下，对原始数据进行适当变换以达到扩充数据集的效果
- (1) 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等，这些变换对应着同一个目标在不同角度的观察结果
- (2) 对图像中的像素添加噪音扰动，比如椒盐噪声、高斯噪声等
- (3) 颜色变换，比如：在图像的 RGB 颜色空间上进行主成分分析，得到3个主成分的特征向量 $p_{1}, p_{2}, p_{3}$ 及其对应的特征值 $\lambda_{1}, \lambda_{2}, \lambda_{3}$，然后在每个像素的 RGB 值上添加增量 $[p_{1}, p_{2}, p_{3}]\cdot [\alpha_{1}\lambda_{1}, \alpha_{2}\lambda_{2}, \alpha_{3}\lambda_{3}]^{T}$，其中 $\alpha_{1}, \alpha_{2}, \alpha_{3}$ 是均值为 0、方差较小的高斯分布随机数
- (4) 改变图像的亮度、清晰度、对比度、锐度等
- (5) 对图像进行特征提取，然后在图像的特征空间内进行转换，利用一些通用的数据扩充或上采样技术，例如：SMOTE(Synthetic Minority Over-sampling Technique) 算法
- (6) 利用生成模型生成新样本，例如：生成式对抗网络(GNN)
- (7) 借助已有的其他模型或数据来进行迁移学习，例如：对于大部分图像分类任务，并不需要从头开始训练模型，而是借用一个在大规模数据集上预训练好的通用模型，并在针对目标任务的小数据集上进行微调(fine-tune)，这种微调操作就可以看成是一种简单的迁移学习

图像数据不足时的处理方法

1.图像处理

1.1 图像调整

1.2 图像噪音扰动

1.3 颜色转换

1.4 改变图像亮度、清晰度、对比度、锐度

2. 图像特征提取

2.1 图像上采样

3. 生成对抗网络

4. 迁移学习