语录
- Garbage in, garbage out.
- 对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限.
- 没有最好的模型,只有最合适的模型.
- 一个模型所能提供的信息一般来源于两个方面,一是训练数据中蕴含的信息;二是在模型的形成过程中(包括构造、学习、推理等),人们提供的先验信息.
特征工程
- 在机器学习中,所有数据最终都会转化为数值型特征,所有特征工程都会归结为某种数值型特征工程技术.
- 特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用.
- 结构化数据
- 数值型特征
- 特征合理性检查
- 量级
- 正负
- 特征尺度
- 尺度:
- 最大值,最小值
- 是否横跨多个数量级
- 尺度:
- 特征分布
- 对数变换
- Box-Cox变换
- 特征组合
- 交互特征
- 多项式特征
- 特征选择
- PCA
- 特征合理性检查
- 类别型特征
- 分类任务目标变量
- 类别特征
- 时间序列数据
- 时间序列插值
- 时间序列降采样
- 时间序列聚合计算
- 时间序列平滑
- 样本采样
- 欠采样
- 过采样
- 过采样和欠采样结合
- 数值型特征
- 非结构化数据
- 文本数据
- 扁平化
- 过滤
- 分块
- 图像数据
- 音频数据
- 视屏数据
- 文本数据