异常值处理

  • 异常值的定义:在一个特征的观测值中,明显不同于其他数据或不合乎常理的观测值

异常值出现的原因:

  • 人为错误
    • 数据输入、记录导致的错误
  • 自然错误
    • 测量误差,比如仪器出现故障

异常值检测方法:

  • 简单可视化分析
    • 对特征值进行一个数据可视化,远远偏离大部分样本观测值的样本点认为是异常值
  • 3 $\sigma$ 原则
    • 当数据服从正态分布,根据正态分布的定义可知,一个观测值出现在距离平均值 3 $\sigma$ 之外的概率是 $P(|x-\mu| > 3\sigma)<=0.003$,这属于极小概率事件,因此,当观测值距离平均值大于 3 $\sigma$,则认为该观测值是异常值;
  • 箱型图分析(数字异常值,Numeric Outlier)
    • 落在 (Q1 - 1.5 * IQR) 和 (Q3 + 1.5 * IQR) 之外的观测值认为是异常值
  • Z-score
    • 假设特征服从正态分布,异常值是正态分布尾部的观测值点,因此远离特征的平均值。距离的远近取决于特征归一化之后设定的阈值 $Z_thr$, 对于特征中的观测值 $x_i$,如果 $Z_i = \frac{x_i - \mu}{\sigma} > Z_thr$,则认为 $x_i$ 为异常值,$Z_thr$ 一般设为,2.5,3.0,3.5

特征异常值处理方法:

  • 直接删除含有缺失值的样本
    • 优点:简单粗暴
    • 缺点:造成样本量(信息)减少
  • 将异常值当做缺失值,交给缺失值处理方法来处理
    • 优点:
    • 缺点:
  • 用特征的均值修正;
    • 优点:
    • 缺点:

极值分析