异常值是落在分布的总体模式之外的观测值 (Moore 和 McCabe 1999)。通常,异常值的存在表明某种问题。这可能是不符合研究模型的案例,或者是测量中的错误。
异常值通常很容易在直方图中被发现。例如,上图中最左边的点就是一个异常值。
异常值的一个方便的定义是,一个点落在第三四分位数之上或第一四分位数之下超过 1.5 倍的四分位距。
当比较两组数据之间的关系时,也可能出现异常值。这种类型的异常值可以很容易地在散点图上识别出来。
当对数据执行最小二乘拟合时,通常最好在计算最佳拟合线之前丢弃异常值。对于沿 方向的异常值尤其如此,因为这些点可能会极大地影响结果。