平均值插补法对标准差和相关系数的影响是怎么样的?

发布网友发布时间：2022-04-23 13:42

共2个回答

热心网友时间：2023-10-16 06:47

使用平均值替换法插补缺失数据，对该变量的标准差相关系数不会产生影响。但这种方法是建立在完全随机缺失(MCAR 的假设之上的，而且会造成变量的方差和标准差变小。

标准差表示了所有数据与平均值的平均距离，表示了数据的散度，如果标准差小，表示数据集中在平均值附近，如果标准差大则表示数据离标准差比较远，比较分散。

X、y两个变量组成了笛卡尔坐标系中的一个坐标(x,y)，这个坐标标识了一个点的位置。各包含n个常量的X,Y两组数据在笛卡尔坐标系中以n个点来进行表示。

相关系数用字母r来表示，表示两组数据线性相关的程度(同时增大或减小的程度)，从另一方面度量了点相对于标准差的散布情况，它没有单位。包含n个数值的X、Y两组数据的相关系数r的计算方法:

根据上面点的定义，将X、Y两组数据的关系以点的形式在笛卡尔坐标系中画出，SD线表示了经过中心点(以数据组X、Y平均值为坐标的点)，当r>0时，斜率=X的标准差/Y的标准差;当r<0时，斜率= X的标准差Y的标准差;的直线。通常用SD线来直观的表示数据的走向:

1、当r<0时SD线的斜率小于0时，则说明数据负相关，即当x增大时y减少。

2、当r>0时，SD线的斜率大于0时，则说明数据正相关，此时当x增大时y增大。

3、相关系数r的范围在[-1.1]之间，当r=0时表示数据相关系数为0(不相关)。当r=正负1时，表示数据负相关，此(x,y)点数据都在SD线上。

4、r的值越接近正负1说明(x,y)越靠拢SD线，说明数据相关性越强，r的值越接近0说明(x.y)点到SD线的散度越大(越分散)，数据相关性越小。

相关系数用字母r来表示，表示两组数据线性相关的程度（同时增大或减小的程度），从另一方面度量了点相对于标准差的散布情况，它没有单位。

热卡填充（Hot deck imputation）也叫就近补齐，对于一个包含空值的对象，热卡填充法在完整数据中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充。通常会找到超出一个的相似对象，在所有匹配对象中没有最好的。

而是从中随机的挑选一个作为填充值。这个问题关键是不同的问题可能会选用不同的标准来对相似进行判定，以及如何制定这个判定标准。该方法概念上很简单，且利用了数据间的关系来进行空值估计，但缺点在于难以定义相似标准，主观因素较多。

热心网友时间：2023-10-16 06:48

使用平均值替换法插补缺失数据，对该变量的标准差相关系数不会产生影响。但这种方法是建立在完全随机缺失(MCAR 的假设之上的，而且会造成变量的方差和标准差变小。

相关系数用字母r来表示，表示两组数据线性相关的程度（同时增大或减小的程度），从另一方面度量了点相对于标准差的散布情况，它没有单位。

热卡插补：

拟合插补：

拟合插补法则是利用有监督的机器学习方法，比如回归、最邻近、随机森林、支持向量机等模型，对缺失值作预测，其优势在于预测的准确性高，缺点是需要大量的计算。

导致缺失值的处理速度大打折扣。虽然替换法思想简单、效率高效，但是其替换的值往往不具有很高的准确性，于是出现了插补方法。