什么是同方差?
同方差(也拼作“homoscedastic”)是指回归模型中残差或误差项的方差为常数的情况。也就是说,误差项不会随着预测变量值的变化而发生很大变化。另一种说法是,所有数据点的方差大致相同。
这表明了一定程度的一致性,并且使得通过回归建模和处理数据变得更加容易;然而,缺乏同方差可能表明回归模型可能需要包括额外的预测变量来解释因变量的表现。
重点摘要
- 当回归模型中误差项的方差为常数时,就会出现同方差性。
- 如果误差项的方差是同方差的,则模型定义良好。如果方差太大,则模型可能定义不明确。
- 添加额外的预测变量可以帮助解释因变量的表现。
- 相反,当误差项的方差不是恒定的时,就会出现异方差。
同方差如何发挥作用
同方差性是线性回归建模的一个假设,这种类型的数据适用于最小二乘法。如果回归线周围的误差方差变化很大,则回归模型可能定义不明确。
同方差性的反义词是异方差性,正如“同质”的反义词是“异质性”。异方差性(也拼作“异方差性”)是指回归方程中误差项的方差不是常数的情况。
特别注意事项
一个简单的回归模型或方程由四个项组成。左侧是因变量。它表示模型试图“解释”的现象。右侧是常数、预测变量和残差或误差项。误差项显示因变量中无法由预测变量解释的变异量。
同方差的例子
例如,假设你想用每个学生花在学习上的时间来解释学生的考试成绩。在这种情况下,考试成绩将是因变量,而学习时间将是预测变量。
误差项表示测试分数中不能用学习时间解释的方差量。如果方差是均匀的,或同方差的,那么就表明该模型可能足以解释测试成绩——用学习时间来解释。
但方差可能是异方差的。误差项数据图可能显示,大量的学习时间与高考试成绩非常接近,但较少的学习时间的考试成绩差异很大,甚至包括一些非常高的分数。
因此,分数的差异不能仅通过一个预测变量(学习时间)来很好地解释。在这种情况下,其他因素可能在起作用,可能需要增强模型才能识别它或它们。
当考虑到方差是预测结果和特定情况的实际结果之间的测量差异时,确定同方差有助于确定哪些因素需要调整以提高准确性。
进一步调查可能会发现,一些学生提前看到了考试答案,或者他们以前参加过类似的考试,因此不需要为这次考试复习。就此而言,结果可能只是学生的考试通过能力水平不同,与他们的学习时间和以前考试的表现无关,无论科目是什么。
为了改进回归模型,研究人员必须尝试其他解释变量,以便更准确地拟合数据。例如,如果一些学生提前看到了答案,那么回归模型将有两个解释变量:学习时间,以及学生是否事先知道答案。
有了这两个变量,测试分数的更多方差就可以得到解释,并且误差项的方差可能具有同方差,这表明该模型定义明确。
异方差性是什么意思?
统计学中的异方差是误差方差。这是样本中至少有一个独立变量的散射依赖性。这意味着可预测变量的标准差是不恒定的。
如何判断回归是否具有同方差性?
您可以通过查看最大方差与最小方差之间的比率来判断回归是否为同方差。如果比率为 1.5 或更小,则回归为同方差。
为什么同方差很重要?
同方差性很重要,因为它可以识别群体中的差异。群体或样本中任何不均匀的方差都会产生扭曲或有偏差的结果,从而使分析不正确或毫无价值。