什么是样品?
样本是指从较大群体中划分出来的较小、易于管理的版本。它是包含较大总体特征的子集。当总体规模过大,无法涵盖所有可能的成员或观测值时,统计检验中就会使用样本。样本应能代表整个总体,并且不应反映出对特定属性的任何偏倚。
研究人员和统计学家使用多种抽样技术,每种技术都有其自身的优点和缺点。
要点总结
- 在统计学中,样本是从较大总体中划分出来的分析子集。
- 使用样本可以让研究人员以更易于管理的数据,并及时开展研究。
- 如果样本足够大,随机抽取的样本偏差不大,但获得这样的样本可能既昂贵又耗时。
- 在简单随机抽样中,总体中的每个实体都是相同的,而分层随机抽样则将总体分成更小的组。
理解样本
样本是从总体中抽取的一组无偏观测值。简单来说,总体是指特定群体或情境中包含的所有观测值(例如,个体、动物、物品、数据等)。换句话说,样本是总体的一部分,是总体的一个子集。样本广泛应用于各种研究领域。科学家、市场营销人员、政府机构、经济学家和研究团队等都会使用样本进行研究和测量。
利用全体人群进行研究会面临诸多挑战。研究人员可能难以轻易接触到全体人群。而且,由于某些研究的性质,研究人员可能难以及时获得所需结果。因此,人们会采用抽样调查。使用数量较少但能代表全体人群的样本,既可以得出有效的结果,又能节省时间和资源。
研究人员使用的样本必须与更广泛的人群相符,才能做出准确的推断或预测。样本中的所有参与者都应具有相同的特征和品质。因此,如果研究对象是大学一年级男生,那么样本应该是符合这一描述的一小部分男性。同样,如果一个研究小组对50岁以上单身女性的睡眠模式进行研究,那么样本应该只包括这一年龄段的女性。
特殊考虑
假设有一组学术研究人员想要了解有多少考生备考CFA考试的时间少于40小时却仍然通过了考试。由于每年全球有超过20万人参加CFA考试,如果要联系到每一位考生,将会耗费大量的时间和资源。
事实上,等到收集并分析完总体数据后,几年时间可能已经过去,届时新的群体可能已经出现,分析结果也就失去了意义。研究人员可以采取的替代方案是,从总体中抽取样本,并从该样本中获取数据。
为了获得无偏样本,样本选择必须是随机的,这样总体中的每个人都有相等且可能的概率被纳入样本组。这类似于抽奖,也是简单随机抽样的基础。
为了获得无偏样本,选择必须是随机的,这样总体中的每个人都有相同的机会被添加到该组中。
抽样类型
简单随机抽样
如果总体中的每个个体都完全相同,那么简单随机抽样是理想的选择。如果研究人员并不在意样本对象是全男性、全女性还是男女混合,那么简单随机抽样可能是一种不错的选择方法。
假设2021年有20万考生参加了CFA考试,其中40%为女性,60%为男性。因此,从总体中抽取的随机样本应该包含400名女性和600名男性,总共1000名考生。
但如果我们需要知道学习时间不足40小时后通过考试的男性和女性的比例呢?在这种情况下,分层随机抽样比简单随机抽样更合适。
分层随机抽样
这种抽样方法,也称为比例随机抽样或配额随机抽样,将总体划分为若干较小的群体,这些群体被称为层。同一层内的人群具有相似的特征。
如果年龄是研究人员希望纳入数据的重要因素,该怎么办?他们可以使用分层随机抽样技术,为每个年龄组创建不同的层。从每一层中抽取样本都必须是随机的,这样该年龄组中的每个人都有被纳入样本的概率。例如,两位参与者 Alex 和 David 分别 22 岁和 24 岁。样本选择不能基于任何优先机制而偏向其中一人。他们两人在各自年龄组中被选中的概率应该相等。分层结构可能如下所示:
| 地层(年龄) | 人口数量 | 样本中包含的数量 |
|---|---|---|
| 20-24 | 30,000 | 150 |
| 25-29 | 70,000 | 350 |
| 30-34 | 40,000 | 200 |
| 35-39 | 30,000 | 150 |
| 40-44 | 20,000 | 100 |
| >44 | 10,000 | 50 |
| 全部的 | 20万 | 1,000 |
根据表格,人口已按年龄组划分。例如,2021年有30,000名年龄在20至24岁之间的人参加了CFA考试。按照同样的比例,样本组中将有(30,000 ÷ 200,000) × 1,000 = 150名属于该年龄组的考生。Alex或David——或者两人都可能,或者两人都不可能——可能包含在这150名随机抽取的考生样本中。
在确定样本量时,还可以纳入更多分层因素。一些研究人员在决定如何创建样本时,可能会考虑受测者的职业、国家、婚姻状况等因素。
示例
2021年,世界人口接近79亿,其中女性占49.6%,男性占50%。任何国家的总人口数也可以被视为一个人口规模。一个城市的学生总数可以被视为一个人口规模,一个城市里的狗的总数也可以被视为一个人口规模。可以从这些人口规模中抽取样本用于研究目的。
沿用我们之前提到的CFA考试示例,研究人员可以从总共20万名考生(即总体)中抽取1000名CFA考生作为样本,并对这1000名考生进行所需的数据分析。然后,研究人员将计算该样本的平均值,以此来估计那些学习时间不足40小时却仍然通过CFA考试的考生的平均比例。
所选取的样本组不应存在偏差。这意味着,如果1000名CFA考试参与者的样本均值为50,那么20万名考生的总体均值也应约为50。
为什么分析师使用样本而不是测量总体?
通常情况下,由于总体规模过大或分布过于广泛,无法对每个成员进行测量,而且测量每个成员既费时又费钱。因此,通过抽样,我们可以利用统计方法对总体进行推断。
什么是简单随机抽样?
这种抽样方法使用从总体中随机选择的受访者或数据点。当样本量足够大时,随机抽样可以消除偏差。
为什么随机样本可以用于推断?
统计学定律表明,通过样本可以对总体进行准确的测量和评估。方差分析(ANOVA) 、线性回归以及更高级的建模技术之所以有效,是因为大数定律和中心极限定理。
您需要多大的样本?
这取决于总体规模和您想要进行的分析类型(例如,您使用的置信区间)。功效分析是一种根据您的需求,通过数学方法评估所需最小样本量的技术。另一个经验法则是,您的样本量应该足够大,但不应超过总体规模的10%。