系统抽样与整群抽样:概述
系统抽样和整群抽样是研究人员、分析师和营销人员用来研究人口样本的两种统计方法。
系统抽样和整群抽样从总体中抽取样本点的方式不同。系统抽样使用从较大总体中固定间隔抽取样本,而整群抽样则将总体划分为不同的群。
系统抽样从总体中随机选择一个起始点,然后根据总体的大小,从总体中固定的时间间隔内抽取样本。整群抽样将总体划分为若干群,并从每个群中抽取一个简单随机样本。了解更多关于这些抽样方法的区别、优缺点、何时更适合使用哪种方法,并查看一些示例。
要点总结
- 系统抽样和整群抽样是研究人员、分析师和市场营销人员用来研究人口样本的统计方法。
- 系统抽样是指从较大的总体中选择固定的区间来创建样本。
- 整群抽样将总体分成若干组,然后从每组抽取随机样本。
- 系统抽样和整群抽样都是随机抽样的形式,称为概率抽样,这与非概率抽样形成对比。
- 系统抽样和整群抽样各有优缺点,但两者都能节省时间和成本。
系统抽样
系统抽样是一种随机概率抽样方法,也是研究人员和分析人员最常用、最受欢迎的方法之一。该方法涉及从一个较大的群体中抽取样本。虽然起点可能是随机的,但抽样过程中每个样本之间都保持固定的间隔。
具体操作如下。研究人员首先从一个更大的总体中选择一个起始点。这通常是一个整数,该整数必须小于总体中的个体数量。然后,分析人员为每个成员选择一个一致的间隔。
举个例子。假设一项研究的对象是100人。研究人员从第10个人开始,然后决定每隔7个人抽取一个样本。这意味着,抽样中选取的样本数据点为:10、17、24、31、38、45,以此类推。
系统抽样的类型
系统抽样方法包含三种抽样类型:
- 系统随机抽样:这种方法就是前面描述的方法,即使用设定的间隔来选择样本。
- 线性系统抽样:在这种方法中,统计学家选择一个随机的起始样本,并使用“跳跃逻辑”选择后续的每个样本,例如 k=N/n,其中 k 是区间,N 是总体,n 是样本容量。因此,如果总体为 500,样本容量为 3,则区间为 500/3。总共将抽取 167 个样本,间隔为 3 个样本。
- 循环系统抽样:样本从一个点开始,以设定的间隔从同一起点再次开始。例如,如果总体 (N) 为 {a, b, c, d, e, f},样本容量为 2,则样本间隔 (k) 可使用样本间隔公式 N/n(或 6/2=3)确定。从 {a} 开始,统计三个数据点并将两个数据点合并。因此,第一个样本为 {ad},第二个样本为 {be},然后依次为 {cf}、{da}、{eb} 和 {fc}。
系统抽样的优点和缺点
这种统计抽样方法相当简单,因此研究人员通常更倾向于使用它而不是其他方法。它在金融领域的某些方面也非常有用。使用这种方法的人假设结果能够代表大多数正常总体。
优势
操作简便,易于理解
在创建、比较和理解样本方面具有优势
与其他抽样方法相比,该方法能提供更高程度的控制。
它消除了聚集选择,即从总体中随机选择的样本不自然地彼此靠近。
由于数据被污染的可能性很低,因此风险因素较低。
保证对全体人口进行均匀抽样
缺点
需要知道总体规模。如果没有总体中参与者的具体数量,系统抽样就无法有效进行。
人口需要具有一定程度的自然随机性。
如果缺乏随机性,选择相似实例的风险就会增加,从而违背了抽样的目的。
由于使用这种方法的人可能会根据预期结果选择研究对象和时间间隔,因此操纵数据的风险可能更大。
系统抽样示例
系统抽样的目标是获得无偏样本。实现这一目标的方法是给总体中的每个参与者分配一个编号,然后选择相同的指定区间来创建样本。
例如,你可以选择每隔五个或二十个参与者,但对于每个总体,你必须选择相同的间隔。选择第n个数字的过程就是系统抽样的本质。
例如,假设一家牙膏公司研发了一种新口味的牙膏,想在正式上市销售前测试一下市场反响。该公司招募了50名志愿者,并采用系统抽样法从中抽取10名志愿者作为样本,收集他们对这款牙膏的意见。
首先,市场营销团队会给总体中的每个参与者分配一个编号。在本例中,总体人数为 50 人,因此会给每位参与者分配一个介于 1 到 50 之间的编号。接下来,他们需要确定所需的样本量,最终选择了 10 人作为样本量。
样本量变为 5,即 50/10,这意味着将从总体中每五个参与者中抽取一个作为样本。下表对此进行了说明,其中每五个参与者以粗体显示,他们被选入样本。
| 系统抽样与抽样间隔 | ||||
|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 |
| 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
| 31 | 32 | 33 | 34 | 35 |
| 36 | 37 | 38 | 39 | 40 |
| 41 | 42 | 43 | 44 | 45 |
| 46 | 47 | 48 | 49 | 50 |
聚类抽样
整群抽样是另一种随机统计方法。当一个较大的总体中存在不同的群体子集时,就会使用这种方法。这些群体被称为聚类,常用于市场营销团队和专业人士。
在研究城市、城镇或地区的人口统计数据时,由于人口规模庞大,最好使用整群抽样。
整群抽样是一个两步过程。首先,选择总体并将其划分为不同的群组。然后,从这些群组中随机抽取样本。例如,研究人员可能难以采访到一家杂货店的所有顾客。但是,他们可以先将部分商店划分为群组;这构成了该过程的第一步。第二步是采访这些商店的随机顾客。第三步,收集来自访谈和样本的数据。
聚类抽样类型
整群抽样有两种类型:单阶段整群抽样和两阶段整群抽样:
- 单阶段整群抽样:包括选择随机样本的集群,并从该集群中的每个对象收集数据。
- 两阶段整群抽样:包括随机选择多个集群,并在每个集群内随机选择某些对象,以形成最终样本。
两阶段抽样也可以看作是单阶段抽样的一个子集,因为从创建的聚类中抽取某些元素。
整群抽样的优点和缺点
如上例所示,当难以获得全体人口名单时,可以使用这种抽样方法。与系统抽样一样,整群抽样也各有优缺点。
优势
简单的手动操作流程,可以节省时间和金钱。
允许增加样本量
需要随机选择选定的聚类,而不是评估整个群体。
缺点
较大的抽样误差使其精度低于其他抽样方法。
同一聚类内的受试者往往具有相似的特征,这意味着整群抽样无法涵盖人口统计学上的多样性。
这通常会导致聚类内某种物种或群体过度代表或代表不足,从而造成偏差。
与其他方法相比,整群抽样相对便宜,因为其相关成本和费用通常较少。此外,统计学家只需从选定的群组中进行选择,因此可以增加每个群组内的样本数量。
聚类抽样示例
假设一项学术研究正在进行,旨在确定投资银行中有多少员工拥有MBA学位,以及其中有多少MBA学位来自常春藤盟校。统计学家不可能挨家挨户地询问每位员工的教育背景。为了实现这一目标,统计学家可以采用整群抽样法。
第一步是形成投资银行集群。然后,统计学家不必研究每一家投资银行,而是可以选择研究收入排名前三的投资银行,以此形成第一个集群。
由此,与其采访所有三家投资银行的每一位员工,不如形成另一个集群,其中只包括来自特定部门(如销售、交易或并购)的员工。
这种方法允许统计学家缩小样本规模,使其更加高效且经济,同时仍然拥有足够多样化的样本来衡量所寻求的信息。
主要区别
虽然系统抽样和整群抽样都是随机抽样,但它们确定样本量的方式不同。系统抽样是根据总体中固定的区间选择样本,而整群抽样则是从总体中创建若干个群组。
当特定总体内存在不同的子集时,整群抽样更为适用。相反,当已知总体的全部成员或部分成员数量时,系统抽样更为适用。然而,这两种抽样方法都是将总体分割成更小的单元进行抽样。
对于系统抽样,重要的是确保样本群体中不存在任何模式;否则,你可能会选择到相似的个体,而无法代表总体。对于整群抽样,重要的是确保每个群组都具有与整个样本相似的特征。
什么是整群抽样?
整群抽样是一种随机抽样方法,它将总体分成若干群来创建样本。可以从初始群中进一步划分群,从而缩小样本范围。
为什么要使用整群抽样?
整群抽样最适用于研究规模庞大、分布分散的人群,因为逐一访谈每个对象成本高昂、耗时费力,甚至可能根本无法实现。整群抽样允许创建样本量较小、特征相似的群组,以更好地代表被评估人群。
整群抽样是如何进行的?
整群抽样是指将研究总体划分为若干个较小的群体。这些子群体可以进行单独研究,也可以进一步随机划分为其他子群体。
整群抽样和分层抽样有什么区别?
整群抽样和分层抽样的主要区别在于,整群抽样中形成的群组是异质的,而分层抽样中形成的群组是同质的。
结论
统计学家在研究群体内部信息时,可以使用多种抽样方法。由于群体或总体往往规模庞大,因此很难获取每个个体的数据。为了克服这一难题,统计学家采用抽样方法,创建能够代表更大总体的较小群体。
创建这些小样本的一个重要方面是确保样本的随机性和准确性,使其能够准确代表总体。系统抽样和整群抽样是统计学家可以用来研究总体的两种方法。
两者都是随机抽样方法,既省时又省钱,可以将总体分成更小的组,以便于分析。系统抽样最适用于已知总体规模的情况,而整群抽样最适用于难以估算总体规模的情况。