示例:它在统计学中的含义、类型和示例

  |  

什么是样品?

样本是指从较大群体中划分出来的较小、易于管理的版本。它是包含较大总体特征的子集。当总体规模过大,无法涵盖所有可能的成员或观测值时,统计检验中就会使用样本。样本应能代表整个总体,并且不应反映出对特定属性的任何偏倚。

研究人员和统计学家使用多种抽样技术,每种技术都有其自身的优点和缺点。

要点总结

  • 在统计学中,样本是从较大总体中划分出来的分析子集。
  • 使用样本可以让研究人员以更易于管理的数据,并及时开展研究。
  • 如果样本足够大,随机抽取的样本偏差不大,但获得这样的样本可能既昂贵又耗时。
  • 在简单随机抽样中,总体中的每个实体都是相同的,而分层随机抽样则将总体分成更小的组。

理解样本

样本是从总体中抽取的一组无偏观测值。简单来说,总体是指特定群体或情境中包含的所有观测值(例如,个体、动物、物品、数据等)。换句话说,样本是总体的一部分,是总体的一个子集。样本广泛应用于各种研究领域。科学家、市场营销人员、政府机构、经济学家和研究团队等都会使用样本进行研究和测量。

利用全体人群进行研究会面临诸多挑战。研究人员可能难以轻易接触到全体人群。而且,由于某些研究的性质,研究人员可能难以及时获得所需结果。因此,人们会采用抽样调查。使用数量较少但能代表全体人群的样本,既可以得出有效的结果,又能节省时间和资源。

研究人员使用的样本必须与更广泛的人群相符,才能做出准确的推断或预测。样本中的所有参与者都应具有相同的特征和品质。因此,如果研究对象是大学一年级男生,那么样本应该是符合这一描述的一小部分男性。同样,如果一个研究小组对50岁以上单身女性的睡眠模式进行研究,那么样本应该只包括这一年龄段的女性。

特殊考虑

假设有一组学术研究人员想要了解有多少考生备考CFA考试的时间少于40小时却仍然通过了考试。由于每年全球有超过20万人参加CFA考试,如果要联系到每一位考生,将会耗费大量的时间和资源。

事实上,等到收集并分析完总体数据后,几年时间可能已经过去,届时新的群体可能已经出现,分析结果也就失去了意义。研究人员可以采取的替代方案是,从总体中抽取样本,并从该样本中获取数据。

为了获得无偏样本,样本选择必须是随机的,这样总体中的每个人都有相等且可能的概率被纳入样本组。这类似于抽奖,也是简单随机抽样的基础。

为了获得无偏样本,选择必须是随机的,这样总体中的每个人都有相同的机会被添加到该组中。

抽样类型

简单随机抽样

如果总体中的每个个体都完全相同,那么简单随机抽样是理想的选择。如果研究人员并不在意样本对象是全男性、全女性还是男女混合,那么简单随机抽样可能是一种不错的选择方法。

假设2021年有20万考生参加了CFA考试,其中40%为女性,60%为男性。因此,从总体中抽取的随机样本应该包含400名女性和600名男性,总共1000名考生。

但如果我们需要知道学习时间不足40小时后通过考试的男性和女性的比例呢?在这种情况下,分层随机抽样比简单随机抽样更合适。

分层随机抽样

这种抽样方法,也称为比例随机抽样或配额随机抽样,将总体划分为若干较小的群体,这些群体被称为层。同一层内的人群具有相似的特征。

如果年龄是研究人员希望纳入数据的重要因素,该怎么办?他们可以使用分层随机抽样技术,为每个年龄组创建不同的层。从每一层中抽取样本都必须是随机的,这样该年龄组中的每个人都有被纳入样本的概率。例如,两位参与者 Alex 和 David 分别 22 岁和 24 岁。样本选择不能基于任何优先机制而偏向其中一人。他们两人在各自年龄组中被选中的概率应该相等。分层结构可能如下所示:

地层(年龄)人口数量样本中包含的数量
20-24 30,000 150
25-29 70,000 350
30-34 40,000 200
35-39 30,000 150
40-44 20,000 100
>44 10,000 50
全部的20万1,000

根据表格,人口已按年龄组划分。例如,2021年有30,000名年龄在20至24岁之间的人参加了CFA考试。按照同样的比例,样本组中将有(30,000 ÷ 200,000) × 1,000 = 150名属于该年龄组的考生。Alex或David——或者两人都可能,或者两人都不可能——可能包含在这150名随机抽取的考生样本中。

在确定样本量时,还可以纳入更多分层因素。一些研究人员在决定如何创建样本时,可能会考虑受测者的职业、国家、婚姻状况等因素。

示例

2021年,世界人口接近79亿,其中女性占49.6%,男性占50%。任何国家的总人口数也可以被视为一个人口规模。一个城市的学生总数可以被视为一个人口规模,一个城市里的狗的总数也可以被视为一个人口规模。可以从这些人口规模中抽取样本用于研究目的。

沿用我们之前提到的CFA考试示例,研究人员可以从总共20万名考生(即总体)中抽取1000名CFA考生作为样本,并对这1000名考生进行所需的数据分析。然后,研究人员将计算该样本的平均值,以此来估计那些学习时间不足40小时却仍然通过CFA考试的考生的平均比例。

所选取的样本组不应存在偏差。这意味着,如果1000名CFA考试参与者的样本均值为50,那么20万名考生的总体均值也应约为50。

为什么分析师使用样本而不是测量总体?

通常情况下,由于总体规模过大或分布过于广泛,无法对每个成员进行测量,而且测量每个成员既费时又费钱。因此,通过抽样,我们可以利用统计方法对总体进行推断。

什么是简单随机抽样?

这种抽样方法使用从总体中随机选择的受访者或数据点。当样本量足够大时,随机抽样可以消除偏差。

为什么随机样本可以用于推断?

统计学定律表明,通过样本可以对总体进行准确的测量和评估。方差分析(ANOVA) 、线性回归以及更高级的建模技术之所以有效,是因为大数定律中心极限定理

您需要多大的样本?

这取决于总体规模和您想要进行的分析类型(例如,您使用的置信区间)。功效分析是一种根据您的需求,通过数学方法评估所需最小样本量的技术。另一个经验法则是,您的样本量应该足够大,但不应超过总体规模的10%。

推荐阅读

相关文章

如何利用新闻寻找套利机会?

交易者可以利用新闻来识别特殊的套利交易机会,即风险套利。两种风险套利是收购和合并套利以及清算套利。纯粹的套利交易涉及交易者试图从暂时的市场低效中获利,这种低效导致不同市场或不同经纪商之间的投资资产定价不同。这些暂时的价格低效为交易者提供了同时进行买卖交易的机会,从而锁定价格差异中固有的利润。

分拆、拆分和剥离:有何区别?

分拆、拆分与剥离:概述分拆、拆分和剥离是公司剥离某些资产、部门或子公司的不同方法。虽然母公司选择具体方法取决于下文所述的多种因素,但最终目标是提高股东价值。以下是公司选择剥离其持股的主要原因。重点摘要分拆、拆分和剥离是三种不同的撤资方式,但目的都是一样的:增加股东价值。分拆将新子公司的股份分配给现有股东。

索尼拥有的前 4 家公司

跨国企业集团索尼公司 ( SNE ) 是消费电子、娱乐和电信领域的主导力量。因此,很难想象该公司在二战后的卑微开端。 Masaru Ibuka 和 Akio Morita 创立了东京电子商店,该商店后来成为索尼公司,仅有 500 多美元和少数员工。

企业如何确定资产是否可能受损?

什么是受损资产?在美国,当账面价值或账面净值超过预期的未来现金流量时,资产被视为减值。如果企业将钱花在资产上,但不断变化的环境导致购买成为净损失,就会发生这种情况。几种可接受的测试方法可以识别受损资产。如果减值是永久性的,公司应当采用允许的方法计量减值损失,使其反映在公司的财务报表中。

10 位顶级女性首席运行官

财富500强排名首席运行官公司2021年财富500强排名凯伦·林奇CVS 健康4罗莎琳德布鲁尔沃尔格林靴子联盟16玛丽·巴拉通用汽车22盖尔·布德罗国歌23简·弗雷泽花旗集团33卡罗尔·托梅联合包裹服务34科里·巴里百思买66苏珊·格里菲斯进步74塔松达·布朗·达克特TIAA 79萨夫拉卡茨甲骨文80数据源:财富4.

简单随机样本:优点和缺点

统计学是应用数学的一个分支,它通过研究较小的事件或对象来帮助我们了解大型数据集。简而言之,您可以通过检查较小的样本来推断大量人口。统计分析通常用于识别许多不同领域的趋势,包括商业和金融。个人可以利用统计研究的结果对他们的资金、业务和投资做出更好的决策。研究人员通常从一个简单的随机样本开始。

相关词条

强制约束仲裁定义

什么是强制约束仲裁?强制约束仲裁是解决两方之间分歧的程序。顾名思义,意味着当事人被要求(或“授权”)使用仲裁员来听取他们的论点,并且必须接受仲裁员的决定;换言之,仲裁听证的结果具有“约束力”。在金融界,仲裁是解决客户与其金融机构之间纠纷的常用机制;投资者和经纪人或资金经理;或经纪人之间。

次级融资

什么是次级融资次级融资是指按偿债顺序排在担保贷方之后的债务融资。 “次级”融资意味着债务排在第一个担保贷方之后,意味着有担保贷方将在次级债务持有人之前得到偿还。分解次级融资由于资产债权较低,贷款人在次级融资中的风险高于高级贷款人。因此,次级融资可以由债务和股权融资的混合组成。

商业估值定义、方法和示例

什么是商业估值?企业估值是确定整个企业或公司单位经济价值的一般过程。出于多种原因,企业估值可用于确定企业的公允价值,包括销售价值、确定合伙人所有权、税收,甚至离婚诉讼。业主通常会求助于专业的业务评估人员,以客观地估计业务价值。概要企业估值决定了企业或业务单位的经济价值。出于多种原因,企业估值可用于确定企业的公允价值,包

系统抽样:它是什么,以及如何在研究中使用它?

什么是系统抽样?系统抽样是一种概率抽样方法,它从一个较大的总体中,按照一个随机的起始点,以固定的周期性间隔抽取样本成员。这个间隔称为抽样间隔,可以通过总体规模除以所需的样本规模来计算。尽管样本总体是预先选定的,但如果周期性间隔是预先确定的,且起始点是随机的,那么系统抽样仍然被认为是随机的。

数学中的统计:定义、类型和重要性

什么是统计学?统计学是应用数学的一个分支,涉及从定量数据中收集、描述、分析和推断结论。统计学背后的数学理论很大程度上依赖于微分和积分、线性代数和概率论。从事统计工作的人被称为统计学家。他们特别关心如何根据小样本的行为和其他可观察特征得出关于大群体和一般事件的可靠结论。

代表性示例:定义、重要性和示例

什么是代表性样本?代表性样本是指从总体中抽取的一个子集,旨在准确反映总体的特征。例如,一个有30名学生(15名男生和15名女生)的班级,其代表性样本可能包含6名学生:3名男生和3名女生。当总体规模较大时,样本在统计分析中非常有用,因为它们包含了总体中规模较小、易于管理的子集。