什麼是樣品?
樣本是指從較大羣體中劃分出來的較小、易於管理的版本。它是包含較大總體特徵的子集。當總體規模過大,無法涵蓋所有可能的成員或觀測值時,統計檢驗中就會使用樣本。樣本應能代表整個總體,並且不應反映出對特定屬性的任何偏倚。
研究人員和統計學家使用多種抽樣技術,每種技術都有其自身的優點和缺點。
要點總結
- 在統計學中,樣本是從較大總體中劃分出來的分析子集。
- 使用樣本可以讓研究人員以更易於管理的數據,並及時開展研究。
- 如果樣本足夠大,隨機抽取的樣本偏差不大,但獲得這樣的樣本可能既昂貴又耗時。
- 在簡單隨機抽樣中,總體中的每個實體都是相同的,而分層隨機抽樣則將總體分成更小的組。
理解樣本
樣本是從總體中抽取的一組無偏觀測值。簡單來說,總體是指特定羣體或情境中包含的所有觀測值(例如,個體、動物、物品、數據等)。換句話說,樣本是總體的一部分,是總體的一個子集。樣本廣泛應用於各種研究領域。科學家、市場營銷人員、政府機構、經濟學家和研究團隊等都會使用樣本進行研究和測量。
利用全體人羣進行研究會面臨諸多挑戰。研究人員可能難以輕易接觸到全體人羣。而且,由於某些研究的性質,研究人員可能難以及時獲得所需結果。因此,人們會採用抽樣調查。使用數量較少但能代表全體人羣的樣本,既可以得出有效的結果,又能節省時間和資源。
研究人員使用的樣本必須與更廣泛的人羣相符,才能做出準確的推斷或預測。樣本中的所有參與者都應具有相同的特徵和品質。因此,如果研究對象是大學一年級男生,那麼樣本應該是符合這一描述的一小部分男性。同樣,如果一個研究小組對50歲以上單身女性的睡眠模式進行研究,那麼樣本應該只包括這一年齡段的女性。
特殊考慮
假設有一組學術研究人員想要了解有多少考生備考CFA考試的時間少於40小時卻仍然通過了考試。由於每年全球有超過20萬人參加CFA考試,如果要聯繫到每一位考生,將會耗費大量的時間和資源。
事實上,等到收集並分析完總體數據後,幾年時間可能已經過去,屆時新的羣體可能已經出現,分析結果也就失去了意義。研究人員可以採取的替代方案是,從總體中抽取樣本,並從該樣本中獲取數據。
爲了獲得無偏樣本,樣本選擇必須是隨機的,這樣總體中的每個人都有相等且可能的概率被納入樣本組。這類似於抽獎,也是簡單隨機抽樣的基礎。
爲了獲得無偏樣本,選擇必須是隨機的,這樣總體中的每個人都有相同的機會被添加到該組中。
抽樣類型
簡單隨機抽樣
如果總體中的每個個體都完全相同,那麼簡單隨機抽樣是理想的選擇。如果研究人員並不在意樣本對象是全男性、全女性還是男女混合,那麼簡單隨機抽樣可能是一種不錯的選擇方法。
假設2021年有20萬考生參加了CFA考試,其中40%爲女性,60%爲男性。因此,從總體中抽取的隨機樣本應該包含400名女性和600名男性,總共1000名考生。
但如果我們需要知道學習時間不足40小時後通過考試的男性和女性的比例呢?在這種情況下,分層隨機抽樣比簡單隨機抽樣更合適。
分層隨機抽樣
這種抽樣方法,也稱爲比例隨機抽樣或配額隨機抽樣,將總體劃分爲若干較小的羣體,這些羣體被稱爲層。同一層內的人羣具有相似的特徵。
如果年齡是研究人員希望納入數據的重要因素,該怎麼辦?他們可以使用分層隨機抽樣技術,爲每個年齡組創建不同的層。從每一層中抽取樣本都必須是隨機的,這樣該年齡組中的每個人都有被納入樣本的概率。例如,兩位參與者 Alex 和 David 分別 22 歲和 24 歲。樣本選擇不能基於任何優先機制而偏向其中一人。他們兩人在各自年齡組中被選中的概率應該相等。分層結構可能如下所示:
| 地層(年齡) | 人口數量 | 樣本中包含的數量 |
|---|---|---|
| 20-24 | 30,000 | 150 |
| 25-29 | 70,000 | 350 |
| 30-34 | 40,000 | 200 |
| 35-39 | 30,000 | 150 |
| 40-44 | 20,000 | 100 |
| >44 | 10,000 | 50 |
| 全部的 | 20萬 | 1,000 |
根據表格,人口已按年齡組劃分。例如,2021年有30,000名年齡在20至24歲之間的人蔘加了CFA考試。按照同樣的比例,樣本組中將有(30,000 ÷ 200,000) × 1,000 = 150名屬於該年齡組的考生。Alex或David——或者兩人都可能,或者兩人都不可能——可能包含在這150名隨機抽取的考生樣本中。
在確定樣本量時,還可以納入更多分層因素。一些研究人員在決定如何創建樣本時,可能會考慮受測者的職業、國家、婚姻狀況等因素。
示例
2021年,世界人口接近79億,其中女性佔49.6%,男性佔50%。任何國家的總人口數也可以被視爲一個人口規模。一個城市的學生總數可以被視爲一個人口規模,一個城市裏的狗的總數也可以被視爲一個人口規模。可以從這些人口規模中抽取樣本用於研究目的。
沿用我們之前提到的CFA考試示例,研究人員可以從總共20萬名考生(即總體)中抽取1000名CFA考生作爲樣本,並對這1000名考生進行所需的數據分析。然後,研究人員將計算該樣本的平均值,以此來估計那些學習時間不足40小時卻仍然通過CFA考試的考生的平均比例。
所選取的樣本組不應存在偏差。這意味着,如果1000名CFA考試參與者的樣本均值爲50,那麼20萬名考生的總體均值也應約爲50。
爲什麼分析師使用樣本而不是測量總體?
通常情況下,由於總體規模過大或分佈過於廣泛,無法對每個成員進行測量,而且測量每個成員既費時又費錢。因此,通過抽樣,我們可以利用統計方法對總體進行推斷。
什麼是簡單隨機抽樣?
這種抽樣方法使用從總體中隨機選擇的受訪者或數據點。當樣本量足夠大時,隨機抽樣可以消除偏差。
爲什麼隨機樣本可以用於推斷?
統計學定律表明,通過樣本可以對總體進行準確的測量和評估。方差分析(ANOVA) 、線性迴歸以及更高級的建模技術之所以有效,是因爲大數定律和中心極限定理。
您需要多大的樣本?
這取決於總體規模和您想要進行的分析類型(例如,您使用的置信區間)。功效分析是一種根據您的需求,通過數學方法評估所需最小樣本量的技術。另一個經驗法則是,您的樣本量應該足夠大,但不應超過總體規模的10%。