我們所見到的民調(Public Opinion Poll),無論是某議題的贊成或反對,或某人的支持與否,在公佈答案之後,往往都會加上標題的那句話:「在95%的信心之下,誤差3%」,為什麼呢?
任何一個非統計專家,其實都可以做簡易民調。衹要隨機找到一個具代表性的,1000人的有效樣本,對某一議題(或候選人)做贊成或反對的調查,信心和誤差就會如題目所述。
假設民調結果有530個人贊成(或支持),那麼你就可以說,在95%的信心之下,有53%(=530/1000)的人支持此人或此法案,誤差在±3%。換句話說,根據這個樣本,民調的結果有95%的機率,是落在50 ~56%之間。其中50=53-3,而56=53+3。
您當然會問95%怎麼來的,誤差在正負3%又是怎麼回事?
簡單的說,我們就好比在丟1000次銅板(也就是做1000次伯努利實驗),結果有530次是正面。換句話說,我們有0.53的機率是正面,而機率0.53就是樣本平均值。
我們利用二項分佈公式(Binomial Distribution),計算出這個樣本平均值的標準差,公式是 SQRT(P×(1-P)÷N),亦即0.53×(1-0.53)÷1000,然後再開根號,得到0.0158 = 1.58%,所以我們有了樣本平均值0.53,和樣本平均值標準差0.0158。

如果母體(總投票人口)夠大,我們可以假設真正的投票結果是個常態分佈。而根據常態分佈的扣鐘型分佈曲線,95%的數值,會落在樣本平均值的1.96個標準差之內如Fig-1(此為中央極限定理)。從以上這個例子,樣本平均值是0.53,1.96個標準差就是0.0158×1.96=0.031,大於3%一點點(這是否表示N=1000還不夠?)。
所以「在95%的信心之下,誤差3%」在此就是說,我們打了1000通民調電話,得到的P,其實是有95%的機會落在 (0.53-0.031,0.53+0.031)=(0.499, 0.561),或者約距P=0.53 上下 3%的區間內。
但實際情況是,我們在做民調前並不知道P,但還是要先計算出合理的N(此處的N僅考慮型一誤差),使得結果符合「在95%的信心之下,誤差3%」。現假設P=0.5(此為虛無假設),標準差 x 1.96= 3%,套用
標準差 = SQRT(P×(1-P)÷N),帶入後 0.03/1.96 = SQRT(0.5×(1-0.5)÷N),得到 N=1068,換句話說,只要參與民調的有1068(或更多,愈多愈準),我們可以說如果民調結果P落在(0.5-0.03,0.5+0.03)=(0.47, 0.53),也就是誤差3%,我們有95%信心,P=0.5。
我們當然也可以將虛無假設訂為P=0.53,也就是前述的例子。需要的N是0.03/1.96 = SQRT(0.53×(1-0.53)÷N),N = 1064 (約為1000)。
其實衹要隨機選取約1000人的樣本,而P接近0.5,代表95%信心的1.96個二項分佈標準差總是在3%左右。換句話說,95%的信心和3%的誤差是自然發生的。民調真正準確的關鍵,還是在於所取的樣本,是否真正是隨機樣本。市話號碼隨機產生的樣本,其實不見得隨機;街上隨便攔路人問,也不見得夠隨機;網站上的民調也不是。隨機真是個大學問。
延伸閱讀
作者:陳少君

經歷:
在矽谷創業20年,後因照顧父母回國服務。
曾任長鑫存儲CIO/VP
曾任資策會數教所資深總監
曾任台灣佳能資深技術總監
曾任浩鑫資深技術總監