統計分析與我何干

統計分析可以離我們很遠,也可以很近。如果你完全相信媒體報導,習慣道聼塗説,人生中不做任何判斷和決定,那麼可以完全忽視。

股市、確診、賭盤、品管、市佔,不管你喜不喜歡,我們都活在機率世界裡,而且隨時隨地都可能需要賭一把。換句話說,人人都是賭徒,而賭徒需要學的技術,除了作弊之外,應該就是統計分析。

也許你報名參加機器學習或深度學習的課程,希望能夠預測股票甚至未來,但你還是很討厭統計分析。你覺得把資料收集起來,扔到模型裡面,然後泡杯咖啡得到答案就行了,何必需要去拒絕虛無假設,或者求95%信賴區間呢。

如果麥當勞號稱他的市占是35%,你負責做市調,發現隨機抽取350名消費者中,有120人選擇麥當勞,請問你是拒絕還是接受這個市佔的假設?(本問題以及之後的問題,都假設顯著水準 α = 0.05)

如果某藥廠號稱他的Covid-19新藥具有50%以上的治癒率,作為檢定人員,你隨機抽取了用者30人,發現有12人痊癒。他的聲稱是否有效?

你是個戶口普查員,5年以前某個社區有20%的家庭屬於貧困。現在你又對同一社區調查。隨機抽取400戶為樣本,結果發現70戶為貧戶。請問這個社區貧戶比率是否和5年前一樣?

這三個題目都是要去檢定母體(真實情況)比例。用簡單的求平均數,你可以直覺上否定這三個假設。但是從統計學的角度來看,這三個假設都無法拒絕,祇有接受。

聽起來很荒謬是嗎?其實一點也不,因為別忘了,你蒐集到的數字衹是樣本,而樣本值是隨機變數,不能看成一個固定數值,也就是不能只用樣本比例就去判斷母體比例。

由樣本比例去推斷母體比例,也就是真實狀況,統計學家用二項分佈去計算平均值和標準差,然後用常態分佈的假設,去判斷統計值是否落在臨界值之內或之外。

以麥當勞的例子來說,樣本比例是 p = 120/350 = 0.3428, 不等於0.35。我們忽略運算過程,最後算出的統計值 z= -0.274,落在臨界值±1.96區間之內,所以無法否定市占35%的假設。

其他的題目做法完全一樣,統計告訴我們,雖然直覺上是有差距,但是從統計角度看是沒有的。

要解決以上的問題,我們得學會「二項分佈」的平均值與標準差,以及用「常態分佈(z-分佈)」估算母體的比例的方法。

除了估算母體平均值之外,品管員也經常會需要估算母體的變異數,為的就是要瞭解生產過程當中的產品穩定度。這時我們會需要用「卡方分配」來計算結果。

包裝奶粉的企業品管部門,衹要包裝奶粉容量的變異數超過120,品管部門就要下令停止包裝,檢修包裝奶粉機器。現在品管隨機抽取30包奶粉,計算出變異數是132,(顯著水準α =0.05),此時要不要停止生產呢?

直覺上當然要(132 > 120)。但是在自由度(df)等於29(=30-1)的情況下,我們計算出卡方統計值等於29×132/120 = 31.9,而查表得知臨界值等於42.56,大於統計值31.9。我們無法拒絕變異數等於120的虛無假設,機器不需要停下來。

同樣道理,在生產管理過程當中,某工廠所生產出Oring,它號稱直徑是標準差不得超過0.007公分,現在取28個Oring,結果發現標準差是0.0086公分,那麼在顯著水準α =0.05的前提下,工廠的宣稱是否值得採信?

直覺上是有問題,0.0086>0.007。這卡方統計值等於40.75。而自由度等於27(=28-1)的卡方臨界值應該是40.11,統計上也認為剛剛好超過。也就是拒絕虛無假設,工廠的宣稱不值得採信。

所以無論是是市場調查人員或者是品管人員,統計分析知識是不可缺的。上回在下寫的一篇關於「一次快篩陽性是否確診」的文章,也說明統計知識在生活上也不可或缺。

不會統計可以學機器學習嗎?應該還是可以的,衹是有統計基礎,可以學得更扎實。統計是用樣本去推斷母體,而機器學習,其實也是用訓練集去預測測試集。預測母體(實情)本來就是我們的目的,統計比較傾向於用數學方法去做假設檢定,步驟嚴謹;而機器學習的演算法相當多元,直接就去做迴歸、分類、分群的動作,量測方法也有不少。在機器學習中其實也用了不少的統計知識,比方貝氏定理、混淆矩陣、最大似然,相關係數等等。

延伸閱讀

病毒也懂深度學習

AI可以讓金庸復活嗎?

黃金比例與十二平均律

文字產生圖像的魔術

智商與常態分佈

一次快篩陽性就是確診嗎?

作者:陳少君

經歷:
在矽谷創業20年,後因照顧父母回國服務。
曾任長鑫存儲CIO/VP
曾任資策會數教所資深總監
曾任台灣佳能資深技術總監
曾任浩鑫資深技術總監

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

回到頂端