你要學習AI和資料科學相關知識和技能,除了先要了解工作上有哪些AI角色外?也需要知道每個職務工作上有哪些專業技能需要學習,才能整體了解在職場上角色對應技能的需求,如表一所示,能夠運用這些專業職能才能把AI和資料科學分析和預測做好。(有關AI職務和職能不清楚,可先參考另外一篇文章:在AI和資料科學領域有哪些專業的工作職位?需要哪些關鍵工作和能力?)

AI和資料科學的發展流程和項目
AI和資料科學的發展流程,將歸納為5項發展項目,包括「資料需求」,「資料前處理」、「資料儲存」、「資料分析」、「資料視覺化」等,如圖一所示,我們需要瞭解每個工作發展項目要解決那些問題,使用什麼數位工具,後續才能知道要如何培養這些職能和技術。

- 「資料需求」工作項目
一個資料分析專案的成敗,「商業需求」和「資料來源」都非常重要,若是無法確定要分析的商業需求和蒐集到無法回答問題的資料,或是蒐集到「不可靠的資料」,後面建立了再好的分析模型,得出再棒的觀點,都是徒勞無功的。能不能有效的與領域專家確定商業需求和辨認出資料可以解決的問題,針對領域的商務問題和需求定義出正確的資料分析目標,並規劃資料蒐集的範圍與流程,確保資料來源的可信度,才能讓後面的分析有價值。
「資料需求」有三項主要的工作:
第一項工作:「蒐集商業問題與需求」:企業為提高營運效率,隨時需要檢視業務的工作項目,依照業務的工作項目會設定業務問題的分析需求,以解決業務問題。
第二項工作:「定義資料分析目標」:當我們定義出正確的領域問題後,資料科學家才可以思考這個問題該如何被資料解答。
第三項工作:「資料源選擇和蒐集資料」:確保資料的真實性與可信度,蒐集的途中要不斷檢視資料是否符合預期。
- 「資料前處理」工作項目
資料前處理,可以分為「資料蒐集」和「資料清理和轉換」
(1).「資料蒐集」有二類方式,一種從企業內部ERP、CRM、SCM資料庫依照資料分析需求蒐集資料庫相關檔案資料。另外一種是需要外部網站資料,透過網路爬蟲(web crawler),網路爬蟲會自動把想要的網站頁面資訊抓下來;以便事後生成索引供使用者搜尋。學網路爬蟲之前,必須要先學會什麼程式語言嗎?基本上要會Python、Java、C/C++其中一種程式語言,目前以Python最為常用去執行網路爬蟲。
(2).「資料清理和轉換」包含資料清理、資料整合、資料轉換
- 資料清理 (Data Cleaning)
資料清理是資料前處理的第一步,需要先將資料中的問題處理。主要的工作包涵:填補遺失值,處理 Outliers 及 Noise 問題,修正資料的不一致。
- 資料整合 (Data Integration)
資料整合也有人稱為是合併資料,將不同資料集/資料表的資料進行合併。不過也因為資料是來自於不同的資料源,就會產生資料對不起來,或是重複的問題。例如:最經典的案例是地理資料合併上,不同的資料採用不同的座標系,在合併之前就必須先處理過。還有,明明是相同的資料,也有可能因為在不同的資料及取名的差異,合併的時候變成兩筆不同的資料。這種透過資料屬性來合併,稱為 Schema integration。
- 資料轉換 (Data Transformation)
資料轉換是為了讓資料的數值在分析時不容易產生誤判錯誤。主要是重點在資料數值要如何轉換,常見方法有平滑化、一般化、標準化。若是資料中充滿大量的雜訊,讓資料看起來很亂的情況下。透過平滑化的方法,可以讓雜訊產生的干擾降低。一般化是將太過細節的資料,變得比較標準。標準化則是要讓資料的數值縮減到一個區間內,避免讓某個屬性的影響被放大或縮。
- 一般資料前處理整合平台通常包括以下許多工具:
資料前處理(ETL)工具:ETL 是擷取 (extract)、轉換 (transform) 和載入 (load) 的英文縮寫,這是最常見的資料整合方法。
資料擷取工具:這類工具有助您取得及匯入資料,除了馬上使用,也可儲存起來以備後用。
資料目錄:這可以幫助企業尋找和清查分散在多個資料孤島中的資料資產
資料管理工具:這類工具可確保資料的供應情形、安全性、可用性和完整性
資料清理工具:這類工具透過更換、修改或刪除方式清理品質不好的資料
資料遷移工具:這類工具可在電腦、儲存系統或應用程式格式之間移動資料
資料連接器:這類工具可在不同資料庫之間移動資料,還可以執行轉換
- 「資料儲存」工作項目
(1).「資料倉儲」專為資料分析所設計,資料倉儲可包含多個資料庫。在每個資料庫中,資料被整理成資料表和資料欄。在各欄中,您可以定義資料的描述,例如整數、資料欄位或字串。導入資料時,會將資料存放在結構化的各種表格中。查詢工具使用結構描述決定要存取和分析的資料表。
(2).「資料湖」是所有資料的中央儲存庫,包括結構化、半結構化和非結構化資料。資料倉儲要求以表格格式整理資料,這是結構描述發揮作用之處。需要表格格式才能使用 SQL 查詢資料。但是,並非所有應用程式都要求資料採用表格格式。某些應用程式,例如大數據分析、全文搜尋和機器學習,即使資料是半結構化或完全非結構化也可以存取。
- 「資料分析」工作項目
一般資料分析的方法包BI商業智慧、統計分析、資料探勘、AI的機器學習和深度學習。
(1). BI商業智慧
數據倉儲是資料分析中一個比較重要的東西,數據倉儲是一個面向主題、內建、相對穩定、反應歷史變化的資料集合。數據倉儲具有內建、穩定、高品質等特點,基於數據倉儲為OLAP資料分析提供的資料,往往能夠更加保證資料品質和資料完整性。
(2). 統計分析
統計學是資料分析的基石。學了統計學,你會發現很多時候的分析並不那麼準確,比如很多人都喜歡用平均數去分析一個事物的結果,但是這往往是粗糙的的。而統計學可以幫助我們以更科學的角度看待資料,逐步接近這個資料背後的真相。
大部分的資料分析,都會用到統計方面的以下知識,可以重點學習: 基本的統計量:均值、中位數、眾數、方差、標準差、百分位數等。更進一步,可掌握一些主流演算法的原理,比如線性回歸、邏輯回歸、決策樹、神經網路、關聯分析、分類、分群、隨機森林。
(3). 資料探勘演算法
主要包括分類演算法,分群演算法,關聯規則三大類,這是學習資料探勘必須要掌握的演算法基礎,這三類基本上涵蓋了目前商業市場對演算法的所有需求。
(4). AI人工智慧
人工智慧與資料分析有著明顯的界限,不屬於同一領域,包括機器學習、深度學習相關分析技能。
機器學習(Machine Learning)是一門涉及統計學、系統辨識、逼近理論、神經網絡、優化理論、計算機科學、腦科學等諸多領域的交叉學科,研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,是人工智慧技術的核心。
深度學(Deep Learning)是深度學習是機器學習的一種方法,「機器學習技術,就是讓機器可以自我學習的技術」。
深度學習的常用的模型
- DNN:深度神經網路(Deep Neural Networks),追根溯源的話,神經網絡的基礎模型是感知機(Perceptron)
- RNN:循環神經網絡(Recurrent Neural Networks)和遞歸神經網絡(Recursive Neural Networks)它們都可以處理有序列的問題,比如時間序列等。舉個最簡單的例子,我們預測股票走勢用RNN就比普通的DNN效果要好,原因是股票走勢和時間相關,今天的價格和昨天、上周、上個月都有關係。
- CNN:卷積神經網絡(Convolutional Neural Networks)雖然我們一般都把CNN和圖片聯繫在一起,但事實上CNN可以處理大部分格狀結構化數據(Grid-like Data)。
- 「資料視覺化」工作項目
資料視覺化(英語:Data visualization)被許多學科視為與視覺傳達含義相同的現代概念。它涉及到資料的視覺化表示的建立和研究。為了清晰有效地傳遞資訊,資料視覺化使用統計圖形、圖表、資訊圖表和其他工具。可以使用點、線或條對數字資料進行編碼,以便在視覺上傳達定量資訊。有效的視覺化可以幫助使用者分析和推理資料和證據。它使複雜的資料更容易理解和使用。科學視覺化、 資訊視覺化和可視分析學三個學科方向通常被看成視覺化的三個主要分支。
掌握表一、AI/資料科學職務類別與專業職能資料,和圖一、AI/資料科學的資料的相關內容,後續將可以設計符合設計相關職務類別角色的學習地圖:
商業智慧職務類別的學習地圖
商業智慧職務類別主要工作是識別市場先機,轉化為其轉化為可操作的建議。他監督專家收集和分析商業智慧資料,以說明做出明智的商業決策。他管理資料分析結果的即時報告,並有效地向業務領導表達自己的發現,見解和建議。在開發資料和資訊品質指標,研究新技術,開發業務案例來協助企業範圍的商業智慧解決方案。他對通過系統的方法分析和解決複雜的問題有很深的熱情。所以設計商業智慧職務類別培訓計劃之學習地圖,如圖二所示。

資料工程職務類別學習地圖
資料工程職務類別主要工作是需要支援數據流通道和數據處理系統的設計,實施和維護,以可擴展、可重複和安全的方式支援資訊的收集,存儲,批次處理和即時處理以及資訊分析。專注於為數據收集,處理和倉儲定義最佳解決方案。他設計、撰寫程式和測試數據系統,並致力於將其實施到系統基礎架構中。他致力於收集、解析、管理、分析和可視化大量數據,以將資訊轉化為可通過多個平台查詢的見解。他對數位充滿熱情,並使用大型數據集。他熱衷於理解業務流程並解決挑戰,以便藉助乾淨且相互關聯的資料庫和綱要結構提供解決方案。所以設計資料工程職務類別培訓計劃之學習地圖,如圖三所示。

機器學習職務類別學習地圖
人工智能/機器學習工程師支持執行可擴展和優化機器學習 (ML) 模型。專注於建構存取、轉換和載入的方法。針對大量即時非結構化數據,部署資料科學模型的機器學習解決方案。他操作測試已部署模型的性能實驗,以及識別並解決過程中出現的錯誤。他在團隊環境中工作,精通統計、腳本和組織所需的程式語言。他也熟悉相關的軟體平台,其中模型已部署。他應該知道的模型 AI 治理框架下的要求,和個人資料保護法研究 AI/ML 模型。AI/ML 工程師是一個堅定的人,他擅長處理大型數據集,對解決問題和實驗,並喜愛迭代發展和解決問題的過程。所以設計機器學習職務類別培訓計劃之學習地圖,如圖四所示。

AI和資料科學職務類別學習地圖
AI和資料科學家工作:通過應用科學方法和數據發現工具來分析數據。他整合並準備了各種大型數據集,並對複雜的業務問題進行了建模。通過使用統計,演算法,挖掘和可視化技術發現業務洞察力並識別機會。他協助設計專業的資料庫和計算環境、開發方法、執行分析,總結結果並得出結論。他擁有分析,機器學習、深度學習,資料探勘和統計分析技能的組合,以及演算法和撰寫程式方面的經驗。他對分析和解決複雜的業務問題有著濃厚的熱情。所以設計AI和資料科學家務類別培訓計劃之學習地圖,如圖五所示。

延伸閱讀
在AI和資料科學領域有哪些專業的工作職位?需要哪些關鍵工作和能力?
作者:劉德泰

現職:
1111人力銀行數位策略顧問
17Sharing.org公益知識分享平台發起人
經歷:
緯育股份有限公司 總經理
資訊工業策進會數位教育研究所 主任
經濟部工業局「國家型數位學習與典藏產業推動計畫」-協同計畫主持人
經濟部工業局「國際化軟體人才暨產業技師培育計畫」-計畫主持人
中華民國數位學習學會常務監事