資料探勘六大分析功能和應用?

資料探勘是因為海量有用資料快速增長的產物。使用計算機進行歷史資料分析,1960年代數字方式採集資料已經實現。1980年代,關聯式資料庫隨著能夠適應動態按需分析資料的結構化查詢語言發展起來。資料倉儲開始用來儲存大量的資料。因為面臨處理資料庫中大量資料的挑戰,於是資料探勘應運而生,對於這些問題,它的主要方法是資料統計分析和人工智慧搜尋技術。

資料探勘(Data mining)的定義,是一個跨學科的電腦科學分支 。它是用機器學習和資料庫的交叉方法在相對較大型的資料集中發現模式的計算過程。資料探勘過程的總體目標是從一個資料集中提取資訊,並將其轉換成可理解的結構,以進一步使用。除了原始分析步驟,它還涉及到資料庫和資料管理方面、資料預處理、模型與推斷方面考量、興趣度度量、複雜度的考慮,以及發現結構、視覺化及線上更新等後處理。

資料探勘是「資料庫知識發現」(Knowledge-Discovery in Databases,KDD)的分析步驟 ,本質上屬於機器學習的範疇。資料探勘利用一個龐大數據庫建立模型(Model),並從中找出隱藏的特殊關聯性及特徵。例如:某公司握有自身客戶的資訊(包含:年齡、資產、交易頻率、交易量等),利用此資料庫找出其客戶消費的模式、習慣,並據此將客戶群分類,藉此針對不同客群做出精準行銷。

資料探勘所建立的模型可分為六種:

  1. 分類分析(Classification):根據資料的屬性採用樹狀結構建立決策模型。透過研究數據庫中的特徵,將已知資料做出分類,並根據已知的特徵預測未經分類的新進數據。像客戶群分類。
  2. 分群分析(Clustering):和分類分析的概念相似,把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集(subset),這樣讓在同一個子集中的成員物件都有相似的一些屬性,。
  3. 迴歸分析(Regression):就是“由果索因”的過程,是一種歸納的思想,透過一系列的現有數據去預測未知數據的可能值。例如:我們可以透過分析某一地區多筆房地產交易的數據庫(包含:坪數、地點、房型、交易金額等),對另一個未售出的房產做出成交金額預測。
  4. 時間序列分析(Time Series Forecasting):和迴歸分析的概念相同,也是藉由已知的數據來預測未來數據的可能值。其不同點在於:時間序列分析模型中的數據中必須含有時間關聯性。透過時間序列分析,可得知事件沿著時間軸(如季節性、節日、過去與未來的相關性)所產生的變化情形,進一步使用歷史資料來預測未來趨勢。
  5. 關聯分析(Association): 是分析數據庫中各資料彼此相依的機率,通常被用來分析公司各產品被同時購買的關係與頻率。例如:某顧客在已經購買該品牌洗髮精的情況下,同時購買該品牌潤髮乳的機率。
  6. 順序型態分析(Sequential Pattern Analysis): 與關聯分析相似,只是順序型態分析中的數據中具有次序及時間的關係。例如:某顧客在已經購買該品牌洗髮乳後,一周後再度購買潤髮乳所發生的機率。

參考資料

  1. 維基百科—資料探https://zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

作者:劉德泰

現職:
1111人力銀行數位策略顧問
17Sharing.org公益知識分享平台發起人
經歷:
緯育股份有限公司 總經理
資訊工業策進會數位教育研究所 主任
經濟部工業局「國家型數位學習與典藏產業推動計畫」-協同計畫主持人
經濟部工業局「國際化軟體人才暨產業技師培育計畫」-計畫主持人
中華民國數位學習學會常務監事

在〈資料探勘六大分析功能和應用?〉中有 4,774 則留言