心智圖資源庫 資料探勘與分析技術思維導圖
利用人工智慧、機器學習、統計等方法從海量的資料中提取有用的、事先不為人知的模式或知識的計算過程。
編輯於2021-12-27 22:46:49資料探勘與分析技術
第一章 資料探勘概述
課前了解
總括
機器學習
操作流程
數據導入
資料預處理
特徵工程
分割
訓練模型
評估模型
預測新數據
人工智慧
大數據的特點
大量
多元
高速
價值
1.1資料探勘導論
定義
利用人工智慧、機器學習、統計等方法從海量的資料中提取有用的、事先不為人知的模式或知識的計算過程
背景
資料量急劇膨脹,產生了新的研究方向:基於資料庫的知識發現,以及相應的資料探勘理論和技術的研究
網路之後的下一個技術熱點
大量資訊再帶給人們方便的同時也帶來了一大堆問題
資訊過量,難以消化
資訊真假難以辯識
資訊安全難以保證
資訊形式不一,難以統一處理
數據爆炸但知識貧乏
從商業數據到商業資訊的演化
資料蒐集→資料存取→資料倉儲、決策支援→資料探勘(提供預測性資訊)
階段
資料預處理
清洗、整合、選擇、變換
資料探勘
模式評估
流程
數據、資訊、知識
數據
“8000m”、“10000m”
產生於客觀事物的觀察與測量,我們把被研究的客觀事物稱為實體
資訊
“8000m是飛機飛行最大高度”、“10000m的高山”
知識
“飛機無法翻越這座高山”
智慧
主要內容
關聯規則挖掘
啤酒和尿布
監督式機器學習
離散標籤預測—標籤分類
連續標籤預測—數值預測
非監督式機器學習—聚類(相似性演算法)
回歸
建立多個變數之間的定量關係
演算法的分類
監督學習
從給定的訓練資料中學習一個函數(模型),當新的資料到來時,可以根據這個函數(模型)預測結果
訓練資料有明確的標識或結果
迴歸演算法、神經網路、SVM支援向量機
回歸演算法
線性迴歸
處理數值問題,最後預測結果是數字,如:房價
邏輯迴歸
屬於分類演算法,如:判斷郵件是否為垃圾郵件
神經網路
應用於視覺辨識、語音識別
SVM支援向量機演算法
邏輯迴歸演算法的強化
無監督學習
訓練資料不被特別標識
聚類演算法、降維演算法
聚類演算法
計算族群中的距離,根據距離的遠近將資料劃分為多個族群
降維演算法
將數據從高維降低到低維,維度表示數據的特徵量的大小,如:房價包含房子的長、寬、面積、房間數量四個特徵,即維度為4維的數據,而長與寬事實上與面積表示的資訊重疊了,面積=長×寬,透過降維出去冗餘訊息
壓縮資料、提升機器學習效率
企業數據應用
半監督學習
如何利用少量的標註樣本和大量的未標註樣本進行訓練和分類問題
影像辨識
強化學習
學習對像根據觀察到的周圍環境的回饋做出判斷
機器人控制
1.2資料探勘基本流程及方法
基本方法
預測性挖掘
在當前數據上進行推斷,以進行預測
描述性挖掘
刻畫資料庫中資料的一般特性(相關、趨勢、聚類、異常…)
資料探勘流程圖
六中主要的資料探勘方法(P6)
對資料集的概要總結
資料的關聯規則
描述資料之間潛在聯繫的一種方式,通常用A-B的蘊含式來表示
分類與預測
聚類
異類偵測
時間序列模型
1.3資料探勘的應用
商務
醫療與醫學
銀行和保險
社群媒體
工具
Weka、matlab、Java
相關資料
子主題
第二章 資料描述與視覺化
2.1概述
分析資料屬性與資料值→資料描述與視覺化
2.2資料對象與屬性類型
數據集
由資料物件組成
銷售資料庫:客戶、商店物品、銷售額 醫療資料庫:病患、治療訊息 大學資料庫:學生、教授、課程訊息
資料對象
一個資料對象代表一個實體
稱為:樣本、範例、實例、資料點、物件、元組
屬性
資料對象的一個特徵
術語
資料庫:維
機器學習:特徵
統計:變數
資料探勘、資料庫:屬性
分類
標稱屬性
標稱屬性值是一些符號或事物的名稱,代表類別和名稱
標稱屬性:髮色,可能值:黑、白、棕 標稱屬性:婚姻狀態,可能值:已婚、單身、離婚、喪偶
二元屬性(特殊的標稱屬性)
只有兩個類別和狀態
對稱二進位
資料規模差異小 例:性別——男、女
不對稱二進位
資料規模差異大 例:醫療檢測-陰性、陽性
序數屬性
有順序,但相互之間的差值未知,通常用於等級評定
教師職稱、軍階、顧客滿意度
數值屬性
區間標度屬性
以單位長度順序性量測
比率標度屬性
具有固定零點,有序且可以計算倍數
離散屬性與連續屬性
2.3數據的基本統計描述
中心趨勢量測
平均數、中位數、眾數
度量資料的散佈
極差、四分位數、四分位數極差
五數概括、盒圖與離群點
變異數、標準差
資料基本統計的圖形描述
分位數圖
分位數-分位數圖
直方圖
高度——數量、頻率
散點圖
發現屬性之間的相關性
2.4數據可視化
定義
透過圖形有效地表達數據
三中可視化方法
箱線圖(盒圖)
分析多個屬性資料的離散度差異性
可顯示資料的分佈、顯示離群點(需刪除)
直方圖
分析單一屬性在各區間的變化分佈
散點圖
顯示兩組數據的相關性分佈
2.4.1基於像素的可視化
視覺化一維值的簡單方法就是使用像素,用像素的顏色反映該維的值
適用於一維值,不適用多維空間資料的分佈
2.4.2幾何投影可視化
幫助使用者發現多維資料的投影,幾何投影技術的首要挑戰是設法解決如何在二維中視覺化高維度空間
對於二維資料點,通常以直角座標系散點圖,在散佈圖中可以使用不同的顏色或形狀作為資料的第三維
(三維資料集使用)散佈圖、散佈圖矩陣、平行座標視覺化(維數較多的時候)
2.4.3基於圖符的可視化
用少量圖符表示多維資料值
兩種常用的圖符方法
切爾諾夫臉 (允許可視化多達36維度)
揭示數據中的變化趨勢
臉的眼、口、鼻等要素用不同形狀、大小、位置和方向來表示維的值
每張臉表示一個n維資料點(n≤18),透過辨識臉部微小差異來理解多種臉部特徵的意義
人物線條畫
2.4.4層次可視化
把所有維劃分成子集(即子空間),這些子空間以層次視覺化
兩種常用的層次視覺化方法
X軸Y軸子集層次化
數圖
2.4.5可視化複雜物件和關係
標籤雲
2.5數據相似性和相異性度量
概念
相似度
度量兩個資料物件的有多相似,值越大越相似,通常取值範圍為[0,1]
相異度
度量兩個資料物件的差異程度,值越小表示資料越相似,最小相異度通常為0
鄰近性
指相似度或相異度
提供兩種資料結構
資料矩陣(物件-屬性矩陣)
存放n個資料對象,n各資料對象就有n行,p個屬性特徵就有p列)
相異性矩陣(物件-物件矩陣)
用於存放資料物件的相異性值
通常是三角矩陣
標稱屬性的鄰近性量測
二元屬性的鄰近性量測
數值屬性的相異性
數值屬性物件相異性的常見幾種計算距離度量的方法
歐幾裡得距離
曼哈頓距離
歐與曼同時滿足以下性質
閔可夫斯基距離
歐與曼的推廣
上確界距離
給出對象的差的最大值
序數屬性的鄰近性量測
混合型屬性的相異性
每種類型的屬性分成一組,對每種類型分別進行資料探勘分析(如聚類分析) 如果這些分析得到相同的結果,則方法可行,但在實際應用中,對每種屬性類型分類很難得到相同的結果
更好的方法:只要做一次分析,將不同屬性組合在單一相異性矩陣中,把屬性轉換成共同的區間[0.0,0.1]
例題
子主題
餘弦相似性(了解即可)
文字檢索、生物資訊挖掘
文檔向量、詞頻率向量
頻向量通常很長,而且是稀疏的(有許多0值)
第七章 支援向量機
支援向量機的分類
線性二值分類問題
尋找最優超平面
第六章 分類與預測
6.1數據分類
連續的變數
身高、體重
分類變數
無序分類變數
有序分類
資料分類的一般方法
定類、定序、定距、定比
6.2決策樹模型
產生決策樹
修剪決策樹
6.2.1決策樹的工作原理
6.3貝葉斯分類模型
極大後驗假設
學習器在候選假設集合H中西南召給定資料D時可能性自大的假設h,h稱為極大後驗假設
需要求聯合機率
通常假設每個屬性都是獨立同分佈的
在此之前要進行相關性計算,進行合併,使屬性間的相關性最小
特點
屬性可以離散,也可連續
數學基礎堅實,分類效率穩定
對缺失、雜訊資料、離群點較不敏感
屬性如果不相關,分類效果很好
6.4線性判別模型
6.5邏輯迴歸模型
6.6模型的評估與選擇
第五章 關聯規則挖掘
5.1概述
概念
關聯規則挖掘用於挖掘事物資料庫中項集間的相關聯繫,挖掘出滿足支持度和置信度最低閥值要求的所有關聯規則
關聯規則是找出大量資料中資料項目之間潛在的、有用的依賴關係
頻繁項集
滿足最小支持度、最小可信度的項集
支持度
可信度
強規則
滿足或超過最小支持度和可信度的規則
資料探勘的主要步驟
在大數據的項集中,找出出現次數≥頻繁項集
從上面所得的頻繁項集,建立滿足最小支持度和可信度條件的關聯規則
5.2分類
5.3研究步驟
5.4 Apriori演算法分析
5.6關聯規則的推廣(GRI)
深度優先搜尋
5.7關聯規則的深入挖掘
第四章 資料的歸約(Data Reduction)
4. 1 概述保持
保持數據原貌的前提下最大程度地精簡數據
4.2屬性的選擇與數值歸約
屬性的評估準則(P58)
一致性測量
兩個屬性一致性程度
教育程度與VIP等級的一致性程度
關聯性測量
不同屬性之間的關聯性是指它們之間彼此依賴的關係
教育程度與VIP等級的關聯性
兩個屬性之間的關聯度越高,表示由其中一個屬性的值推斷另一個屬性的值的準確率越高
鑑別能力測量
某一屬性對資料庫中的記錄的區分能力
資訊量測量
一個屬性所包含的資訊量越大,則它越重要
資訊量的大小通常以「資訊熵」來衡量
屬性子集選擇方法
逐步向前選擇
設定目標屬性集為空
每次迭代都從原始資料集剩下的屬性中選擇最優的一個屬性加入到目標屬性集中
從原始資料集中刪除該屬性
重複此過程,直至目標集滿足要求為止
逐步向後選擇
先將原始屬性集賦值非目標屬性集
每次迭代從目標屬性集中剔除綜合評分最差的一個屬性
重複此過程,直到目標屬性集滿足要求為止
數值歸約
將屬性作變數變換以減少其動態範圍
簡單函數變換
數據的標準化
將屬性離散化,用整數編碼
等寬離散化、等深離散化
將屬性二元化,使其只有兩種取值
如果屬性值是訊號或影像,也可以進行壓縮編碼
4. 3 線性迴歸
定義
是研究單一依變項與一個或以上自變項之間的關係
用處
預測指的是用已觀察的變數來預測依變項
因果分析則是將自變項當作是依變項發生的原因
線性迴歸
多元迴歸
非線性迴歸
對不呈線性依賴的資料建模
使用多項式迴歸建模方法,然後進行變數變換,將非線性模型轉換為線性模型,然後用最小平方法求解
4. 4 主成分分析(PCA Principal Component Analysis)
常用的高維度資料降維方法
將原始變數做線性組合,透過少數幾個組合變數反映原始數量的全部或絕大部分信息
組合變數即主成分
第三章 資料的收集與預處理(清洗、整合、歸約、變換)
3.1概述
大數據採集的特點
大數據生命週期的第一個環節
相對於傳統數據,大數據的數據具有大量、多元、異質等特點
大數據從採集到處理需要權衡一致性、可用性、分區容錯性
大數據採集的方法(了解)
分散式系統的日誌採集
網路資料擷取
網路爬蟲、網站公開API(應用程式介面)
DPI深度包檢測
DFI深度/動態流偵測
特定係統介面數據採集
3.2資料預處理的目的與任務
目的
提高數據的品質
主要任務
資料清洗
清楚數據中的噪聲,修正不一致
數據集成
將資料由多個資料來源合併成一致的資料存儲,如資料倉儲
資料變換(如標準化)
將資料壓縮到較小區間
3.3資料清洗
本質是一各修改資料模型的過程
資料清洗路徑(了解)
1.缺失值清洗
刪除缺失值
均值填補法
熱卡填補法
最近距離決定填補法
回歸填補法
多重填補方法
k—最近鄰法
基於貝葉斯的方法
2.異常值(離群點、野值)清洗
異常值定義與識別
異常值的處理
3.格式內容清洗
4.邏輯錯誤清洗
去重
去除不合理值
5.非需求資料清洗
6.關聯性驗證
3.4數據集成
概念
傳統意義上的數據集成
將自多個資料儲存的資料合併並存放在一個資料儲存中,如存放在資料倉儲中
泛指意義上的資料集成
ETL—抽取、轉換、載入(至目的端) 是建構資料倉儲的重要一環
使用者從資料來源抽出所需數據,經過資料清洗,最後依照預先定義的資料倉儲模型,將資料載入到資料倉儲中去
模型的重要性
對資料做標準化定義,實現統一的編碼、分類與組織
整合多個資料庫經常發生資料冗餘
檢測冗餘屬性
相關性分析
離散變數
卡方測試
值越大越相關
連續變數
相關係數
等於1、-1,完全線性相關
大於0,正相關
等於0,無線性相關關係
小於0,負相關
協方差分析
大於0,正相關
等於0,獨立性
有些資料協方差為0,但不是獨立的
小於0,負相關
資料歸約策略
降維
需要降維的場景
資料稀疏,維度高
高維度資料採用基於規則的分類方法
採用複雜模型(如深度學習),但是訓練集數較少
需要可視化
典型降維方法-PCA主成分分析
介紹
數據中許多屬性之間坑存在這樣或那樣的相關性
能否找到一個方法,將多個相關性的屬性組合僅僅形成一個屬性
概念
將原來多個具有一定相關性的屬性(例如p各屬性)重新組合成一組相互無關的綜合屬性來取代原來屬性。通常數學上的處理就是將原來p各屬性作線性組合,作為信訪人綜合屬性
舉例:學生成績,語數外政史地理化生,分為文科理科兩種屬性
降數據——抽樣
資料壓縮
透過降低資料的質量,如像素,來降低資料的規模
3.5資料變換
資料變換策略
光滑、屬性構造、聚集、規範化、離散化、概念分層
常用資料變換方法
透過規範化變換數據
透過分箱離散化
透過直方圖分箱離散化
透過聚類、決策樹和相關分析離散化
標稱資料的概念分層
離散化
等寬法
等頻法
聚類法