心智圖資源庫 模式識別
也叫作機器學習或資料探勘。主要包含了緒論、資料預處理、聚類分析、貝葉斯分類、近鄰法等。
編輯於2024-02-04 00:51:57Il s'agit d'une carte mentale sur le système de trading de stocks de flux émotionnels des shares A. Le contenu principal comprend: le système de trading de flux émotionnel A-share, comment utiliser le logiciel TongDaxin pour effectuer le trading de flux émotionnel.
J'ai trié le contenu pertinent de l'imagination psychologique ordinaire. L'imagination est le processus psychologique dans lequel le cerveau humain traite et transforme les apparences stockées et forme une nouvelle image. Il s'agit d'une activité cognitive de haut niveau et complexe, et c'est aussi une forme particulière de processus de réflexion. L'imagination utilise principalement des informations graphiques comme objet de traitement, plutôt que des mots et des symboles. J'espère que cela vous sera utile ~
Il s'agit d'une carte mentale sur l'utilisation irrégulière des classiques, et son contenu principal comprend: les personnes, les anneaux, les lois, les objets et les machines. Fournit une référence utile pour résoudre le problème.
Il s'agit d'une carte mentale sur le système de trading de stocks de flux émotionnels des shares A. Le contenu principal comprend: le système de trading de flux émotionnel A-share, comment utiliser le logiciel TongDaxin pour effectuer le trading de flux émotionnel.
J'ai trié le contenu pertinent de l'imagination psychologique ordinaire. L'imagination est le processus psychologique dans lequel le cerveau humain traite et transforme les apparences stockées et forme une nouvelle image. Il s'agit d'une activité cognitive de haut niveau et complexe, et c'est aussi une forme particulière de processus de réflexion. L'imagination utilise principalement des informations graphiques comme objet de traitement, plutôt que des mots et des symboles. J'espère que cela vous sera utile ~
Il s'agit d'une carte mentale sur l'utilisation irrégulière des classiques, et son contenu principal comprend: les personnes, les anneaux, les lois, les objets et les machines. Fournit une référence utile pour résoudre le problème.
模式識別
緒論
模式識別的基本概念
模式識別
用計算機來實現人的模式識別能力,即用計算機實現人對各種事物或現象的分析、描述、判斷、識別,將待識別的事物分配到各個模式類中的技術
模式識別可以看成是從模式向類別所作的映射
模式
物質或現象的相關訊息
廣義地說,存在於時間,空間中可觀察的物體,如果可以區別是否相同或相似,都可以稱為模式
模式是透過資訊收集,形成的對一個對象的描述,這種描述應該具備規範化、可理解、可識別的特點
說明
模式不是事物本身,而是從事物獲得的資訊。例如人的照片、個人資料
可以區分模式之間是否相似(與問題有關)
模式一般用向量來表示,下標可以反映時間特性、空間特性或其他標識
模式向量
透過對特定的個別事物進行觀測所得到的具有時間和空間分佈的資訊(有人稱樣本或樣本向量)
模式類
模式所屬的類別或同一類中模式的總體(簡稱類)
模式識別系統
由設計和實現兩個過程
模式所屬的類別或同一類中模式的總體(簡稱類)
設計(訓練、學習)
指以一定數量的樣本(稱為訓練集或學習集)進行分類器的設計
實現(決策、分類、判決)
指用所設計的分類器對待識別的樣本進行分類決策
系統組成
數據採集(數據獲取)
方式
透過各種感測器,將光或聲音等訊息轉換為電訊息,或將文字訊息輸入計算機
分類
一維波形:聲波,心電圖,腦電圖等
二維圖象:文字,圖像等
三維圖像:人臉等
物理量:人的身高,體重,商品的重量,品質等級等
邏輯量(0/1):有無,男女等
預處理
目的
去除噪聲,增強有用的信息
常用技術
一維訊號濾波去噪、圖象的平滑、增強、恢復、濾波等
特徵提取和選擇
目的
從原始資料中,得到最能反映分類本質的特徵
特徵形成
透過各種手段從原始資料中得出反映分類問題的若干特徵(有時需進行資料標準化)
特徵選擇
從特徵中選取若干最能有利於分類的若干特徵
特徵提取
透過某些數學變換,降低特徵數目
分類決策或模型匹配
在特徵空間中用判決規則將被辨識對象歸屬為某一類別
說明
此系統構造適合於統計模式辨識、模糊模式辨識、人工神經網路中有監督方法
對於結構模式識別方法,只需以基元提取代替特徵提取與選擇
對於聚類分析,分類器設計與決策合而為一,一步完成
影像特徵
顏色
紋理
形狀
空間關係
四個空間
三大任務
模式採集
特徵提取和特徵選擇
類型判別
相關問題
性能評價
測試錯誤率或誤差率
計算複雜性
劃分
分類依據
問題或樣本性質
有監督模式識別
先有一批帶有類別標籤的樣本,根據樣本集設計分類器,再判斷新的樣本類別
無監督模式識別
只有一批樣本,根據樣本之間的相似性直接將樣本集劃分成若干類別
主要方法
統計模式識別
分類
非監督分類
聚類分析
監督分類
集合分類
機率分類
描述方法
特徵向量
模式判定
以條件機率分佈P(X/i)表示,m類就有m個分佈,然後判定未知模式屬於哪一個分佈。
理論基礎
機率論
數理統計
優點
比較成熟
能夠考慮幹擾噪音的影響
識別模式基元能力強
缺點
對結構複雜的模式抽取特徵困難
不能反應模式的結構特徵,難以描述模式性質
難以從整體角度考慮識別問題
結構模式識別
模糊模式識別
神經網路法
理論基礎
神經生理學
心理學
模式描述方法
以不同活躍度表示的輸入節點集
模式判定
非線性動態系統
主要方法
BP模型、HOPField模型
優點
有效解決複雜的非線性問題
允許樣本有較大的缺損、畸變
缺點
缺少有效的學習理論
時間長
應用領域
圖像、人臉、文字、數字、指紋、語音...
基本問題
模式(樣本)表示方法
n維列向量
x= (x1 , x2 , …, xn)T
模式類的緊緻性
臨界點(樣本)
在多類樣本集中,當一些樣本的特徵值發生微小變化後,就變成另一類樣本,這樣的樣本稱為臨界樣本(點)
緊緻集
定義
同一模式類樣本的分佈比較集中,沒有或臨界樣本很少,這樣的模式類稱緊緻集
性質
臨界點很少
集合內的任兩點的連線,在線上的點屬於同 一集合
集合內的每一個點都有足夠大的鄰域,在鄰域內只包含同一集合的點
要求
滿足緊緻性
相似性
用各種距離表示相似性
常用距離
明考夫斯基(Minkowski) 距離
絕對值距離或城區距離或曼哈頓(Manhattan)距離(q=1)
歐幾里德(Euclidean)距離(q=2)
棋盤距離或切比雪夫(Chebyshev)距離(q=∞)
馬哈拉諾比斯(Mahalanobis)距離
其中協方差矩陣和均值為
數據的標準化
目的
消除各個分量之間數值範圍大小對演算法的影響
方法
標準化成[0,1]或[-1, 1]、變異數標準化
公式
特徵標準化
變異數標準化
資料預處理
為什麼進行資料預處理
不好
不完整
資料收集的時候就缺乏合適的數值
資料收集時和資料分析時的不同考慮因素
人為/硬體/軟體 問題
有噪音
資料收集工具的問題
資料輸入時的 人為/計算機 錯誤
資料傳輸中產生的錯誤
資料型別不一致
不同的資料來源
違反了函數依賴性
好
正確性:如是否正確,精確與否等
完整性:如是否有資料遺漏或無法取得
一致性:如一些數據被修改了而另一些則沒有
可靠性:描述資料的正確性的可信程度
任務
資料清理
填寫缺失的值,光滑雜訊數據,辨識、刪除離群點,解決不一致性
數據集成
整合多個資料庫、資料立方體或文件
資料變換與離散化
規範化
概念分層生成
數據歸約
維歸約
數量歸約
資料壓縮
特徵提取與特徵選擇
資料清理
❑ 填寫缺失值
原因
❑ 設備異常
❑ 與其他已有資料不一致而刪除
❑ 因為誤解而沒有輸入的數據
❑ 輸入時有些資料因沒有被重視而未輸入
❑ 對資料的改變沒有進行日誌記錄
處理
◼ 忽略元組:當類別標號缺少時通常這麼做(假定挖掘任務設計分類或描述),當每個屬性缺少值的百分比變務設計分類或描述),當每個屬性缺少值的百分比變化很大時,它的效果非常差。
"類別標號"(Class Label 或 Target Label)通常指的是資料集中「用於表示樣本所屬的類別或群組的標記」。
◼ 人工填入缺失值:工作量大,可行性低
◼ 自動填入缺失值
❑ 使用一個全域變數:例如unknown或-∞
❑ 使用屬性平均值
❑ 使用與給定元組屬同一類別的所有樣本的平均數或中位數
❑ 使用最可能的值來填入空缺值:使用像Bayesian公式或決策樹這樣的基於推理的方法
❑ 光滑雜訊數據
原因
❑ 資料收集工具的問題
❑ 資料輸入錯誤
❑ 資料傳輸錯誤
❑ 技術限制
❑ 命名規則的不一致
處理
分箱
首先排序數據,並將他們分到等深的箱中,然後可以按箱的平均值平滑、按箱中值平滑、按箱的邊界平滑等等
操作
等深分箱
邊界值平滑:把所有值都變成最大值或最小值
等寬分箱
[110,155),左閉右開
聚類
透過聚類來檢測並刪除離群點
回歸
過讓數據適應迴歸函數來平滑數據
❑ 識別或刪除離群點
❑ 解決資料中的不一致性
數據集成
◼ 資料集成:
❑ 將多個資料來源中的資料整合到一個一致的儲存中
◼ 模式整合:
❑ 整合不同資料來源中的元數據
◼ e.g. A.cust_id = B.customer_no
◼ 實體識別問題:
❑ 符合來自不同資料來源的現實世界的實體
◼ e.g. Bill Clinton = William Clinton
◼ 偵測並解決資料值的衝突
❑ 對現實世界中的相同實體,來自不同資料來源的屬性值可能是不同的
❑ 可能的原因:不同的資料表示,不同的量測等等
數據歸約
目的
◆對大規模資料庫內容進行複雜的資料分析常需要消耗大量的時間,使得對原始資料分析變得不切實際且不可行;
◆資料歸約(data reduction):資料消減或約簡,是在不影響最終挖掘結果的前提下,縮小所挖掘資料的規模。
◆資料歸約技術可以用來得到資料集的歸約表示,它小得多,但仍接近保持原始資料的完整性。
◆對歸約後的資料集進行挖掘可提高挖掘的效率,並產生相同(或幾乎相同)的結果。
標準
◆用於資料歸約的時間不應當超過或「抵消」在歸約後的資料集上挖掘節省的時間。
◆歸約得到的資料比原始資料小得多,但可以產生相同或幾乎相同的分析結果。
方法
◆數據立方體聚集;
將n維資料立方體聚集為n-1維的資料立方體。
◆維歸約(屬性歸約);
找出最小屬性集,確保新資料集的機率分佈盡可能接近原始資料集的機率分佈。
PCA
◆資料壓縮;
無損壓縮
有損壓縮
◆數值歸約;
透過選擇替代的、較小的資料表示形式來減少資料量。
類型
直方圖
聚類
取樣
◆離散化和概念分層生成。
規範化
最小—最大規範化
肯定是正的
z-score規範化(零均值規範化)
可能為負數
離散化
目的
資料離散化是將連續資料的值分成若干個區間,以簡化原始資料集的複雜度。
類型
無序集合中的值;e.g. 顏色、職業
有序集合中的值; e.g. 軍階、職稱
連續值;e.g. 實數
概念分層
聚類分析
概念
思想
基於某種相似度量的方法講各個帶分類的模型進行歸類
相似的歸為一類
演算法
根據相似性閾值和最小距離原則的簡單聚類方法
以最小距離原則不斷兩類合併的方法
依據準則函數動態聚類法
應用
聚類分析可以作為其它演算法的預處理步驟
可以作為一個獨立的工具來獲得資料的分佈情況
聚類分析可以完成孤立點挖掘
基於劃分的聚類方法
劃分法是將資料物件分割成不重疊的子集(簇),使得每個資料物件恰在一個子集中。
分類
距離類型
歐式距離
曼哈頓距離
閔可夫斯基距離
閔氏距離不是一種距離,而是一組距離的定義。
演算法類型
k-means(K-均值)演算法
輸入:簇的數目k和包含n個物件的資料庫D
輸出:k個簇,使平方誤差準則最小。
演算法步驟
1.為每個聚類確定一個初始聚類中心,這樣就有K個初始聚類中心。 2.將樣本集中的樣本依照最小距離原則分配到最鄰近聚類。 3.使用每個聚類中的樣本平均值作為新的聚類中心。 4.重複步驟2,3直到聚類中心不再改變。 5.結束,得到K個聚類。
特點
優點
簡單快速
可伸縮、效率高
當結果集是密集的時,效果比較好
缺點
簇的平均值被定義的情況下才能使用
必須事先給k
對初值很敏感,直接影響迭代次數
不適用於發現非凸面形狀的簇或大小差異很大的簇
對於「躁聲」和孤立點資料是敏感
改進
k-mode 演算法:實現對離散資料的快速聚類,保留了k-means演算法的效率同時將k-means的應用範圍擴大到離散資料。
k-prototype演算法:可以將離散與數值屬性兩種混合的資料進行聚類,在k-prototype中定義了一個對數值與離散屬性都計算的相異性度量標準。
k-中心點演算法( K-Mediods ):k -means演算法對於孤立點是敏感的。為了解決這個問題,不以簇中的平均值作為參照點,可以選用簇中位置最中心的對象,即中心點作為參考點。這樣劃分方法仍然是基於最小化所有物件與其參照點之間的相異度總和的原則來執行的。
k-medoids(K-中心點)演算法
輸入:簇的數目k和包含n個物件的資料庫。
輸出:k個簇
演算法步驟
1.為每個聚類確定一個初始聚類中心,這樣就有k個初始聚類中心。 2.計算其餘所有點到k個中心點的距離,並將每個點到k個中心點最短的聚集成自己所屬的聚集簇。 3.在每個叢集中依序選取點,計算該點到目前叢集中所有點距離總和,最終距離總和最小的點,則視為新的中心點。 4.重複2,3步驟,直到各簇的中心點不再改變。 5.結束,得到k個聚類。
特點
優點
K-medoids演算法計算的是某點到其它所有點的距離總和最小的點,透過距離總和最小的計算方式可以減少某些孤立資料對聚類過程的影響。從而使得最終效果更接近真實劃分。
缺點
相對於K-means演算法大約會增加O(n)的計算量,因此一般情況下K-medoids演算法更適用於小規模資料運算。
基於層次的聚類演算法
定義
將資料物件創建成一顆聚類的樹。依層次分解是自底向上或自頂向下形成,可進一步分為凝聚式層次聚類與分裂式層次聚類。
核心
如何度量兩個簇之間的距離,其中每個簇一般都是一個物件集。
分類
距離類型(簇間距離測量法)
演算法類型
AGNES(凝聚式層次聚類)
定義
AGNES(凝聚的層次聚類)是一種自底向上的策略,首先將每個物件作為一個簇,然後合併這些原子簇為越來越大的簇,直到某個終結條件被滿足。
相似度
兩個簇間的相似度由這兩個不同簇中距離最近的數據點對的相似度來決定。
步驟
1、將每個物件當成一個初始簇; 2、REPEAT; 3、根據兩個簇中最近的數據點找到最近的兩個簇; 4.合併兩個簇,產生新的簇的集合; 5.UNTIL達到定義的簇的數目;
DIANA(分裂式層次聚類)
BIRCH(利用層次方法的平衡迭代規則和聚類)
密度聚類方法
核心
只要一個區域中的點的密度大於某個域值,就把它加到與之相近的聚類中去。
分類
DBSCAN
核心
與劃分和層次聚類方法不同,它將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區域劃分為簇,並可在有「雜訊」的空間資料庫中發現任意形狀的聚類。
定義
物件的ε-臨域:給定物件在半徑ε內的區域。
核心對象(核心點):如果一個對象的ε-臨域至少包含最小數目MinPts個對象,則稱該對象為核心對象。
直接密度可達:給定一個對象集合D,如果p是在q的ε-鄰域內,而q是一個核心對象,我們說對象p從對象q出發是直接密度可達的。
密度可達:若存在核心點P2,P3,…,Pn,且P1到P2密度直達,P2到P3密度直達,…,P(n-1)到Pn密度直達,Pn到Q密度直達,則P1到Q密度可達。密度可達也不具有對稱性。
密度相連:如果存在核心點S,使得S到P和Q都密度可達,則P和Q密度相連。密度相連具有對稱性,如果P和Q密度相連,那麼Q和P也一定密度相連。密度相連的兩點屬於同一個聚類簇。
噪聲: 一個基於密度的簇是基於密度可達性的最大的密度相連對象的集合。不包含在任何簇中的物件被認為是“噪聲”。
步驟
1)如果該點的鄰域包含的點多於MinPts個,則其為核心點,否則該點暫時被記為雜訊點 2)找出所有從該點密度可達的對象,形成一個簇
特點
優點
聚類速度快且能夠有效處理雜訊點和發現任意形狀的空間聚類。
缺點
(1)當資料量增加時,要求較大的記憶體支援I/O消耗也很大; (2)當空間聚類的密度不均勻、聚類間距差相差很大時,聚類品質較差。 (3)有兩個初始參數ε(鄰域半徑)和minPts(ε鄰域最小點數)需要使用者手動設定輸入,並且聚類的類別簇結果對這兩個參數的取值非常敏感,不同的取值將產生不同的聚類結果。
OPTICS
DENCLUE
貝葉斯分類
樸素貝葉斯
Bayes法是一種在已知先驗機率與類條件機率的情況下的模式分類方法,待分樣本的分類結果取決於各類域中樣本的全體
樸素貝葉斯假設所有特徵屬性都是互相獨立的,這也正是演算法名稱中「樸素(naive)」一詞的由來
現實中屬性之間往往存在依賴,但有趣的是,即使在樸素貝葉斯演算法的獨立性假設明顯不成立的情況下,它也仍然能得到非常好的分類結果
貝葉斯公式
最小錯誤率
特徵是給的信息
類別是最終要求的
有多個特徵屬性時
意義
後驗機率P(cj |x)
即給定資料樣本x時cj成立的機率,而這正是我們所感興趣的(要計算的)
每個P(xk|Ci)可以透過先驗知識 或透過樣本集進行統計
先驗機率P(cj)
先驗機率P(Ci)可以透過先驗知識 或透過樣本集進行統計
P(x)可以約去或套公式
化簡
最小風險
決策表
計算方法
對於每種決策α,分別計算
取條件風險最小的決策
近鄰法
最近鄰法/K近鄰法
目的
確定一個點的分類
思路
在訓練資料集中找出與這個新實例最近的k 個訓練實例,然後統計最近的k 個訓練實例中所屬類別計數最多的那個類,就是新實例的類。
流程
計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離測量有歐式距離,馬氏距離等)
將上面所有的距離值進行排序
選取前k 個最小距離的樣本
根據這k 個樣本的標籤進行投票,得到最後的分類類別
k值的選擇
k值越小表示模型越複雜,更容易過度擬合 但是k值越大,模型越簡單,如果k=N的時候就表示無論什麼點都是訓練集中類別最多的那個類 所以一般k會取一個較小的值,然後用過交叉驗證來確定 這裡所謂的交叉驗證就是將樣本分割一部分出來為預測樣本,例如95%訓練,5%預測,然後k分別取1,2,3,4,5之類的,進行預測,計算最後的分類誤差,選擇誤差最小的k
差別
K-Means
目的是為了將一系列點集分成k類
K-Means是聚類演算法
非監督學習,將相似資料歸在一起從而得到分類,沒有外部分類
訓練資料集無label,是雜亂無章的,經過聚類後才變得有點順序,先無序,後有序
最近鄰法/K近鄰法
目的是為了確定一個點的分類
KNN是分類演算法
監督學習,分類目標事先已知
訓練資料集有label,已經是完全正確的數據
關聯規則
定義
基本概念
項目(item):例如可樂,薯片,麵包,啤酒,尿布都稱作item。
設I={i1, i2,…,im}是所有項(Item)的集合。
事務T是購買記錄,且對於每一個事務T具有唯一的標識,記作Tid。
D是所有事務(Transaction)的集合。
項集(itemset)是我們想研究的集合
項集中item的個數稱為項集的長度,含有k個item的項集稱為K-itemset。
關聯規則
形如A->B的邏輯蘊含式,其中A,B都不為空,且A⸦I, B⸦I,且(A交B=空)。
支援度Support
描述項集A和B在所有事務D中同時出現的機率
S(A->B)=P(AB)=|AB|/|D|
支持度是關聯規則重要性的衡量
置信度Confidence
在出現了項集A的事物T中,項集B也同時出現的機率。
C(A->B)=P(B|A)=|AB|/|A|
置信度是關聯規則的準確度的衡量
強關聯規則
D 在 I 上滿足最小支持度和最小可信度的關聯規則稱為強關聯規則。
提升度Lift
提升度表示A項集的出現,對B項集的出現有多少影響。
L(A->B)=P(AB)/(P(A)*P(B))
大於1
正相關
等於1
相互獨立
小於1
負相關
頻繁項集
滿足最小支持度的項集稱為頻繁項集。頻繁k-項集的集合通常記作Lk
目的
根據使用者指定的最小支持度和最小置信度來尋找強關聯規則
步驟
透過使用者給定最小支持度,尋找所有頻繁項目集或最大頻繁項目集
透過使用者給定最小可信度,在頻繁項目集中,尋找關聯規則
演算法
Apriori演算法
第一步透過迭代,檢索出交易資料庫中的所有頻繁項集,即支持度不低於使用者設定的閾值的項集;
頻繁項目:數數,算S
第二步利用頻繁項集建構出滿足使用者最小信任度的規則。
關聯規則:算C
FP-Growth