登錄
登入

心智圖資源庫人工智慧領域的10大演算法

人工智慧領域的10大演算法

對很多人來講，人工智慧還是一個較為「高深」的技術，然而再高深的技術，也是從基礎原理開始的。人工智慧領域中就流傳著10大演算法，它們的原理淺顯，很早就被發現、應用，甚至你在中學時就學過，在生活中也都極為常見。本文透過通俗的語言帶你了解這10大演算法

編輯於2023-05-29 19:40:10

슈퍼직장인

最近的作品檢視更多>>

人工智慧領域的10大演算法

슈퍼직장인

最近的作品檢視更多>>

推薦給您
大綱

了解演算法的基本控制結果及其在生活中的應用
- 5
슈퍼직장인
演算法引論
- 4
슈퍼직장인
資料結構-演算法心智圖
- 12
슈퍼직장인
[408]資料結構與演算法
- 15
슈퍼직장인
如何高效學習演算法
- 5
슈퍼직장인
資料結構與演算法
- 10
슈퍼직장인
演算法通識
- 5
슈퍼직장인
人工智慧演算法
- 9
슈퍼직장인
演算法和資料結構
- 10
슈퍼직장인
演算法
- 6
슈퍼직장인

人工智慧領域的10大演算法

1.線性迴歸

定義

（Linear Regression ）可能是最受歡迎的機器學習演算法。線性迴歸就是要找一條直線，並且讓這條直線盡可能地擬合散佈圖中的資料點。它試圖透過將直線方程式與該資料擬合來表示自變數（x 值）和數值結果（y 值）。然後就可以用這條線來預測未來的數值！

這種演算法最常用的技術是最小平方法（Least of squares）。這個方法計算出最佳擬合線，以使得與直線上每個資料點的垂直距離最小。總距離是所有資料點的垂直距離（綠線）的平方和。其想法是透過最小化這個平方誤差或距離來擬合模型。

例如，簡單線性迴歸，它有一個自變數（x 軸）和一個因變數（y 軸）

常見應用

例如預測明年的房價漲幅、下一季新產品的銷售量等等。聽起來並不難，不過線性迴歸演算法的困難並不在於得出預測值，而在於如何更精確。為了那個可能十分細微的數字，多少工程師為之耗盡了青春和頭髮。

2.邏輯迴歸

定義

邏輯迴歸（Logistic regression）與線性迴歸類似，但邏輯迴歸的結果只能有兩個的值。如果說線性迴歸是在預測一個開放的數值，那麼邏輯迴歸比較像是做一道是或不是的判斷題。

邏輯函數中Y值的範圍從 0 到 1，是一個機率值。邏輯函數通常呈現 S 型，曲線把圖表分成兩塊區域，因此適合用於分類任務。

例如上面的邏輯迴歸曲線圖，顯示了通過考試的機率與學習時間的關係，可以用來預測是否可以通過考試。

常見應用

邏輯迴歸常被電商或外送平台用來預測使用者對品類的購買偏好。

3.決策樹

定義

以上就是一個決策樹的圖例，其中每一個有分叉的圈稱為節點。

在每個節點上，我們根據可用的特徵詢問有關資料的問題。左右分支代表可能的答案。最終節點（即葉節點）對應於一個預測值。

每個特徵的重要性是透過自頂向下方法確定的。節點越高，其屬性就越重要。例如在上面例子的老師就認為出席率比做作業重要，所以出勤率的節點就更高，當然分數的節點更高。

如果說線性和邏輯迴歸都是把任務在一個回合內結束，那麼決策樹（Decision Trees）就是一個多步驟的動作，它同樣用於回歸和分類任務中，不過場景通常更複雜且具體

常見應用

舉個簡單例子，老師面對一個班級的學生，哪些是好學生？如果簡單判斷考試90分就算好學生好像太粗暴了，不能唯分數論。那面對成績不到90分的學生，我們可以從作業、出勤、提問等幾個面向分開討論。

4.樸素貝葉斯

定義

樸素貝葉斯（Naive Bayes）是基於貝葉斯定理，即兩個條件關係之間。它測量每個類別的機率，每個類別的條件機率給出 x 的值。這個演算法用來分類問題，得到一個二元「是 / 非」的結果。看看下面的方程式。

常見應用

樸素貝葉斯分類器是一種流行的統計技術，經典應用是過濾垃圾郵件

用非術語解釋貝葉斯定理，就是透過A條件下發生B的機率，去得到B條件下發生A的機率。比如說，小貓喜歡你，有a%可能性在你面前翻肚皮，請問小貓在你面前翻肚皮，有多少機率喜歡你？當然，這樣做題，等於抓瞎，所以我們還需要引入其他數據，例如小貓喜歡你，有b%可能和你貼貼，有c%機率發出呼嚕聲。所以我們如何知道小貓有多大機率喜歡自己呢，透過貝葉斯定理就可以從翻肚皮，貼貼和呼嚕的機率計算出來。

5.支持向量機

定義

支援向量機（Support Vector Machine，SVM）是一種用於分類問題的監督演算法。支援向量機試圖在資料點之間繪製兩條線，它們之間的邊距最大。為此，我們將資料項繪製為 n 維空間中的點，其中，n 是輸入特徵的數量。在此基礎上，支援向量機找到一個最優邊界，稱為超平面（Hyperplane），它透過類別標籤將可能的輸出進行最佳分離。超平面與最近的類別點之間的距離稱為邊距。最優超平面具有最大的邊界，可以對點進行分類，從而使最近的資料點與這兩個類別之間的距離最大化。

常見應用

所以支援向量機想要解決的問題也就是如何把一堆資料做出區隔，它的主要應用場景有字元辨識、臉部辨識、文字分類等各種辨識。

6.K- 最近鄰演算法（KNN）

定義

K- 最近鄰演算法（K-Nearest Neighbors，KNN）非常簡單。 KNN 透過在整個訓練集中搜尋 K 個最相似的實例，即 K 個鄰居，並為所有這些 K 個實例分配一個公共輸出變量，來對物件進行分類。

K 的選擇很關鍵：較小的值可能會得到大量的雜訊和不準確的結果，而較大的值是不可行的。它最常用於分類，但也適用於迴歸問題。

用於評估實例之間相似性的距離可以是歐幾里德距離（Euclidean distance）、曼哈頓距離（Manhattan distance）或明氏距離（Minkowski distance）。歐幾裡得距離是兩點之間的普通直線距離。它實際上是點座標之差平方和的平方根

常見應用

KNN理論簡單，容易實現，可用於文字分類、模式辨識、聚類分析等。

7.K- 均值

定義

K- 均值（K-means）是透過對資料集進行分類來聚類的。例如，這個演算法可用於根據購買歷史將使用者分組。它在資料集中找到 K 個聚類。 K- 平均值用於無監督學習，因此，我們只需使用訓練資料 X，以及我們想要識別的聚類數量 K。

此演算法根據每個資料點的特徵，將每個資料點迭代地分配給 K 個群組中的一個群組。它為每個 K- 聚類（稱為質心）選擇 K 個點。基於相似度，將新的數據點添加到具有最近質心的聚類中。這個過程一直持續到質心停止改變為止。

常見應用

生活中，K- 均值在詐欺偵測中扮演了重要角色，在汽車、醫療保險和保險詐欺偵測領域中廣泛應用。

8.隨機森林

定義

隨機森林（Random Forest）是一種非常受歡迎的整合機器學習演算法。這個演算法的基本想法是，許多人的意見要比個人的意見更準確。在隨機森林中，我們使用決策樹整合（請參閱決策樹）。

（a）在訓練過程中，每個決策樹都是基於訓練集的引導樣本來建構的。

（b）在分類過程中，輸入實例的決定是根據多數投票做出的。

常見應用

隨機森林擁有廣泛的應用前景，從行銷到醫療保健保險，既可以用來做行銷模擬的建模，統計客戶來源、保留及流失，也可以用來預測疾病的風險和病患者的易感性。

9.降維

由於我們今天能夠擷取的資料量之大，機器學習問題變得更加複雜。這意味著訓練極其緩慢，而且很難找到一個好的解決方案。這一問題，通常被稱為「維數災難」（Curse of dimensionality）。

降維（Dimensionality reduction）試圖在不遺失最重要資訊的情況下，透過將特定的特徵組合成更高層次的特徵來解決這個問題。主成分分析（Principal Component Analysis，PCA）是最受歡迎的降維技術。

主成分分析透過將資料集壓縮到低維線或超平面 / 子空間來降低資料集的維數。這盡可能地保留了原始資料的顯著特徵。

可以透過將所有資料點近似到一條直線來實現降維的範例。

10.人工神經網路（ANN）

定義

人工神經網路（Artificial Neural Networks，ANN）可以處理大型複雜的機器學習任務。神經網路本質上是一組帶有權值的邊和節點組成的相互連接的層，稱為神經元。在輸入層和輸出層之間，我們可以插入多個隱藏層。人工神經網路使用了兩個隱藏層。除此之外，還需要處理深度學習。

人工神經網路的工作原理與大腦的結構類似。一組神經元被賦予一個隨機權重，以確定神經元如何處理輸入資料。透過對輸入資料訓練神經網路來學習輸入和輸出之間的關係。在訓練階段，系統可以存取正確的答案。

如果網路無法準確辨識輸入，系統就會調整權重。經過充分的訓練後，它將始終如一地識別出正確的模式。

每個圓形節點表示一個人工神經元，箭頭表示從一個人工神經元的輸出到另一個人工神經元的輸入的連接。

常見應用

影像識別，就是神經網路中一個著名的應用。