心智圖資源庫 初識AI大模式與發展機會心智圖
建立AI大模型的基本認知,並了解基礎的技術關鍵核心和時代機會。希望可以對大家有幫助。
編輯於2023-12-02 22:21:21初識AI大模型與發展機遇
1.什麼是AI大模型
AI大模型是「人工智慧預訓練大模型」的簡稱,包含了「預訓練」和「大模型」兩層意義,二者結合產生了一種新的人工智慧模式,即模型在大規模資料集上完成了預訓練後無需微調,或僅需少量資料的微調,就能直接支撐各類應用。
其中,預訓練大模型,就像是知道了所有大量基礎知識的大學生,甚至博士生,完成了「通識」教育。但他們還是需要實踐,需要回饋後的精細調整,才能更好地完成任務。
另外,AI大模型具備通用、可規模化複製等諸多優勢,是實現 AGI(通用人工智慧)的重要方向。
目前AI大模型包含自然語言處理(NLP)、電腦視覺(CV)等,統一整合的多模態大模型等。例如,ChatGPT就是自然語言處理領域突破性的創新,懂“人話”,說“人話”。超越了以往的自然語言處理模型,可以應付各種自然語言處理任務,包括機器翻譯、問答、文本生成等。
簡單來看,我們可以將大模型看作一個非常大的知識庫,裡面儲存了大量的資訊和知識,可以幫助電腦更好地理解和處理輸入的資料。大模型中的每個神經元和參數,共同構成了一個強大的網絡,可以對輸入的數據,進行高效的處理和轉換。
目前,國內已有百度、阿里巴巴、騰訊、華為等公司對 AI 大模型進行開發,各模型系列各有側重,有些已推出並實現部分應用落地。
百度在AI方面佈局多年,具備一定大模型先發優勢。目前,申請文心一言 API呼叫服務測試的企業已突破6.5萬。在業界大模型上,已與國網、浦發、吉利、TCL、人民網、上海辭書出版社等都有案例應用。
阿里通義大模型在邏輯運算、編碼能力、語音處理方面見長,集團擁有豐富的生態和產品線,在旅行場景、辦公場景、購物場景和生活場景均有廣泛應用。
騰訊混元大模型已在廣告投放、遊戲製作投入使用,目前集團在研究對話式智慧助手,預計投入使用後將對QQ和微信生態有一定優化。
華為與 B 端合作緊密,預計未來應用以 ToB 為主。此外,華為在演算法、算力上儲備較為豐厚。例如:「鵬城雲腦II」獲全球IO500 排行五連冠,擁有強大的AI 算力和數據吞吐能力;華為雲ModelArts 平台的高效處理海量數據能力,7 天完成了40TB 文本數據處理;盤古大模型最早已在2021 年4 月正式發布,目前盤古大模型訓練文字資料高達40 TB(GPT-3 為45 TB)。
2.AI大模型的技術關鍵點
大模型通常由數億到數十億個參數組成,需要在海量資料上進行訓練和最佳化,才能達到更高的預測準確性和泛化能力。業內人也常說:大模型是「大數據 大算力 強演算法」結合的產物。產業發展的關鍵也在於這三點。
大數據
數據是演算法訓練的養料,前期需要給模型餵食大量數據,形成模型理解能力,中後期投餵的數據品質決定了模型的精確度。
以GPT模型為例,ChatGPT表現較好的原因之一,就是在無監督學習的基礎上提供了高品質的真實數據。
但機器學習的數據,需要人工提前標註好,標註就是把初級數據進行加工處理, 轉換為機器可識別信息,只有經過大量的訓練,覆蓋盡可能多的各種場景,才能得到一個良好的模型。
目前,訓練的資料來源多為公開數據,例如根據AlanD. Thompson博士(前門薩國際的主席、人工智慧專家和顧問)的文章,列舉的大模型的資料集包括維基百科、書籍、期刊、Reddit鏈接、Common Crawl 和其他資料集等。
資料的多是一方面,另一方面,資料的豐富度、真實性也對大模型的訓練至關重要。在訓練的中後期,高品質資料將提升模型的精確度。比如:
更事實性的數據,將提升模型準確性;
更通順的中文語言,將提昇模型理解中文語言能力;
更精準的垂類數據,能完成部分更細分領域的模型建構。
另外,高品質回饋數據更能提升模型效能。例如,ChatGPT 採用人類強化學習 RLHF,透過更專業的問題、指令、人類回饋排序等加強模型來理解人類語言邏輯。
對於國產大模型有兩個挑戰仍需努力:國內互聯網語料品質相對較差,優質的中文標註資料集匱乏;標籤主要透過人工標註,具體標註技術細節、對標註員的培訓等仍需要國內科技企業探索。
大算力
數據提供的是房屋地基,能搭建的多高,取決於算力。算力是電腦系統的運算能力,也就是處理資料和執行計算任務的能力。
AI領域,由於深度神經網路需要進行大量的運算和訓練,特別是對於大規模的模型和複雜的任務,需要更多的算力來支援。
以GPT大模型為例,隨著GPT、GPT-2 和GPT-3(目前開放的版本為GPT-3.5)的參數量從1.17 億增加到1750 億,預訓練資料量從5GB 增加到45TB,算力需求隨之成長。
因此,算力的提升可以提高模型的訓練速度和效率,也可以提高模型的準確性和效能。
衡量頭部廠商能否支撐訓練及推理環節的算力需求,更多需要考慮兩點:錢夠不夠,夠多久,公司戰略又是多久。
長線投入策略、充足資金預算,是復現 ChatGPT 所必須的要素。
以百度為例,2017 年提出「All IN AI」後,資本開支波動上升,去年全年資本開支(除愛奇藝)高達181 億元,同期經營現金流增長30%至261.7 億元,截至2022年末公司用於進行資本支出的現金及現金等價物餘額為531.6 億元,錢很夠,也夠很久。
另外,算力的基礎設施其實是晶片,晶片效能越好,大模型的處理能力越快。這也是需要錢和策略支援規劃的原因。
強演算法
演算法是一組解決問題的步驟和規則,可以用來執行特定的計算或操作。通常用於設計和實現計算機程序,以解決各種問題。
演算法的好壞直接影響程式的效率和效能。例如,ChatGPT 在演算法上的突破更多在於思路而非具體理論,是「食譜」而非「食材」的創新,這成為了復現的困難之一。
如何判斷演算法的好壞?主要有三點:空間複雜度、時間複雜度和穩健性。
時間就是演算法完成任務所需的時間;
空間是指演算法完成任務所需的記憶體空間;
魯棒性是指演算法對異常資料和雜訊的容忍程度。
通常情況下,時間複雜度和空間複雜度越小,演算法的效率越高。好的演算法應該具有較高的魯棒性,能夠在各種情況下都能正確地執行任務,輸出清晰的訊息。
在實際應用中,可以根據特定需求和場景選擇最適合的演算法,綜合考慮以上因素,找到一個平衡點。
例如,GPT就是在Transformer 模型基礎上發展的,Transformer 相比於傳統的循環神經網路(RNN)或卷積神經網路(CNN),在處理長文本時,就具有更好的平行性和更短的訓練時間,在成本、規模和效率之間實現了正確的權衡取捨。
從國產大模型角度來看,演算法、資料、算力障礙並非不可逾越,隨著人才流動、時間推移和研究進步,大模型表現很可能逐漸趨同。
隨著產業應用的深入、場景複雜度提升,隨之而來的是資料的爆發式成長、演算法的快速更新迭代、算力的消耗指數上升,這些都對人工智慧的發展提出新的要求。
3.AI大模型時代的機遇
未來,傳統的「掌握通識知識、流程性工作能力等」要求會逐步成為隱藏的底層要求,更顯性、高階的要求則是「創造性價值以及高效利用工具解決問題」的能力。
對一般人來說,AI大模型帶給我們的機會大致可以分為兩類,一個是短期的投資機會,一個是長期的職業機會。
短期來看,在大模型領域有技術儲備的公司更有優勢,例如,騰訊控股、阿里巴巴、百度等。同時,可以關注已在影片、行銷、閱讀等相關細分領域搶跑的重點標的,例如科大訊飛、當虹科技、捷成股份、藍色遊標、風語築、浙文互聯等。
長期來看,借用陸奇在演講時所說:「這個時代(大模型時代)跟淘金時代很像,如果你那個時候去加州淘金,一大堆人會死掉。但是賣湯匙、賣鏟子的人永遠可以賺錢。
人類技術驅動的創業創新,主要可分為三種機會──底層技術,滿足需求,改變世界。
第一種,最底層的數位化技術。數位化是人的延伸,包括GPT在內,目前發布的所有大模型AI,都是基於技術。包括英偉達、寒武紀這些晶片公司,也是為底層技術提供硬體設施。我們可以從中尋找合適自己的機會,或是為了這個職位努力完善自己的技能,例如前端、後端、設備、晶片等等。
第二種,是用科技去解決需求。需求可以分為兩個方向:To C,可以用AI解決大家的娛樂、消費、社交、內容等,一切能夠幫助人們過的更好的需求都需要被滿足;To B,可以幫助企業降本增效。這部分的機會主要是與人接觸,更了解使用者需求,帶來更好的產品或體驗。
第三種是改變世界。例如能源科技,轉化能源,或生命科學,或是新的空間。例如馬斯克正在做的機器人,腦機介面等等,甚至是元宇宙和Web 3。
陸奇在演講中提到,他對大模型相關的看法:更大規模、更複雜的模型結構,意味著更廣泛的應用領域,更多的機會——但一定要深思熟慮,先思考,再以行動導向。
一般人的機會和大模型的發展非常相似,長期發展一定是技術驅動為主,但在落地的時候對需求的拆解、分析、梳理,把控好需求,是一切的一切。做到你能做到的,其他的,交給未來!