Galleria mappe mentale Prima introduzione ai grandi modelli di intelligenza artificiale e alla mappa mentale delle opportunità di sviluppo
Stabilire una conoscenza di base dei grandi modelli di intelligenza artificiale e comprendere il nucleo chiave delle tecnologie di base e le opportunità dei tempi. Spero che aiuti tutti.
Modificato alle 2023-12-02 22:21:21Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Prima introduzione ai grandi modelli di intelligenza artificiale e alle opportunità di sviluppo
1. Cos'è un modello AI di grandi dimensioni?
AI large model è l'abbreviazione di "artificial intelligence pre-training large model", che comprende i due significati di "pre-training" e "large model". La combinazione dei due produce un nuovo modello di intelligenza artificiale, ovvero il il modello viene addestrato su set di dati su larga scala Dopo aver completato la pre-formazione, non è necessaria alcuna messa a punto, oppure è richiesta solo la messa a punto con una piccola quantità di dati e può supportare direttamente varie applicazioni.
Tra questi, la pre-formazione dei modelli di grandi dimensioni è come uno studente universitario o anche uno studente di dottorato che conosce tutte le conoscenze di base e ha completato una "istruzione generale". Ma hanno ancora bisogno di pratica e messa a punto dopo il feedback per completare meglio le attività.
Inoltre, i grandi modelli di intelligenza artificiale presentano molti vantaggi come lo scopo generale e la replica su larga scala e rappresentano una direzione importante per realizzare l’AGI (intelligenza artificiale generale).
Gli attuali modelli di intelligenza artificiale di grandi dimensioni includono l’elaborazione del linguaggio naturale (PNL), la visione artificiale (CV), ecc., nonché modelli di grandi dimensioni multimodali unificati e integrati. Ad esempio, ChatGPT è un'innovazione rivoluzionaria nel campo dell'elaborazione del linguaggio naturale. Comprende e parla il "linguaggio umano". Supera i precedenti modelli di elaborazione del linguaggio naturale e può gestire varie attività di elaborazione del linguaggio naturale, tra cui la traduzione automatica, la risposta alle domande, la generazione di testo, ecc.
Per dirla semplicemente, possiamo pensare a un modello di grandi dimensioni come a una base di conoscenza molto ampia, che memorizza una grande quantità di informazioni e conoscenze, che possono aiutare il computer a comprendere ed elaborare meglio i dati di input. Ogni neurone e parametro nel modello di grandi dimensioni formano insieme una potente rete in grado di elaborare e trasformare in modo efficiente i dati di input.
Attualmente, aziende nazionali come Baidu, Alibaba, Tencent e Huawei hanno sviluppato grandi modelli di intelligenza artificiale. Ciascuna serie di modelli ha il proprio focus e alcune sono state lanciate e alcune applicazioni sono state implementate.
Baidu utilizza l'intelligenza artificiale da molti anni e ha un certo vantaggio di pioniere con i modelli di grandi dimensioni. Attualmente, il numero di aziende che hanno richiesto il test del servizio di chiamata API di Wen Xin Yi Yan ha superato le 65.000. In termini di modelli di grande industria, è stato applicato nei casi con State Grid, Shanghai Pudong Development Bank, Geely, TCL, People's Daily Online, Shanghai Dictionary Publishing House, ecc.
Il grande modello di Alibaba Tongyi è bravo nelle operazioni logiche, nelle capacità di codifica e nell'elaborazione vocale. Il gruppo ha un ricco ecosistema e linee di prodotti, che sono ampiamente utilizzati in scenari di viaggio, scenari di ufficio, scenari di acquisto e scenari di vita.
Il modello su larga scala Hunyuan di Tencent è stato utilizzato nella pubblicità e nella produzione di giochi. Il gruppo sta attualmente ricercando assistenti intelligenti conversazionali e si prevede che ottimizzerà l'ecologia di QQ e WeChat dopo essere stato utilizzato.
Huawei collabora strettamente con il lato B e si prevede che le future applicazioni saranno principalmente ToB. Inoltre, Huawei dispone di abbondanti riserve di algoritmi e potenza di calcolo. Ad esempio: "Pengcheng Cloud Brain II" ha vinto la classifica globale IO500 per cinque volte consecutive e dispone di una forte potenza di calcolo dell'intelligenza artificiale e di capacità di throughput dei dati. La piattaforma Huawei Cloud ModelArts ha la capacità di elaborare in modo efficiente enormi quantità di dati, completando 40 TB di elaborazione di dati di testo; 7 giorni; Dati Pangu Il modello è stato rilasciato ufficialmente già nell'aprile 2021. Gli attuali dati di testo di addestramento del modello Pangu di grandi dimensioni arrivano fino a 40 TB (GPT-3 è 45 TB).
2. Punti tecnici chiave dei grandi modelli di intelligenza artificiale
I modelli di grandi dimensioni sono solitamente costituiti da centinaia di milioni o miliardi di parametri e devono essere addestrati e ottimizzati su enormi quantità di dati per ottenere una maggiore precisione di previsione e capacità di generalizzazione. Gli operatori del settore spesso affermano che i modelli di grandi dimensioni sono il prodotto della combinazione di "big data, grande potenza di calcolo e algoritmi potenti". Anche la chiave per lo sviluppo del settore risiede in questi tre punti.
Grandi dati
I dati sono il nutrimento per l'addestramento degli algoritmi. Nella fase iniziale, il modello deve essere alimentato con una grande quantità di dati per formare la capacità di comprensione del modello. La qualità dei dati immessi nelle fasi intermedie e successive determina l'accuratezza del modello .
Prendendo come esempio il modello GPT, uno dei motivi per cui ChatGPT funziona meglio è che fornisce dati reali di alta qualità basati sull’apprendimento non supervisionato.
Tuttavia, i dati di machine learning devono essere etichettati manualmente in anticipo. L’etichettatura consiste nell’elaborare i dati primari e convertirli in informazioni riconoscibili dalla macchina. Solo dopo una grande quantità di formazione e coprendo il maggior numero possibile di scenari è possibile ottenere un buon modello.
Attualmente, la maggior parte delle fonti di dati sulla formazione sono dati pubblici. Ad esempio, secondo l'articolo del Dr. Alan D. Thompson (ex presidente di Mensa International, esperto e consulente di intelligenza artificiale), i set di dati per i modelli di grandi dimensioni elencati includono Wikipedia, libri, riviste e collegamenti Reddit, scansione comune e altri set di dati, ecc.
Da un lato c’è una grande quantità di dati, dall’altro anche la ricchezza e l’autenticità dei dati sono cruciali per l’addestramento di modelli di grandi dimensioni. Nelle fasi intermedie e successive dell'addestramento, dati di alta qualità miglioreranno l'accuratezza del modello. Per esempio:
Dati più concreti miglioreranno l’accuratezza del modello;
Una lingua cinese più fluente migliorerà la capacità del modello di comprendere la lingua cinese;
Dati verticali più accurati possono completare la costruzione dei modelli in alcune aree più suddivise.
Inoltre, dati di feedback di alta qualità possono migliorare le prestazioni del modello. Ad esempio, ChatGPT utilizza l'apprendimento per rinforzo umano RLHF per migliorare la comprensione del modello della logica del linguaggio umano attraverso domande, istruzioni, ordinamento del feedback umano, ecc. più professionali.
Per i modelli nazionali su larga scala, ci sono due sfide che richiedono ancora sforzi: la qualità del corpus Internet domestico è relativamente scarsa e i set di dati di annotazione cinese di alta qualità sono scarsi, le etichette sono principalmente annotate manualmente e i dettagli tecnici e la formazione specifici per l’annotazione; degli annotatori necessitano ancora di esplorazioni aziendali tecnologiche nazionali.
Grande potenza di calcolo
I dati forniscono le fondamenta della casa. Quanto in alto può essere costruito dipende dalla potenza di calcolo. La potenza di calcolo è la potenza di calcolo di un sistema informatico, ovvero la capacità di elaborare dati ed eseguire attività di calcolo.
Nel campo dell’intelligenza artificiale, le reti neurali profonde richiedono molti calcoli e formazione, soprattutto per modelli su larga scala e compiti complessi, che richiedono maggiore potenza di calcolo per essere supportati.
Prendendo come esempio il modello GPT large, man mano che il numero di parametri di GPT, GPT-2 e GPT-3 (l'attuale versione aperta è GPT-3.5) aumenta da 117 milioni a 175 miliardi, aumenta la quantità di dati pre-addestramento da 5GB a 45TB la richiesta di potenza aumenta di conseguenza.
Pertanto, un aumento della potenza di calcolo può migliorare la velocità di addestramento e l'efficienza del modello, nonché migliorare la precisione e le prestazioni del modello.
Per misurare se i principali produttori sono in grado di supportare i requisiti di potenza di calcolo di formazione e inferenza, è necessario considerare altri due punti: se i soldi sono sufficienti, per quanto tempo saranno sufficienti e quanto durerà la strategia dell'azienda.
Una strategia di investimento a lungo termine e un budget di capitale sufficiente sono elementi necessari per riprodurre ChatGPT.
Prendiamo ad esempio Baidu: dopo la proposta di "All IN AI" nel 2017, le spese in conto capitale dell'anno scorso (escluso iQiyi) hanno raggiunto 18,1 miliardi di yuan. Nello stesso periodo, il flusso di cassa operativo è aumentato del 30% a 26,17 miliardi di yuan Nel 2022, alla fine dell'anno, il saldo delle disponibilità liquide e mezzi equivalenti utilizzati per le spese in conto capitale ammontava a 53,16 miliardi di yuan, una somma sufficiente per un lungo periodo.
Inoltre, l'infrastruttura della potenza di calcolo è in realtà un chip: quanto migliori sono le prestazioni del chip, tanto più veloce sarà la potenza di elaborazione dei modelli di grandi dimensioni. Ecco perché sono necessari denaro e strategia per supportare la pianificazione.
algoritmo forte
Un algoritmo è un insieme di passaggi e regole per la risoluzione dei problemi che possono essere utilizzati per eseguire un calcolo o un'operazione specifica. Spesso utilizzato per progettare e implementare programmi per computer per risolvere vari problemi.
La qualità dell'algoritmo influisce direttamente sull'efficienza e sulle prestazioni del programma. Ad esempio, la svolta dell’algoritmo di ChatGPT risiede più nelle idee che nelle teorie specifiche. Si tratta di un’innovazione nelle “ricette” piuttosto che negli “ingredienti”, che è diventata una delle difficoltà di replica.
Come giudicare la qualità di un algoritmo? Ci sono tre punti principali: complessità spaziale, complessità temporale e robustezza.
Il tempo è il tempo impiegato dall'algoritmo per completare il suo compito;
Lo spazio si riferisce allo spazio di memoria richiesto dall'algoritmo per completare l'attività;
La robustezza si riferisce alla tolleranza dell'algoritmo per dati anomali e rumore.
Di solito, minore è la complessità temporale e spaziale, maggiore è l’efficienza dell’algoritmo. Un buon algoritmo dovrebbe avere un’elevata robustezza, essere in grado di eseguire correttamente i compiti in varie circostanze e fornire informazioni chiare.
Nelle applicazioni pratiche, è possibile selezionare l'algoritmo più adatto in base alle esigenze e agli scenari specifici e si può trovare un punto di equilibrio tenendo in considerazione i fattori di cui sopra.
Ad esempio, GPT è sviluppato sulla base del modello Transformer. Rispetto alle tradizionali reti neurali ricorrenti (RNN) o alle reti neurali convoluzionali (CNN), Transformer ha un parallelismo migliore e un'elaborazione del testo più breve durante l'elaborazione di testi lunghi, ottenendo il giusto trade-. tra costo, scala ed efficienza.
Dal punto di vista dei grandi modelli domestici, le barriere agli algoritmi, ai dati e alla potenza di calcolo non sono insormontabili. Con il flusso di talenti, il passare del tempo e il progresso della ricerca, è probabile che le prestazioni dei grandi modelli convergano gradualmente.
Con l’approfondimento delle applicazioni industriali e l’aumento della complessità della scena, ci sarà una crescita esplosiva di dati, una rapida iterazione di algoritmi e un aumento esponenziale del consumo di potenza di calcolo, tutti fattori che hanno posto nuove esigenze per lo sviluppo di tecnologie artificiali. intelligenza.
3. Opportunità nell’era dei grandi modelli di IA
In futuro, i requisiti tradizionali di "padronanza della conoscenza generale, capacità di lavoro sui processi, ecc." diventeranno gradualmente requisiti nascosti di livello inferiore, mentre i requisiti più espliciti e di alto livello saranno la capacità di "creare valore e utilizzare in modo efficiente gli strumenti per risolvere problemi."
Per la gente comune, le opportunità offerte dai grandi modelli di intelligenza artificiale possono essere approssimativamente divise in due categorie, una riguarda le opportunità di investimento a breve termine e l’altra le opportunità di carriera a lungo termine.
A breve termine, le aziende con riserve tecniche nel campo dei modelli di grandi dimensioni avranno più vantaggi, come Tencent Holdings, Alibaba, Baidu, ecc. Allo stesso tempo, puoi prestare attenzione agli obiettivi chiave che hanno preso il comando nei video, nel marketing, nella lettura e in altre suddivisioni correlate, come iFlytek, Danghong Technology, Jebsen Holdings, BlueFocus, Fengyuzhu, Zhejiang Internet, ecc.
A lungo termine, per prendere in prestito ciò che ha detto Lu Qi nel suo discorso: "Questa era (l'era dei modelli di grandi dimensioni) è molto simile all'era della corsa all'oro. Se andassi in California a cercare l'oro in quel momento, molti la gente morirebbe. Ma chi vende cucchiai e pale può sempre fare soldi.
L’innovazione imprenditoriale guidata dalla tecnologia umana può essere principalmente suddivisa in tre tipi di opportunità: tecnologia di base, soddisfazione dei bisogni e cambiamento del mondo.
Il primo è il livello più basso della tecnologia digitale. La digitalizzazione è un’estensione degli esseri umani. Tutti i grandi modelli di intelligenza artificiale attualmente rilasciati, incluso GPT, si basano sulla tecnologia. Le società di chip tra cui Nvidia e Cambrian forniscono anche strutture hardware per la tecnologia sottostante. Possiamo cercare opportunità adatte a noi o lavorare sodo per migliorare le nostre competenze per questa posizione, come front-end, back-end, attrezzature, chip, ecc.
Il secondo è utilizzare la tecnologia per risolvere i bisogni. La domanda può essere divisa in due direzioni: in C, l'intelligenza artificiale può essere utilizzata per risolvere l'intrattenimento, il consumo, i social network, i contenuti, ecc. di tutti e tutti i bisogni che possono aiutare le persone a vivere una vita migliore devono essere soddisfatti; può aiutare le imprese a ridurre i costi e ad aumentare l’effetto di crescita. Le opportunità in questa parte consistono principalmente nel contattare le persone, comprendere meglio le esigenze degli utenti e portare prodotti o esperienze migliori.
Il terzo è cambiare il mondo. Ad esempio, la tecnologia energetica, l’energia trasformata, le scienze della vita o il nuovo spazio. Ad esempio, Musk sta lavorando su robot, interfacce cervello-computer, ecc., persino sul Metaverso e sul Web 3.
Lu Qi ha menzionato nel suo discorso le sue opinioni sui modelli di grandi dimensioni: Strutture di modelli su scala più ampia e più complesse significano campi di applicazione più ampi e maggiori opportunità, ma devono essere considerati attentamente, pensare prima e poi usare in modo orientato all'azione.
Le opportunità per la gente comune sono molto simili allo sviluppo di grandi modelli. Lo sviluppo a lungo termine deve essere guidato dalla tecnologia, ma lo smantellamento, l’analisi, la selezione e il controllo delle esigenze durante l’implementazione sono tutto. Fai quello che puoi e lascia il resto al futuro!