Galerie de cartes mentales Première introduction aux grands modèles d'IA et à la carte mentale des opportunités de développement
Établissez une compréhension de base des grands modèles d'IA et comprenez le cœur clé des technologies de base et les opportunités de l'époque. J'espère que cela aide tout le monde.
Modifié à 2023-12-02 22:21:21Première introduction aux grands modèles d'IA et aux opportunités de développement
1. Qu’est-ce qu’un grand modèle IA ?
Le grand modèle d'IA est l'abréviation de « grand modèle de pré-entraînement à l'intelligence artificielle », qui comprend les deux significations de « pré-entraînement » et de « grand modèle ». La combinaison des deux produit un nouveau modèle d'intelligence artificielle, c'est-à-dire le modèle d'intelligence artificielle. Le modèle est formé sur des ensembles de données à grande échelle. Après avoir terminé la pré-formation, aucun réglage fin n'est nécessaire, ou seul un réglage fin avec une petite quantité de données est requis, et il peut directement prendre en charge diverses applications.
Parmi eux, la pré-formation des grands modèles est comme un étudiant ou même un doctorant qui connaît toutes les connaissances de base et a suivi une « formation générale ». Mais ils ont encore besoin de pratique et d’ajustements après retour d’information pour mieux accomplir leurs tâches.
De plus, les grands modèles d'IA présentent de nombreux avantages, tels qu'un usage général et une réplication à grande échelle, et constituent une direction importante pour la réalisation de l'AGI (intelligence générale artificielle).
Les grands modèles d'IA actuels incluent le traitement du langage naturel (NLP), la vision par ordinateur (CV), etc., ainsi que les grands modèles multimodaux unifiés et intégrés. Par exemple, ChatGPT est une innovation révolutionnaire dans le domaine du traitement du langage naturel. Il comprend et parle le « langage humain ». Il surpasse les modèles précédents de traitement du langage naturel et peut gérer diverses tâches de traitement du langage naturel, notamment la traduction automatique, la réponse aux questions, la génération de texte, etc.
Pour faire simple, nous pouvons considérer un grand modèle comme une très grande base de connaissances, qui stocke une grande quantité d’informations et de connaissances, ce qui peut aider l’ordinateur à mieux comprendre et traiter les données d’entrée. Chaque neurone et paramètre du grand modèle forment ensemble un réseau puissant capable de traiter et de transformer efficacement les données d’entrée.
À l'heure actuelle, des entreprises nationales telles que Baidu, Alibaba, Tencent et Huawei ont développé de grands modèles d'IA. Chaque série de modèles a son propre objectif, et certains ont été lancés et certaines applications ont été mises en œuvre.
Baidu déploie l’IA depuis de nombreuses années et bénéficie d’un certain avantage en tant que premier arrivé avec les grands modèles. Actuellement, le nombre d’entreprises qui ont postulé pour les tests du service d’appel API de Wen Xin Yi Yan a dépassé 65 000. En termes de modèles industriels à grande échelle, il a été appliqué dans des cas avec State Grid, Shanghai Pudong Development Bank, Geely, TCL, People's Daily Online, Shanghai Dictionary Publishing House, etc.
Le grand modèle d'Alibaba Tongyi est performant en matière d'opérations logiques, de capacités de codage et de traitement vocal. Le groupe dispose d'un écosystème et de gammes de produits riches, largement utilisés dans les scénarios de voyage, de bureau, de shopping et de vie.
Le modèle à grande échelle Hunyuan de Tencent a été utilisé dans la publicité et la production de jeux. Le groupe recherche actuellement des assistants conversationnels intelligents et devrait optimiser l'écologie QQ et WeChat après sa mise en service.
Huawei coopère étroitement avec la face B et on s'attend à ce que les futures applications soient principalement ToB. De plus, Huawei dispose d’abondantes réserves en algorithmes et en puissance de calcul. Par exemple : « Pengcheng Cloud Brain II » a remporté le classement mondial IO500 cinq fois consécutives et dispose d'une forte puissance de calcul d'IA et de capacités de débit de données ; la plate-forme Huawei Cloud ModelArts a la capacité de traiter efficacement des données massives, complétant 40 To de traitement de données texte en 7 jours ; Données Pangu Le modèle a été officiellement publié dès avril 2021. Les données textuelles actuelles de formation du grand modèle Pangu peuvent atteindre 40 To (GPT-3 est de 45 To).
2. Points techniques clés des grands modèles d'IA
Les grands modèles comprennent généralement des centaines de millions, voire des milliards de paramètres et doivent être entraînés et optimisés sur des quantités massives de données pour obtenir une précision de prédiction et des capacités de généralisation plus élevées. Les acteurs de l’industrie disent souvent que les grands modèles sont le produit de la combinaison « du big data, de la grande puissance de calcul et des algorithmes puissants ». La clé du développement de l’industrie réside également dans ces trois points.
Big Data
Les données sont la nourriture pour la formation des algorithmes.Au début, le modèle doit être alimenté avec une grande quantité de données pour former la capacité de compréhension du modèle.La qualité des données fournies aux étapes intermédiaire et ultérieure détermine l'exactitude du modèle. .
En prenant le modèle GPT comme exemple, l'une des raisons pour lesquelles ChatGPT fonctionne mieux est qu'il fournit des données réelles de haute qualité basées sur un apprentissage non supervisé.
Cependant, les données d'apprentissage automatique doivent être étiquetées manuellement à l'avance. L'étiquetage consiste à traiter les données primaires et à les convertir en informations reconnaissables par la machine. Ce n'est qu'après une grande quantité de formation et couvrant autant de scénarios que possible qu'un bon modèle peut être obtenu.
Actuellement, la plupart des sources de données de formation sont des données publiques. Par exemple, selon l'article du Dr Alan D. Thompson (ancien président de Mensa International, expert et consultant en intelligence artificielle), les ensembles de données répertoriés pour les grands modèles comprennent Wikipédia, des livres, journaux et liens Reddit, Common Crawl et autres ensembles de données, etc.
D'une part, il existe une grande quantité de données. D'autre part, la richesse et l'authenticité des données sont également cruciales pour la formation de grands modèles. Aux étapes intermédiaire et ultérieure de la formation, des données de haute qualité amélioreront la précision du modèle. Par exemple:
Des données plus factuelles amélioreront la précision du modèle ;
Une langue chinoise plus courante améliorera la capacité du modèle à comprendre la langue chinoise ;
Des données verticales plus précises peuvent compléter la construction de modèles dans certaines zones plus subdivisées.
De plus, des données de rétroaction de haute qualité peuvent améliorer les performances du modèle. Par exemple, ChatGPT utilise l'apprentissage par renforcement humain RLHF pour améliorer la compréhension du modèle de la logique du langage humain grâce à des questions plus professionnelles, des instructions, un tri des commentaires humains, etc.
Pour les modèles nationaux à grande échelle, il existe deux défis qui nécessitent encore des efforts : la qualité du corpus Internet national est relativement médiocre et les ensembles de données d'annotation chinoises de haute qualité sont rares ; des annotateurs ont encore besoin d’une exploration commerciale technologique nationale.
Grande puissance de calcul
Les données constituent la base de la maison. La hauteur à laquelle elle peut être construite dépend de la puissance de calcul. La puissance de calcul est la puissance de calcul d’un système informatique, c’est-à-dire la capacité à traiter des données et à effectuer des tâches informatiques.
Dans le domaine de l'IA, les réseaux de neurones profonds nécessitent beaucoup de calculs et de formation, en particulier pour les modèles à grande échelle et les tâches complexes, qui nécessitent plus de puissance de calcul pour être pris en charge.
En prenant le grand modèle GPT comme exemple, à mesure que le nombre de paramètres de GPT, GPT-2 et GPT-3 (la version ouverte actuelle est GPT-3.5) passe de 117 millions à 175 milliards, la quantité de données de pré-entraînement augmente de 5 Go à 45 To. La demande de puissance augmente en conséquence.
Par conséquent, une augmentation de la puissance de calcul peut améliorer la vitesse de formation et l’efficacité du modèle, ainsi que la précision et les performances du modèle.
Pour mesurer si les principaux fabricants peuvent répondre aux exigences de puissance de calcul de la formation et de l'inférence, deux points supplémentaires doivent être pris en compte : si l'argent est suffisant, combien de temps il sera suffisant et quelle est la durée de la stratégie de l'entreprise.
Une stratégie d'investissement à long terme et un budget d'investissement suffisant sont des éléments nécessaires pour reproduire ChatGPT.
Prenons l'exemple de Baidu : après la proposition de « All IN AI » en 2017, les dépenses d'investissement de l'année dernière (hors iQiyi) ont atteint 18,1 milliards de yuans. Au cours de la même période, les flux de trésorerie d'exploitation ont augmenté de 30 % pour atteindre 26,17 milliards de yuans. .En 2022 À la fin de l'année, le solde de trésorerie et équivalents de trésorerie de l'entreprise utilisé pour les dépenses en capital s'élevait à 53,16 milliards de yuans, ce qui est suffisant pour une longue période.
De plus, l'infrastructure de puissance de calcul est en fait une puce. Plus les performances de la puce sont bonnes, plus la puissance de traitement des grands modèles est rapide. C’est pourquoi il faut de l’argent et une stratégie pour soutenir la planification.
algorithme fort
Un algorithme est un ensemble d’étapes et de règles de résolution de problèmes qui peuvent être utilisées pour effectuer un calcul ou une opération spécifique. Souvent utilisé pour concevoir et mettre en œuvre des programmes informatiques permettant de résoudre divers problèmes.
La qualité de l'algorithme affecte directement l'efficacité et les performances du programme. Par exemple, la percée de l’algorithme ChatGPT réside davantage dans les idées que dans les théories spécifiques. Il s’agit d’une innovation dans les « recettes » plutôt que dans les « ingrédients », ce qui est devenu l’une des difficultés de réplication.
Comment juger de la qualité d’un algorithme ? Il y a trois points principaux : la complexité spatiale, la complexité temporelle et la robustesse.
Le temps est le temps qu'il faut à l'algorithme pour accomplir sa tâche ;
L'espace fait référence à l'espace mémoire requis par l'algorithme pour terminer la tâche ;
La robustesse fait référence à la tolérance de l'algorithme aux données anormales et au bruit.
Habituellement, plus la complexité temporelle et la complexité spatiale sont faibles, plus l’efficacité de l’algorithme est élevée. Un bon algorithme doit avoir une grande robustesse, être capable d’effectuer des tâches correctement dans diverses circonstances et de produire des informations claires.
Dans les applications pratiques, l'algorithme le plus approprié peut être sélectionné en fonction de besoins et de scénarios spécifiques, et un point d'équilibre peut être trouvé en tenant compte des facteurs ci-dessus.
Par exemple, GPT est développé sur la base du modèle Transformer. Comparé au réseau neuronal récurrent (RNN) traditionnel ou au réseau neuronal convolutif (CNN), le Transformer a un meilleur parallélisme et un temps de traitement plus court pour un temps de formation optimal. - un compromis entre coût, échelle et efficacité.
Du point de vue des grands modèles nationaux, les obstacles aux algorithmes, aux données et à la puissance de calcul ne sont pas insurmontables. Avec le flux des talents, le passage du temps et les progrès de la recherche, les performances des grands modèles sont susceptibles de converger progressivement.
Avec l'approfondissement des applications industrielles et l'augmentation de la complexité des scènes, il y aura une croissance explosive des données, une itération rapide des algorithmes et une augmentation exponentielle de la consommation de puissance de calcul, autant d'éléments qui ont mis en avant de nouvelles exigences pour le développement de technologies artificielles. intelligence.
3. Opportunités à l’ère des grands modèles d’IA
À l'avenir, les exigences traditionnelles de « maîtrise des connaissances générales, de la capacité de travail sur les processus, etc. » deviendront progressivement des exigences cachées de niveau inférieur, tandis que les exigences plus explicites et de haut niveau sont la capacité de « créer de la valeur et d'utiliser efficacement les outils pour résoudre des problèmes."
Pour les gens ordinaires, les opportunités que nous offrent les grands modèles d’IA peuvent être grossièrement divisées en deux catégories : l’une concerne les opportunités d’investissement à court terme et l’autre les opportunités de carrière à long terme.
A court terme, les entreprises disposant de réserves techniques dans le domaine des grands modèles auront plus d'avantages, comme Tencent Holdings, Alibaba, Baidu, etc. Dans le même temps, vous pouvez prêter attention aux cibles clés qui ont pris les devants dans les domaines de la vidéo, du marketing, de la lecture et d'autres subdivisions connexes, telles que iFlytek, Danghong Technology, Jebsen Holdings, BlueFocus, Fengyuzhu, Zhejiang Internet, etc.
À long terme, pour emprunter ce que Lu Qi a dit dans son discours : « Cette époque (l'ère des grands modèles) est très similaire à l'ère de la ruée vers l'or. Si vous alliez en Californie pour chercher de l'or à cette époque, beaucoup de les gens mourraient. Mais ceux qui vendent des cuillères et des pelles peuvent toujours gagner de l’argent.
L'innovation entrepreneuriale motivée par la technologie humaine peut être principalement divisée en trois types d'opportunités : la technologie sous-jacente, la satisfaction des besoins et le changement du monde.
Le premier est le niveau le plus bas de la technologie numérique. La numérisation est une extension de l’être humain. Tous les grands modèles d’IA actuellement commercialisés, y compris GPT, sont basés sur la technologie. Les sociétés de puces, notamment Nvidia et Cambrian, fournissent également des installations matérielles pour la technologie sous-jacente. Nous pouvons rechercher des opportunités qui nous conviennent, ou travailler dur pour améliorer nos compétences pour ce poste, comme le front-end, le back-end, l'équipement, les puces, etc.
La seconde consiste à utiliser la technologie pour répondre aux besoins. La demande peut être divisée en deux directions : Pour C, l'IA peut être utilisée pour résoudre les problèmes de divertissement, de consommation, de réseaux sociaux, de contenu, etc. de chacun, et tous les besoins qui peuvent aider les gens à vivre une vie meilleure doivent être satisfaits ; peut aider les entreprises à réduire leurs coûts et à augmenter leur effet de croissance. Les opportunités dans cette partie consistent principalement à contacter des personnes, à mieux comprendre les besoins des utilisateurs et à proposer de meilleurs produits ou expériences.
Le troisième est de changer le monde. Par exemple, la technologie énergétique, l’énergie transformée, les sciences de la vie ou le nouvel espace. Par exemple, Musk travaille sur des robots, des interfaces cerveau-ordinateur, etc., voire sur le Metaverse et le Web 3.
Lu Qi a mentionné dans son discours son point de vue sur les grands modèles : Des structures de modèles à plus grande échelle et plus complexes signifient des champs d'application plus larges et plus d'opportunités - mais ils doivent être soigneusement examinés, réfléchir d'abord, puis utiliser une approche orientée vers l'action.
Les opportunités pour les gens ordinaires sont très similaires au développement de grands modèles. Le développement à long terme doit être piloté par la technologie, mais le démantèlement, l'analyse, le tri et le contrôle des besoins lors de la mise en œuvre sont essentiels. Faites ce que vous pouvez et laissez le reste au futur !