Galerie de cartes mentales Système technologique multimodal grand modèle
Décrire les technologies clés pour les modèles multimodaux trop-modaux, y compris la collecte de données pré-formation, la construction de modèles de base, l'apprentissage auto-supervisé et la formation d'optimisation du modèle, et les tâches en aval.
Modifié à 2025-01-05 13:43:37Dive into the world of the Chinese animated film Nezha 2: The Devil's Birth! This knowledge map, created with EdrawMind, provides a detailed analysis of main characters, symbolic elements, and their cultural significance, offering deep insights into the film's storytelling and design.
This is a mindmap about Nezha 2, exploring its political metaphors and cultural references. The diagram highlights the symbolism behind the Dragon Clan’s suppression, drawing parallels to modern geopolitical conflicts and propaganda manipulation. It also details Chinese historical and cultural elements embedded in the film, such as the Jade Void Palace, Ao Bing’s armor, Taiyi Zhenren’s magic weapon, and Nezha’s hairstyle.
This is a mindmap about the main characters of Nezha 2, detailing their backgrounds, conflicts, and symbolic meanings. It explores the personal struggles and transformations of Nezha, Ao Bing, Shen Gongbao, and Li Jing as they navigate themes of rebellion, duty, ambition, and sacrifice.
Dive into the world of the Chinese animated film Nezha 2: The Devil's Birth! This knowledge map, created with EdrawMind, provides a detailed analysis of main characters, symbolic elements, and their cultural significance, offering deep insights into the film's storytelling and design.
This is a mindmap about Nezha 2, exploring its political metaphors and cultural references. The diagram highlights the symbolism behind the Dragon Clan’s suppression, drawing parallels to modern geopolitical conflicts and propaganda manipulation. It also details Chinese historical and cultural elements embedded in the film, such as the Jade Void Palace, Ao Bing’s armor, Taiyi Zhenren’s magic weapon, and Nezha’s hairstyle.
This is a mindmap about the main characters of Nezha 2, detailing their backgrounds, conflicts, and symbolic meanings. It explores the personal struggles and transformations of Nezha, Ao Bing, Shen Gongbao, and Li Jing as they navigate themes of rebellion, duty, ambition, and sacrifice.
Grand modèle multimodal Système technique
Collecte de données pré-formation
Source de données
Ensembles de données publiques (tels que Wikipedia, Encyclopédie des journaux, des forums en ligne, des plateformes sociales, etc.).
Ensembles de données internes d'entreprise (tels que les journaux internes, les documents, les bases de données).
Ensembles de données auto-collectés (via des robots de réseau, des interfaces API, etc.).
Nettoyage des données
La déduplication (supprimer des échantillons en double), le débrotage (filtrant les données dénué de sens), le format unifié (filtrant des données dénuées de sens, telles que la publicité, les erreurs d'orthographe, etc.), la réparation des données (corriger les erreurs dans les données, telles que les erreurs d'orthographe, etc.).
Annotation des données
Les types d'étiquettes incluent l'étiquetage du texte (tel que la reconnaissance des entités de dénomination, l'analyse des sentiments, etc.) et l'étiquetage d'images (tels que les boîtes de délimitation d'objets, les étiquettes de classification d'image, etc.). La qualité de l'étiquette est cruciale, et elle est généralement marquée préliminaire d'outils automatisés, suivis d'une revue manuelle et d'une correction pour assurer la cohérence des étiquettes.
Application de modèles pré-formés
Le modèle pré-formé apprend un modèle de langage commun en s'entraînant sur un corpus de texte à grande échelle. Ces modèles peuvent être affinés sur différentes tâches pour répondre aux besoins spécifiques.
Conception de la structure du réseau
Traiter les images et le texte
Le transformateur ou CNN est généralement utilisé pour capturer la relation complexe entre la vision et le langage.
Flux d'événement
Les réseaux de neurones à impulsions conviennent plus et peuvent simuler efficacement la dynamique de synchronisation des informations.
Avec le modèle de langue comme noyau
DeepMind Flamingo Visual Language Model, Kosmos-1 connecte Transformer avec le module de perception visuelle et Chatbridge.
Optimisation d'apprentissage auto-supervisé
Modélisation du langage du masque (MCM): Certains mots ou marqueurs dans la séquence d'entrée sont remplacés par des marqueurs de masque spéciaux, puis le modèle prétrainé est nécessaire pour prédire ces mots ou marqueurs masqués en fonction du contexte multimodal visible.
Modélisation de l'image du masque (MIM): Certaines zones de l'image d'entrée sont masquées ou remplacées par des marques de masque spéciales, puis le modèle pré-formé est nécessaire pour prédire ou restaurer la zone d'image masquée si seulement le contenu d'image restant et d'autres informations modales telles que le texte sont visibles.
Match-texte d'image (ITM): Implémentez l'alignement global des images et du texte. Habituellement, une image d'image et de texte donnée est utilisée comme un échantillon positif, puis la jumeler comme un échantillon négatif, puis la correspondance de l'image et du texte est réalisée grâce à une méthode de classification binaire, établissant ainsi une relation sémantique entre l'image et le texte.
Apprentissage de comparaison de texte d'image (ITC): Utilisez l'apprentissage du contraste pour rapprocher les représentations vectorielles des mêmes paires d'images et de texte, et pousser différentes paires d'échantillons de représentations vectorielles plus loin, améliorant ainsi la corrélation sémantique entre les images et le texte.
Adaptation à réglage fin en aval
Modèle spécifique à la tâche Adaptation de réglage fin: Les poids du grand modèle multimodal sont utilisés comme paramètres initiaux et le réglage fin supervisé sont effectués sur des données spécifiques à la tâche. Avec ce réglage fin, le modèle apprendra des fonctionnalités et des représentations à grain fin pour des tâches spécifiques, s'adaptant ainsi aux exigences de tâches spécifiques.
Adaptation à réglage fin du modèle pour l'apprentissage rapide conjoint: Concevoir un modèle qui correspond à la tâche de pré-formation en amont, appuyez sur le potentiel du modèle de pré-formation en amont et permettez au modèle de pré-formation en amont de terminer mieux les tâches en aval sans avoir besoin d'étiqueter les données. L'apprentissage rapide permet la réutilisation des modèles pré-formés sur différents types de tâches et peut s'adapter à des tâches spécifiques simplement en modifiant le modèle rapide, en économisant du temps de formation et en information.
Adaptation d'adaptation basée sur le modèle basé sur le réseau: chaque tâche a sa propre couche d'adaptateur indépendant, afin que le modèle puisse partager la représentation d'un modèle pré-formé commun entre les différentes tâches, tout en effectuant des ajustements personnalisés sur chaque tâche. Les couches d'adaptateur sont généralement composées de moins de paramètres, ils sont donc plus efficaces que les réglages fins dans le modèle. Pendant la formation, les paramètres du modèle pré-entraîné sont fixes et seuls les paramètres de la couche d'adaptateur sont mis à jour.