Galería de mapas mentales Sistema de tecnología de modelos de gran modelo multimodal
Describa las tecnologías clave para los modelos multimodales demasiado modales, incluida la recopilación de datos de pre-entrenamiento, la construcción básica del modelo, el aprendizaje auto-supervisado y la capacitación en optimización del modelo, y tareas aguas abajo, ajuste.
Editado a las 2025-01-05 13:43:37,This is a mind map about the annual work plan of the three pillars of human resources. The main contents include: strategic human resources planning, talent recruitment and allocation, employee performance management, employee training and development, employee relationships and communication, employee welfare and care, human resources information system construction, regulatory compliance and risk management, and organizational culture construction.
This is a mind map for the diagnosis and treatment of acute cerebral hemorrhage in patients with hemodialysis. The annual incidence of acute cerebral hemorrhage in patients with hemodialysis is (3.0~10.3)/1000, and the main cause is hypertension. Compared with non-dialysis patients, the most common bleeding site is the basal ganglia area, accounting for 50% to 80%; but the bleeding volume is large and the prognosis is poor, and the mortality rate is 27% to 83%. Especially for patients with hematoma >50ml, hematoma enlarged or ventricular hemorrhage on the second day after onset, the prognosis is very poor.
The logic is clear and the content is rich, covering many aspects of the information technology field. Provides a clear framework and guidance for learning and improving information technology capabilities.
This is a mind map about the annual work plan of the three pillars of human resources. The main contents include: strategic human resources planning, talent recruitment and allocation, employee performance management, employee training and development, employee relationships and communication, employee welfare and care, human resources information system construction, regulatory compliance and risk management, and organizational culture construction.
This is a mind map for the diagnosis and treatment of acute cerebral hemorrhage in patients with hemodialysis. The annual incidence of acute cerebral hemorrhage in patients with hemodialysis is (3.0~10.3)/1000, and the main cause is hypertension. Compared with non-dialysis patients, the most common bleeding site is the basal ganglia area, accounting for 50% to 80%; but the bleeding volume is large and the prognosis is poor, and the mortality rate is 27% to 83%. Especially for patients with hematoma >50ml, hematoma enlarged or ventricular hemorrhage on the second day after onset, the prognosis is very poor.
The logic is clear and the content is rich, covering many aspects of the information technology field. Provides a clear framework and guidance for learning and improving information technology capabilities.
Modelo multimodal Sistema técnico
Recopilación de datos previa al entrenamiento
Fuente de datos
Conjuntos de datos públicos (como Wikipedia, Enciclopedia de periódicos, foros en línea, plataformas sociales, etc.).
Conjuntos de datos internos empresariales (como registros internos, documentos, bases de datos).
Conjuntos de datos autocollectados (a través de rastreadores de red, interfaces API, etc.).
Limpieza de datos
Deduplicación (eliminar muestras duplicadas), desojar (filtrar datos sin sentido), formato unificado (filtrar datos sin sentido, como publicidad, errores de ortografía, etc.), reparar datos (corregir errores en datos, como errores de ortografía, etc.).
Anotación de datos
Los tipos de etiquetas incluyen etiquetado de texto (como reconocimiento de entidad de nombres, análisis de sentimientos, etc.) y etiquetado de imágenes (como cuadros delimitadores de objetos, etiquetas de clasificación de imágenes, etc.). La calidad de la etiqueta es crucial, y generalmente está marcada preliminarmente con herramientas automatizadas, seguido de una revisión manual y corrección para garantizar la consistencia de las etiquetas.
Aplicación de modelos previamente capacitados
El modelo previamente capacitado aprende un modelo de idioma común mediante la capacitación en un corpus de texto a gran escala. Estos modelos se pueden ajustar en diferentes tareas para satisfacer necesidades específicas.
Diseño de estructura de red
Procesar imágenes y texto
Transformer o CNN generalmente se usa para capturar la compleja relación entre la visión y el lenguaje.
Flujo de eventos
Las redes neuronales de pulso son más adecuadas y pueden simular de manera efectiva la dinámica de tiempo de la información.
Con el modelo de idioma como núcleo
DeepMind Flamingo Visual Language Model, Kosmos-1 conecta el transformador con el módulo de percepción visual y el chatbridge.
Optimización de aprendizaje auto-supervisada
Modelado de lenguaje de máscara (MCM): algunas palabras o marcadores en la secuencia de entrada se reemplazan con marcadores de máscara especiales, y luego se requiere el modelo previo a la aparición para predecir estas palabras o marcadores enmascarados basados en el contexto multimodal visible.
Modelado de imágenes de máscara (MIM): algunas áreas en la imagen de entrada están ocultas o reemplazadas con marcas de máscara especiales, y luego se requiere el modelo previamente capacitado para predecir o restaurar el área de imagen enmascarada si solo se ve el contenido de imagen restante y otra información modal como el texto.
Image-Text Match (ITM): implementar la alineación global de imágenes y texto. Por lo general, una imagen y un par de texto determinado se usa como una muestra positiva, luego la combina como una muestra negativa, y luego la coincidencia de la imagen y el texto se logra a través de un método de clasificación binaria, estableciendo así una relación semántica entre la imagen y el texto.
Aprendizaje de comparación de texto de imagen (ITC): Use el aprendizaje de contraste para dibujar representaciones vectoriales más cercanas de los mismos pares de muestras de imágenes y texto, y presione diferentes pares de muestras de representaciones de vectores, mejorando así la correlación semántica entre imágenes y texto.
Tarea posterior adaptación de ajuste fino
Adaptación de ajuste fino específico de la tarea: los pesos del modelo grande multimodal se utilizan como parámetros iniciales y el ajuste fino supervisado se realiza en los datos específicos de la tarea. Con este ajuste fino, el modelo aprenderá características y representaciones de grano fino para tareas específicas, adaptándose así a los requisitos de tareas específicas.
Adaptación de ajuste fino del modelo para el aprendizaje de indicación conjunta: diseñe una plantilla que se ajuste a la tarea de pre-entrenamiento ascendente, toque el potencial del modelo de pre-entrenamiento aguas arriba y permita que el modelo de pre-entrenamiento aguas arriba complete mejor las tareas aguas abajo sin la necesidad de etiquetar los datos. El aprendizaje rápido permite la reutilización de modelos previamente capacitados en diferentes tipos de tareas, y puede adaptarse a tareas específicas simplemente modificando la plantilla de inmediato, ahorrando el tiempo de capacitación y los recursos informáticos.
Adaptador Adaptación de ajuste del modelo basado en la red: cada tarea tiene su propia capa de adaptador independiente, de modo que el modelo pueda compartir la representación de un modelo pre-entrenado común entre las diferentes tareas, al tiempo que hace ajustes personalizados en cada tarea. Las capas del adaptador generalmente se componen de menos parámetros, por lo que son más eficientes que el ajuste en todo el modelo. Durante el entrenamiento, los parámetros del modelo previamente pracricado son fijos, y solo se actualizan los parámetros de la capa adaptadora.