Galeria de mapas mentais Sistema de tecnologia de modelo grande multimodal
Descreva as principais tecnologias para modelos multimodais demais, incluindo coleta de dados pré-treinamento, construção básica de modelos, aprendizado auto-supervisionado e treinamento de otimização de modelos e tarefas a jusante.
Editado em 2025-01-05 13:43:37Este modelo mostra a estrutura e a função do sistema reprodutivo na forma de um mapa mental. Ele apresenta os vários componentes dos órgãos genitais internos e externos e classifica o conhecimento claramente para ajudá -lo a se familiarizar com os principais pontos do conhecimento.
Este é um mapa mental sobre a interpretação e o resumo do e-book do campo de relacionamento, conteúdo principal: visão geral da interpretação da essência e visão geral do e-book do campo de relacionamento. "Campo de relacionamento" refere -se à complexa rede interpessoal na qual um indivíduo influencia outras pessoas através de comportamentos e atitudes específicos.
Este é um mapa mental sobre livros contábeis e registros contábeis.
Este modelo mostra a estrutura e a função do sistema reprodutivo na forma de um mapa mental. Ele apresenta os vários componentes dos órgãos genitais internos e externos e classifica o conhecimento claramente para ajudá -lo a se familiarizar com os principais pontos do conhecimento.
Este é um mapa mental sobre a interpretação e o resumo do e-book do campo de relacionamento, conteúdo principal: visão geral da interpretação da essência e visão geral do e-book do campo de relacionamento. "Campo de relacionamento" refere -se à complexa rede interpessoal na qual um indivíduo influencia outras pessoas através de comportamentos e atitudes específicos.
Este é um mapa mental sobre livros contábeis e registros contábeis.
Modelo grande multimodal Sistema técnico
Coleta de dados pré-treinamento
Fonte de dados
Conjuntos de dados públicos (como Wikipedia, Enciclopédia de jornais, fóruns on -line, plataformas sociais etc.).
Conjuntos de dados internos corporativos (como logs internos, documentos, bancos de dados).
Conjuntos de dados auto-coletados (através de rastreadores de rede, interfaces de API, etc.).
Limpeza de dados
Deduplicação (remova amostras duplicadas), denoising (filtrando dados sem sentido), formato unificado (filtrando dados sem sentido, como publicidade, erros de ortografia etc.), reparando dados (corrigindo erros em dados, como erros de ortografia etc.).
Anotação de dados
Os tipos de etiquetas incluem rotulagem de texto (como reconhecimento de entidade de nomeação, análise de sentimentos, etc.) e rotulagem de imagem (como caixas delimitadoras de objeto, etc. etc.). A qualidade da etiqueta é crucial e geralmente é marcada preliminarmente com ferramentas automatizadas, seguidas de revisão e correção manuais para garantir a consistência dos rótulos.
Aplicação de modelos pré-treinados
O modelo pré-treinado aprende um modelo de linguagem comum treinando em um corpus de texto em larga escala. Esses modelos podem ser ajustados em tarefas diferentes para atender às necessidades específicas.
Design da estrutura da rede
Processar imagens e texto
Transformador ou CNN é geralmente usado para capturar a complexa relação entre visão e linguagem.
Fluxo de eventos
As redes neurais de pulso são mais adequadas e podem simular efetivamente a dinâmica de tempo das informações.
Com o modelo de idioma como o núcleo
Modelo de linguagem visual de Flamingo DeepMind, KOSMOS-1 conecta o transformador ao módulo de percepção visual e Chatbridge.
Otimização de aprendizagem auto-supervisionada
Modelagem da linguagem de máscara (MCM): Algumas palavras ou marcadores na sequência de entrada são substituídos por marcadores de máscara especiais e, em seguida, o modelo pré -treinado é necessário para prever essas palavras ou marcadores mascarados com base no contexto multimodal visível.
Modelagem da imagem de máscara (MIM): Algumas áreas na imagem de entrada são ocultas ou substituídas por marcas de máscara especiais e, em seguida, o modelo pré-treinado é necessário para prever ou restaurar a área da imagem mascarada se apenas o conteúdo restante da imagem e outras informações modais, como o texto, forem vistas.
Match de texto de imagem (ITM): implemente o alinhamento global de imagens e texto. Geralmente, uma determinada imagem e par de texto é usada como uma amostra positiva, em seguida, emparelhe -a como uma amostra negativa e, em seguida, a correspondência da imagem e do texto é alcançada através de um método de classificação binária, estabelecendo assim uma relação semântica entre a imagem e o texto.
Aprendizagem de comparação de texto de imagem (ITC): use o aprendizado de contraste para desenhar representações vetoriais mais próximas dos mesmos pares de imagens e texto de amostra e empurre diferentes pares de amostras de representações vetoriais mais adiante, aumentando assim a correlação semântica entre imagens e texto.
Tarefa a jusante Adaptação de ajuste fino
Modelo específico da tarefa Adaptação de ajuste fino: Os pesos do modelo grande multimodal são usados como parâmetros iniciais e o ajuste fino supervisionado é realizado em dados específicos da tarefa. Com esse ajuste fino, o modelo aprenderá recursos e representações de refrigerante para tarefas específicas, adaptando-se aos requisitos de tarefas específicas.
Adaptação de ajuste fino do modelo para aprendizado de prompt de conjunto: projete um modelo que se encaixe na tarefa de pré-treinamento a montante, toque no potencial do modelo de pré-treinamento a montante e permita que o modelo de pré-treinamento upstream conclua as tarefas a jusante melhor sem a necessidade de rotular dados. O aprendizado imediato permite a reutilização de modelos pré-treinados em diferentes tipos de tarefas e pode se adaptar a tarefas específicas simplesmente modificando o modelo de prompt, economizando tempo de treinamento e recursos de computação.
Adaptação Adaptadora Adaptação de ajuste fina baseado em rede: Cada tarefa possui sua própria camada de adaptador independente, para que o modelo possa compartilhar a representação de um modelo pré-treinado comum entre diferentes tarefas, enquanto faz ajustes personalizados em cada tarefa. As camadas adaptadoras geralmente são compostas por menos parâmetros, por isso são mais eficientes do que o ajuste fino em todo o modelo. Durante o treinamento, os parâmetros do modelo pré -traçado são fixos e apenas os parâmetros da camada adaptadora são atualizados.