Galleria mappe mentale Sistema tecnologico di grandi dimensioni multimodali
Descrivi le tecnologie chiave per i modelli multimodali troppo modali, tra cui la raccolta di dati di pre-allenamento, la costruzione di modelli di base, l'apprendimento auto-supervisionato e la formazione di ottimizzazione del modello e le attività a valle.
Modificato alle 2025-01-05 13:43:37Lezione 12 della storia, l'ascesa della democrazia nazionale in Asia, Africa e America Latina, questa mappa del cervello ti aiuta a familiarizzare con i punti chiave della conoscenza e rafforzare la memoria. Gli studenti bisognosi possono aggiungere un segnalibro.
Questa è una mappa mentale sull'introduzione alla competenza di Chat GPT.
Questa è una mappa mentale sulla condivisione di profonde abilità di utilizzo.
Lezione 12 della storia, l'ascesa della democrazia nazionale in Asia, Africa e America Latina, questa mappa del cervello ti aiuta a familiarizzare con i punti chiave della conoscenza e rafforzare la memoria. Gli studenti bisognosi possono aggiungere un segnalibro.
Questa è una mappa mentale sull'introduzione alla competenza di Chat GPT.
Questa è una mappa mentale sulla condivisione di profonde abilità di utilizzo.
Modello di grandi dimensioni multimodali Sistema tecnico
Raccolta di dati di pre-allenamento
Fonte di dati
Set di dati pubblici (come Wikipedia, Enciclopedia di giornali, forum online, piattaforme sociali, ecc.).
Set di dati interni aziendali (come registri interni, documenti, database).
Set di dati auto-colletti (tramite crawler di rete, interfacce API, ecc.).
Pulizia dei dati
Deduplicazione (rimuovi campioni duplicati), denoising (filtrando dati insignificanti), formato unificato (filtrando dati insignificanti, come pubblicità, errori di ortografia, ecc.), Riparazione di dati (correzione di errori nei dati, come errori di ortografia, ecc.).
Annotazione dei dati
I tipi di etichetta includono l'etichettatura del testo (come il riconoscimento delle entità di denominazione, l'analisi del sentimento, ecc.) E l'etichettatura delle immagini (come caselle di controllo degli oggetti, etichette di classificazione delle immagini, ecc.). La qualità dell'etichetta è cruciale e di solito è preliminariamente contrassegnata con strumenti automatizzati, seguiti da revisione manuale e correzione per garantire la coerenza delle etichette.
Applicazione di modelli pre-addestrati
Il modello pre-allenato impara un modello di linguaggio comune allenandosi su un corpus di testo su larga scala. Questi modelli possono essere messi a punto su compiti diversi per soddisfare esigenze specifiche.
Progettazione della struttura della rete
Elabora immagini e testo
Il trasformatore o la CNN vengono generalmente utilizzati per catturare la complessa relazione tra visione e linguaggio.
Flusso di eventi
Le reti neurali a impulsi sono più adatte e possono simulare efficacemente le dinamiche di tempo di tempo.
Con il modello linguistico come core
Modello di linguaggio visivo in fenicottero DeepMind, Kosmos-1 collega il trasformatore con il modulo di percezione visiva e Chatbridge.
Ottimizzazione dell'apprendimento auto-supervisionato
Modellazione del linguaggio maschera (MCM): alcune parole o marcatori nella sequenza di input vengono sostituiti con marcatori di maschera speciali, quindi è necessario il modello pre -pre -pre -pre -marcatori in base al contesto multimodale visibile.
Modellazione di immagini di maschera (MIM): alcune aree nell'immagine di input sono nascoste o sostituite con marchi di maschera speciali, quindi è necessario il modello pre-addestrato per prevedere o ripristinare l'area dell'immagine mascherata se vengono visualizzati solo il contenuto di immagine rimanente e altre informazioni modali come il testo.
Image-Text Match (ITM): implementare l'allineamento globale di immagini e testo. Di solito, una determinata coppia di immagini e testo viene utilizzata come campione positivo, quindi accoppiarlo come campione negativo, quindi la corrispondenza dell'immagine e del testo viene ottenuta attraverso un metodo di classificazione binaria, stabilendo così una relazione semantica tra l'immagine e il testo.
Image-Text Confronto Learning (ITC): utilizzare il metodo di apprendimento del contrasto per avviare rappresentazioni vettoriali più vicine delle stesse coppie di campioni di immagini e testo e spingere più diverse coppie di campioni di rappresentazioni vettoriali, migliorando così la correlazione semantica tra immagini e testo.
Adattamento a valle della messa a punto del compito
Adattamento di messa a punto del modello specifico dell'attività: i pesi del modello grande multimodale vengono utilizzati come parametri iniziali e la messa a punto supervisionata viene eseguita su dati specifici per l'attività. Con questa messa a punto, il modello imparerà caratteristiche e rappresentazioni a grana fine per compiti specifici, adattandosi così ai requisiti di compiti specifici.
Adattamento del modello di messa a punto del modello per l'apprendimento rapido congiunto: progettare un modello che si adatta all'attività di pre-allenamento a monte, tocca il potenziale del modello di pre-allenamento a monte e consenti al modello di pre-allenamento a monte di completare meglio le attività a valle senza la necessità di etichettare i dati. L'apprendimento rapido consente il riutilizzo di modelli pre-alleniti su diversi tipi di attività e può adattarsi a compiti specifici semplicemente modificando il modello prompt, risparmiando tempo di formazione e risorse di calcolo.
Adattatore Adattatore Basato su rete Adattamento di messa a punto: ogni attività ha il proprio livello di adattatore indipendente, in modo che il modello possa condividere la rappresentazione di un modello pre-allenato comune tra compiti diversi, effettuando modifiche personalizzate su ciascuna attività. I livelli di adattatore sono generalmente composti da meno parametri, quindi sono più efficienti rispetto alla messa a punto in tutto il modello. Durante l'addestramento, i parametri del modello pretratto sono fissi e vengono aggiornati solo i parametri del livello dell'adattatore.