Galleria mappe mentale 【AIGC】 6 mappe dell'applicazione AIGC
Man mano che la tecnologia di intelligenza artificiale continua a raggiungere scoperte e iterazioni, l'argomento dell'IA generativa è diventato popolare molte volte e lo sviluppo industriale, la risposta del mercato e i corrispondenti requisiti normativi della generazione di contenuti di intelligenza artificiale (AIGC) hanno anche ricevuto una diffusa attenzione. Yitu prende la modalità di generazione di contenuti come prospettiva, coprendo lo sviluppo tecnologico, le capacità chiave e gli scenari di applicazione tipici di AIGC nei settori della generazione di immagini, generazione audio, generazione di video, generazione tridimensionale, generazione di lingue e processi di pubblicità e per processi per la pubblicità e la loro prospettiva.
Modificato alle 2025-02-10 15:40:35Ceci est une carte mentale sur la carte mentale des experts en bourse (version détaillée).
This is a mind map about the mind map of stock trading experts (detailed version). The main contents include: 1. Mindset management, 2. Basic knowledge, 3. Technical analysis, 4. Fundamental analysis, 5. Trading strategy, 6. Risk control, 7. Continuous evolution.
Questa è una mappa mentale sulla mappa mentale degli esperti di trading azionari (versione dettagliata).
Ceci est une carte mentale sur la carte mentale des experts en bourse (version détaillée).
This is a mind map about the mind map of stock trading experts (detailed version). The main contents include: 1. Mindset management, 2. Basic knowledge, 3. Technical analysis, 4. Fundamental analysis, 5. Trading strategy, 6. Risk control, 7. Continuous evolution.
Questa è una mappa mentale sulla mappa mentale degli esperti di trading azionari (versione dettagliata).
Cogvideo
Principio di attuazione: Cogvideo è un modello di generazione di video-video su larga scala basato sul metodo di autoregressione. Pro e contro: Vantaggi: questo modello supporta il prompt cinese. Svantaggi: ci sono restrizioni sulla lunghezza della sequenza di input.
Sfida di usabilità del prodotto
Velocità di produzione video, convenienza, integrazione del contenuto e interattività
Sfida stabile e controllabile
Controllo della durata, controllo dei contenuti, utilizzo e formazione di dati limitati, risultati di generazione e regolazione del processo
Copyright materiale, privacy e sicurezza, etica
Sfide dell'applicazione di conformità
Migrazione in stile video
● Espressione artistica delle opere cinematografiche e televisive ● Conversione dello stile pubblicitario
● Ottimizzazione delle prestazioni cinematografiche e televisive/pubblicitarie ● Riparazione di vecchi film e dati preziosi dell'immagine ● Monitoraggio della sicurezza migliorato e qualità dell'immagine medica
Miglioramento video
● Scene virtuali, caratteri e generazione di effetti speciali ● Generazione del trailer di film ● Generazione di annunci video ● Struttura corporea umana dinamica e generazione del modello di malattia
Generazione di video
● Editing post-produzione ed elaborazione degli effetti speciali di film e televisione ● Editing per materiale video breve e aggiunta di effetti speciali
Editing video
● Monitoraggio della sicurezza e avvertimento precoce, gestione del traffico intelligente ● Generazione dell'etichetta dei contenuti di marketing, analisi del sentimento ● Analisi cinematografica e televisiva
Riconoscimento dei contenuti video
● Effetto di transizione tra i frame ● Continuità dell'azione ● La levigatezza dell'immagine ● commutazione regolare delle scene
Continuità
● Alta risoluzione ● Il realismo della scena e dei personaggi ● Dettagli dell'immagine chiari e ricchi ● La logica dei contenuti video
● La lunghezza del video è variabile e controllabile ● Rilevanza per una determinata descrizione ● Gli attributi video ed elementi video sono controllabili e modificabili
Controllabilità
Realismo
Principi di attuazione del modello tradizionale e vantaggi e svantaggi
● Modelli tradizionali:
Imagen-Video
Gen
Principio di attuazione: Imagen-Video è un modello video basato su condizioni di testo sviluppato in base al modello Imagen. Pro e contro: Vantaggi: i video generati hanno alta fedeltà, controllabilità e conoscenza del mondo, supportano la generazione di vari video e animazioni di testo in vari stili artistici e hanno la capacità di comprendere gli oggetti 3D. Svantaggi: il metodo di addestramento parallelo utilizzato dal modello a cascata richiede elevate risorse di elaborazione.
Principio di attuazione: Il modello Gen impara le funzionalità di immagine di testo attraverso il potenziale modello di diffusione e può generare nuovi video basati su un determinato prompt di testo o un'immagine di riferimento o un'immagine di attivazione per eseguire la conversione dello stile video in base al video originale. Pro e contro: Vantaggi: questo modello ha buone prestazioni nel rendering dei video e nella conversione di stile e il video generato ha una forte capacità di conservazione della struttura artistica e delle immagini, in modo che possa adattarsi meglio ai requisiti di personalizzazione del modello. Svantaggi: il modello Gen ha ancora limitazioni nella stabilità dei risultati generati.
● Modelli rappresentativi nazionali ed estere:
È open source?
Organizzazione
Introduzione
Modello
Non open source
Il modello di generazione di video-video basato sul modello di diffusione presenta i vantaggi della velocità di generazione, una buona qualità video e la capacità di comprendere una varietà di stili artistici e oggetti 3D.
Imagen Video
Make-a-video
Meta
Non open source
Non sono richiesti dati sul testo-Video, utilizzare la formazione dei dati dell'immagine di testo per ottenere la generazione di video, che migliora il tempo e la risoluzione spaziale dei video generati
Nuwa-xl
Microsoft Research Institute
Già aperto di provenienza su GitHub
Il modello di generazione di video ultra-lungo basato sulla diffusione sull'architettura di diffusione ha una buona qualità e continuità video e può ridurre notevolmente il tempo di inferenza
Cogvideo
Tsinghua & Zhiyuan
Già aperto su Huggingface
Il modello di pre-allenamento su larga scala Video, la strategia di formazione gerarchica a tasso multi-frame può allineare meglio il testo e i video e i dati di formazione su larga scala migliorano significativamente la qualità dei video generati.
Auto-ritorno Fase del modello di diffusione
Gan/vae Basato sul flusso Fase di generazione
Cuciture di immagine Fase di generazione
video generare
● Discouplicamento attraverso la segmentazione di primo piano e sfondo, movimento e contenuto Soluzioni, traduzione delle immagini e altri metodi per migliorare l'effetto di generazione ● La qualità del video è ancora bassa
● Modello autoregressivo: generazione di previsione del frame, buona coerenza, ma bassa efficienza ed errori sono facili da accumulare ● Modello di diffusione: migrare l'architettura dell'immagine letteraria alla generazione di video, con alta fedeltà, ma elevato consumo di risorse
● Punti di immagine statica per formare un flusso video ● Semplice e facile da usare, ma bassa qualità video e scarsa coerenza
Produzione di scena cinematografiche e cinematografiche, pubblicità, persone digitali
Effetti post-produzione visivi
Editing cinematografico e televisivo, cambio di volto video
Applicazioni tipiche
Transformer-tts
Principio di attuazione: Transformer-TTTS è un modello di generazione vocale end-to-end che combina la struttura del trasformatore e la applica al sistema TTS. In particolare, Transformer-TTS migliora l'efficienza dell'allenamento introducendo un meccanismo di attenzione a più testa per costruire una struttura codificatore-decoder, utilizza sequenze di fonemi come input per generare uno spettro MEL e produce forme d'onda attraverso un vocader Wavenet. Pro e contro: Vantaggi: il modello vocale con la struttura del trasformatore può accelerare la velocità di allenamento, risolvendo i problemi di bassa velocità di allenamento e difficoltà a stabilire un modello a lungo dipendenza in Tacotron2. Svantaggi: ci sono problemi con inferenza lenta e deviazione del modello causate dall'accumulo di errori autoregressivi.
● Modelli rappresentativi nazionali ed estere:
Tacotron2
Principio di attuazione: Tacotron2 è un modello di sintesi vocale end-to-end composto da una rete di previsione dello spettro del suono e un vocoder basato sulla combinazione di Wavenet e Tacotron. Tra questi, la rete di previsione da sequenza a sequenza estrae il modello di input delle caratteristiche di testo, sovrappone i valori previsti sullo spettro MEL e il vocoder genera una forma d'onda del dominio temporale basata sulla sequenza prevista. Pro e contro: Vantaggi: il problema di fuga del gradiente è ottimizzato attraverso il miglioramento del meccanismo di attenzione, la qualità del suono della generazione del parlato è buona ed è buono robusto per i dati di testo di input. Svantaggi: la velocità di sintesi dei modelli autoregressivi usando la struttura RNN è lenta, è difficile pronunciare parole complesse, il discorso generato manca di colore emotivo e il tempo di allenamento e il costo dei grandi set di dati sono elevati e il modello manca di controllabilità.
● Modelli tradizionali:
Sfide della domanda personalizzate
3
Sfida di fusione multimodale
2
1
Sfida di gap dati
Sintesi vocale personalizzata, capacità di interazione professionale, capacità di ingegneria vocale personalizzata
Convergenza della percezione, tecnologie cognitive e sintetiche per l'applicazione della controllabilità del prodotto e delle capacità di generalizzazione
Formazione di sintesi vocale a bassa risorsa, miglioramento del testo, costruzione di dati sintetici e precipitazione della conformità dei dati degli utenti
Conversione vocale Applicazione di trasferimento di stile: Film, TV, animazione, giochi e altri campi: impostazione di voci di personaggi diversi Scenari che coinvolgono la privacy e la sicurezza personale: elaborazione della privacy dei suoni Applicazione di dati sintetici: costituire dati sintetici e aumentare la scala dei dati di formazione
Miglioramento della voce, riparazione della voce Eseguire la riduzione del rumore, il filtraggio, il guadagno e altre elaborazioni sui segnali vocali Scenari di applicazione: registrazione telefonica, videoconferenza, servizi di interazione vocale in ambienti pubblici per migliorare le capacità di riconoscimento vocale e la qualità della generazione Applicazione di dati audio storici: ripristino di dati audio storici, sintesi speculativa della pronuncia del linguaggio antico Valore della ricerca storica: ha un importante valore dell'applicazione per la ricerca storica
Generazione di musica La musica coerente con uno stile semantico e coerente può essere generata in base alla clip audio richiesto o alla descrizione del testo. Campi musicali e cinematografici e televisivi: arrangiamento delle canzoni, raffinamento in stile musicale, musica di sottofondo e generazione del suono ambientale, ecc.
Interazione vocale Scenario di dialogo umano-computer Applicazione: ampiamente utilizzata in vari tipi di dialoghi da uomo-computer Servizi aziendali, finanziamenti e altri settori: i robot di servizio clienti intelligenti conducono domande e risposte vocali con i clienti per risparmiare i costi del lavoro Elettrodomestici, automobili e altri settori: casa intelligente, scenari di auto intelligenti, assistenti vocali completano i comandi utente Industrie di notizie e media: lavoro di interpretazione simultanea in conferenze internazionali, mostre e altre attività
Sintesi fonetica Applicazioni nel campo dell'incarico di pan-pane: scene di produzione sonora a lungo termine come trasmissioni di notizie, lettura audio e altri scenari di produzione sonori a lungo termine e applicazioni di produzione industriale: navigazione vocale, comando traffico Controllo dell'automazione industriale Applicazioni di sintesi tra linguaggio: traduzione della pronuncia, apprendimento delle lingue Applicazione in campo medico: dispositivi indossabili medici come la gola artificiale
Riconoscimento vocale Estrazione e conversione dell'audio di input in testo o comandi corrispondenti per realizzare la conversione del testo di dichiarazioni orali vocali o vari contenuti audio Applicazione scenario C-end: metodo di input vocale e note orali sugli smartphone Scenari di applicazione del settore: Recupero dell'archivio, iscrizione alla cartella medica elettronica, produzione di sottotitoli cinematografici e televisivi
Audio generare
● Controllo della velocità vocale, ritmo e ritmo ● Capacità di comprensione del testo e della pronuncia in diversi background linguistici ● Affrontare le caratteristiche dei fonemi emotivi
controllare capacità
voce qualità
● Elevata precisione ● Capacità anti-interferenza
generare velocità
● singoli utenti: la velocità di generazione può rispondere ai requisiti in tempo reale ● Utenti aziendali: l'impatto della velocità di generazione sui processi aziendali
● Metodo di sintesi audio principale dell'attuale mainstream ● Ridurre la difficoltà di allenamento della conoscenza linguistica ● Il suono è naturale, avvicinandosi all'effetto della voce della persona reale
● I dati audio originali richiesti sono piccoli di scala e fluidi ● Molto rumore ● Meccanica vocale più pesante
● La qualità del suono è migliore in base alla registrazione della persona reale ● Facendo affidamento sul volume dei dati del database vocale ● La transizione di connessione Word è relativamente rigida
Fase di sintesi end-to-end
Fase di sintesi dei parametri
Fase di sintesi di giunzione
Genera melodia, musica
Basato sul contenuto visivo (Immagine o video) Fare una descrizione della voce
Text-to-spealch Sintetizzare pronunce basate sul testo
3
Conformità normativa e protezione della privacy Protezione del copyright AI Governance
2
Capacità di produzione pronta comprendi Uso di strumenti di messa a punto
Capacità di dati Funzionamento a circuito chiuso delle risorse dei dati
1
Immagine super risoluzione Casi medici e creazione di struttura anatomica Osservazione astronomica, Misurazione di tonnellate margingale di telerilevamento satellitare
Riparazione dell'immagine Restauro di documenti storici digitali, Riparazione di immagini vecchie foto e vecchia riparazione del film
Generazione dell'immagine, conversione in stile immagine Creazione artistica, editing di immagini, personaggi dei cartoni animati per il miglioramento artistico dell'immagine, poster di produzione della scena di gioco, logo del prodotto e design di imballaggi
Classificazione delle immagini, segmentazione delle immagini Riconoscimento target, design industriale di recupero delle immagini Analisi dei cambiamenti nell'annotazione dell'imaging medico e nella struttura patologica anatomica
3
4
2
1
Controllabilità dell'immagine Controllo dei dettagli dell'immagine Aggiustamenti successivi
Diversità dell'immagine Espressione di dettaglio ed espressione di stile Coerenza semantica di più immagini o stili diversi
Stabilità dell'immagine Descrivi i dati per distorsione, distorsione ed eccezioni Capacità anti-interferenza
Qualità dell'immagine La ricchezza della qualità dell'immagine e delle informazioni dettagliate La realtà dell'immagine
Introduzione
Sulla base del potenziale framework del modello di diffusione, può ridurre i requisiti di potenza di calcolo e le soglie di distribuzione utilizzate specificamente nelle attività grafiche letterarie.
Sulla base del framework del modello di clip e diffusione, la generazione di immagini può mantenere una buona coerenza semantica
Un modello di generazione multimodale basato sul framework del modello di diffusione, propone un modello di esperto ibrido e seleziona automaticamente la rete di generazione ottimale
Sulla base del modello di generazione di immagini dopo una regolazione sottile del modello di diffusione, viene distribuito su discordia ed è bravo nell'espressione dell'immagine in stile artistico
È open source?
GitHub Open Source
Non open source
Non open source
Non open source
meccanismo
Stabilità
Aperto
Baidu
Midjourney
Modello
Diffusione stabile
Dall-E2
Midjourney V5
Wenxin Ernie-Vilg2.0
● Modelli rappresentativi nazionali ed estere:
Clip: pre-allenamento contrastante dell'immagine del linguaggio
Principio di attuazione: Il modello pre-trattato cross-modal-modal-modale basato sull'apprendimento del contrasto è quello di estrarre rispettivamente il testo e le immagini tramite un codificatore, mappare il testo e le immagini nello stesso spazio di rappresentazione e addestrare il modello attraverso la somiglianza e il calcolo della differenza della coppia di immagini di testo, in modo che le immagini che si conformavano alla descrizione possano essere generate in base al testo dato. Pro e contro: Vantaggi: non è necessario contrassegnare in anticipo, non è necessario eseguire bene l'attività di classificazione del testo dell'immagine a campione zero, una comprensione più accurata della descrizione del testo e dello stile dell'immagine, modificare i dettagli non essenziali dell'immagine senza modificare l'accuratezza e funzionare meglio in termini di diversità nelle immagini generate. Svantaggi: ci sono limitazioni nelle prestazioni di scenari complessi e astratti e l'effetto di formazione dipende dalle immagini di testo su larga scala per consumare set di dati relativamente su larga scala e risorse di formazione.
Principio di attuazione: Definendo una catena Markov di una fase di diffusione, l'immagine viene generata aggiungendo continuamente rumore casuale ai dati fino a quando non viene ottenuto i dati di rumore gaussiano puro e quindi viene appreso il processo di diffusione inversa e l'immagine viene generata mediante inferenza di riduzione del rumore inversa. Il modello di diffusione perturba sistematicamente la distribuzione nei dati e quindi ripristina la distribuzione dei dati, facendo apparire l'intero processo una proprietà di ottimizzazione graduale, garantendo la stabilità e la controllabilità del modello. Pro e contro: Vantaggi: ripristinare più accuratamente dati reali, una maggiore capacità di mantenere i dettagli dell'immagine e una migliore immagine realistica. Soprattutto in applicazioni come la riparazione del completamento delle immagini e la generazione di mappe molecolari, può ottenere buoni risultati. Svantaggi: fasi di calcolo complesse, velocità di campionamento lenta e debole capacità di generalizzazione ai tipi di dati.
Modello di diffusione
● Modelli tradizionali:
Stadio di generazione del modello di diffusione
● Modello di generazione di immagini principali attuali ● Il processo di diffusione migliora significativamente la stabilità, l'accuratezza e la diversità Combinato con clip, può essere applicato alle attività di generazione di immagini cross-modal ● Migliora significativamente la velocità e la qualità delle immagini generate.
Fase di generazione di autoregressione
● Il meccanismo di autoatterraggio basato sulla struttura del trasformatore migliora la stabilità e la razionalità ● Problemi della velocità di inferenza e delle applicazioni limite di costo di allenamento
● Modello di generazione di immagini di generazione precedente ● Migliorare la generazione e la capacità di identificazione attraverso la formazione di confronto ● scarsa stabilità, mancanza di diversità e crollo del modello
Fase di generazione di GAN
Generazione di immagini di vero colore
Diagramma RGB
Usa la combinazione di RGB tre colori primari per rappresentare il valore di colore di ciascun pixel e memorizzarlo direttamente nella matrice dell'immagine
Generazione di immagini con composizione a colori relativamente semplice come mappe molecolari
Costruito da una matrice bidimensionale e una mappa della matrice di indice di colore che memorizza l'immagine
Grafico indice
Generazione di immagini
Immagine-immagine Generare nuove immagini dalle immagini esistenti
Composizione dell'immagine Sintesi dell'immagine
Text-to-immagine Genera immagini conformi semantiche basate sulla descrizione del testo
AIGC - Generazione audio
AIGC - Generazione video
AIGC - generazione di immagini
definizione
definizione
definizione
La generazione audio si riferisce al processo di sintesi di forme d'onda sonore corrispondenti in base ai dati di input.
La generazione di video si riferisce alla formazione dell'intelligenza artificiale, che gli consente di generare automaticamente contenuti video ad alta fedeltà conforme alla descrizione basata su dati singoli-modali o multimodali come testo, immagini, video, ecc.
La generazione di immagini si riferisce al processo di utilizzo della tecnologia di intelligenza artificiale per generare immagini a modalità-modalità o cross-modale in base a dati dati. A seconda degli obiettivi dell'attività e delle modalità di input, la generazione di immagini include principalmente la sintesi delle immagini, la generazione di nuove immagini basate su immagini esistenti (immagine-immagine) e la generazione di immagini semantiche basate su descrizioni di testo (text-to-immagine).
I tipi principali e le aree di applicazione della generazione audio
I tipi principali e le aree di applicazione della generazione di video
Tipi principali e campi dell'applicazione della composizione dell'immagine
Applicazioni tipiche
natura
Tipo di dati
natura
Tipo di dati
Tipo di immagine
natura
Applicazioni tipiche
Freazione di informazioni, servizio di interazione umana-computer
Estrai le informazioni di informazione di testo e sintetizza le informazioni vocali
Informazioni sul testo
Modifica, sintetizza e modifica più video per generare nuovi video, tra cui modifica degli attributi video, editing di clip, modifica delle parti video, ecc.
Modifica generazione
Grafico binario
La matrice bidimensionale dell'immagine è costituita da solo 0 (nero) e 1 (bianco), che può essere considerata come binarizzazione del grafico in scala di grigi.
Estrazione del testo, estrazione delle caratteristiche dell'immagine
Editing vocale, traduzione vocale, produzione musicale
Modifica in base a un determinato segmento vocale o converti una lingua in informazioni vocali di un'altra lingua
Informazioni audio
Aggiungi una varietà di effetti ai video esistenti, come filtri, luce e ombra, fuochi d'artificio, ecc. Per migliorare la creatività e l'effetto artistico del video
Generazione di effetti speciali
Scala di grigi
L'intervallo di valori degli elementi a matrice bidimensionale è di solito da 0 (nero puro) a 255 (bianco puro) e il numero centrale rappresenta il colore di transizione tra nero e nero.
Immagine medica e generazione di immagini di telerilevamento
Dispositivi indossabili medici
Percepire i movimenti muscolari come la gola e il viso e sintetizza la voce
Vibrazione muscolare
Generazione di contenuti
Genera contenuti video corrispondenti in base al testo dato, alle immagini e ad altre informazioni
Identificare e comprendere i contenuti visivi come immagini e video e generare informazioni vocali corrispondenti alla forma delle labbra
Persone digitali
Contenuto visivo
Fase chiave dello sviluppo tecnologico della composizione dell'immagine
Fase chiave dello sviluppo tecnologico della generazione audio
Fase chiave dello sviluppo tecnologico della generazione di video
Principi di attuazione del modello tradizionale e vantaggi e svantaggi
Sfida di implementazione della commercializzazione della generazione di immagini
Fattori chiave che influenzano le capacità dell'applicazione dei modelli
Scenari tipici di applicazione industriale per la generazione di immagini
Applicazioni di generazione audio tradizionale
Modello
Introduzione
Organizzazione
È open source?
Tacotron2
Innanzitutto, propone un modello di sintesi vocale end-to-end come infrastruttura di soluzioni multiple del sistema vocale
Già aperto di provenienza su GitHub
Modello automatico di riconoscimento vocale per migliorare le capacità di riconoscimento vocale attraverso set di dati su larga scala e diversificati e supporta la trascrizione del parlato, la traduzione vocale, ecc.
Già aperto di provenienza su GitHub
Aperto
Sussurro
Modello di sintesi vocale da sequenza a sequenza completamente convoluzionale, l'effetto di sintesi vocale multi-persona può essere migliorato estendendo il set di dati di formazione del modello di sintesi vocale
Non open source
Baidu
Deepvoice3
Modello di pre-allenamento della voce cinese di livello industriale, supportando il riconoscimento vocale multimodale, il riconoscimento emotivo, il riconoscimento della stampa vocale e altri compiti
Non open source
iflytek
Smart-tts
Fattori chiave che influenzano le capacità dell'applicazione dei modelli
Fattori chiave che influenzano le capacità dell'applicazione dei modelli
La sfida della commercializzazione della generazione audio
Scenari tipici di applicazione industriale per la generazione audio
Scenari tipici di applicazione industriale per la generazione di video
Sfida per la commercializzazione della generazione di video
Design del chip
Cibo e agricoltura
energia
Scienza dei materiali
Cura personale
La tecnologia di intelligenza artificiale si sta sviluppando rapidamente e nuove tecnologie possono sostituire le tecnologie esistenti, influenzando così il valore commerciale delle tecnologie esistenti.
Concorso di sviluppo tecnologico
● Lo sviluppo del farmaco richiede una rigorosa approvazione ● Problemi di copyright per la progettazione di circuiti integrati ● I modelli di scoperta molecolare possono essere utilizzati per sviluppare farmaci vietati e prodotti pericolosi
legge Con sicurezza
Sviluppo e Costo di verifica
Progettazione di farmaci
applicabilità
Generare qualità
chiave fattore
La scoperta molecolare e i modelli di progettazione del circuito integrato devono essere adatti a scopi di progettazione specifici. Il modello di progettazione del circuito integrato deve anche riqualificare il modello, modificare l'architettura, regolare manualmente i parametri, pianificare i principi di scoperta, ecc. In combinazione con gli scopi di progettazione industriale da applicare ai requisiti industriali.
Per la scoperta molecolare e i modelli di progettazione del circuito integrato, la qualità della generazione è il fattore principale che determina le sue capacità di applicazione.
cablaggio
Tipo di lavoro
Obiettivi di lavoro
Modello rappresentativo
Algoritmi e modelli di base
Dreamplace
Ottimizzazione dei parametri della rete neurale
Ottimizzazione del layout di apprendimento automatico
Rete neurale grafico
PL-GNN
Rete neurale grafico
Apprendimento del rinforzo
Rete convoluzionale completamente connessa
Rete neurale convoluzionale
Rete neurale convoluzionale
Macchina di rilevamento multistrato
... ...
Rete neurale convoluzionale
Autoencoder variazionale
Monte Carlo Tree Search
RL per CF2
Deepplace
Decisione di layout di intelligenza artificiale
CNN per RDP3
FCN per RDP4
Considera le decisioni di layout per il cablaggio
ML per RDPE
Dlroute
Ottimizzazione del cablaggio di intelligenza artificiale
... ...
Deeppr
VAE per CR6
MCT per CR5
Decisione del cablaggio dell'intelligenza artificiale
disposizione
Layout completo e design del cablaggio
Layout di cablaggio
Scenari di applicazione per la scoperta molecolare e il design del circuito
Metodo di ottimizzazione della combinazione
Metodo di generazione profonda
Markov Chain Monte Carlo
MIMOSA
Bidimensionale
MARTE
Bidimensionale
Conf
Tridimensionale
Modello di diffusione
Tridimensionale
Evfn
Monodimensionale
ORGANO
Bidimensionale
Monodimensionale
Bidimensionale
Tridimensionale
Tridimensionale
Moidqnmoidon
Apprendimento del rinforzo
GB-GA
Lapidato
Algoritmo genetico
Bokei
BOA
Ottimizzazione bayesiana
Defactor
Monodimensionale
Generare reti contraddittorie
Bidimensionale
ORGANO
Graphnvp
Bidimensionale
Flusso standardizzato
Bidimensionale
Moflow
Sg-Vae
Monodimensionale
Autoencoder variazionale
Bidimensionale
Cgvae
Sf-rnn
Monodimensionale
Bidimensionale
Molecularrnn
Modello autoregressivo
Generare una rappresentazione
Modello rappresentativo
Algoritmi e modelli utilizzati
Generare metodo
principio
Tipo di lavoro
Data una serie di componenti di circuiti integrati, tra cui unità standard, moduli macro, porte logiche, ecc., Nonché informazioni caratteristiche come la larghezza e l'altezza di questi componenti, È inoltre necessario fornire informazioni sulla relazione di connessione tra le posizioni PIN di questi componenti e i componenti e allocare le posizioni fisiche dei componenti in base alle informazioni di cui sopra in modo che i componenti non si sovrappongano a vicenda.
disposizione
cablaggio
Dopo il completamento del layout, è stata determinata la posizione del pin del componente e la relazione di connessione tra i componenti è stata determinata nell'area di cablaggio riservata durante il layout, durante il layout, Secondo la relazione di connessione tra componenti e requisiti come la lunghezza minima del cablaggio totale e la relazione di temporizzazione tra componenti, il circuito di connessione tra i componenti sarà progettato senza violare le regole del cablaggio.
Di solito contenuto di testo scritto che è fattuale, funzionale o divertente
Rappresentazione tridimensionale
AIGC - Discovery molecolare e design del circuito
definizione
La scoperta molecolare e la progettazione di circuiti si riferiscono all'utilizzo dell'apprendimento automatico, alla rete neurale profonda e ad altre tecnologie per apprendere la struttura, le regole e le proprietà delle molecole e dei circuiti integrati e generare molecole e circuiti integrati con strutture simili, conformarsi a regole specifiche e avere proprietà target.
Tipi principali e campi di applicazione della scoperta molecolare e del design del circuito
Metodo di espressione
principio
Rappresentazione unidimensionale
Esprimere molecole come stringhe per esprimere gli atomi e le strutture delle molecole nei caratteri
Rappresentazione bidimensionale
Espressi molecole come dati grafici, in cui atomi e legami sono rappresentati rispettivamente come punti e bordi dei dati grafici
Modello mainstream di scoperta molecolare
Modello di progettazione del circuito tradizionale
Fattori chiave che influenzano le capacità dell'applicazione dei modelli
Rischi di commercializzazione della scoperta molecolare e del design del circuito
● Lo sviluppo richiede molti costi di dati e talenti ● Il processo di verifica richiede molta incertezza e ha un lungo ciclo
03 Rischi di sostituzione della tecnologia e delle applicazioni
02 Rischi per la sicurezza delle informazioni
01 messaggio di errore Informazioni dannose
Industria e-commerce
Notizie e media
Industria educativa
● Generare la descrizione del prodotto ● Analizzare le recensioni dei prodotti ● Genera raccomandazioni sul prodotto ● Genera un rapporto di analisi
● Genera notizie ● Condurre la creazione di contenuti ● Generare la trasmissione orale di hosting ● Generare documento AD
● Generare il piano di insegnamento ● Generare il piano di insegnamento ● Assistere a correggere i compiti ● Fornire tutoraggio di studio
R&D del prodotto
● Assistere nello sviluppo dei prodotti IT ● Generare casi di test ● Generare il manuale del prodotto ● Generare i passaggi dell'operazione
Industria del servizio clienti
● Genera una soluzione ● Soluzione intelligente del servizio clienti ● Comprendi le intenzioni dei clienti ● Servizio clienti esclusivo per clienti di grandi dimensioni
Marketing
● Genera un preventivo ● Genera un piano di vendita ● Analizzare i dati di mercato ● Analizzare i dati di vendita
Industria medica
● Assistere i medici a scrivere piani medici ● Assistere i medici a scrivere cartelle cliniche ● Aiutare i pazienti ad abbinare le risorse mediche ● Fornire una guida per la diagnosi e il trattamento per i pazienti
● Analizzare un gran numero di rapporti finanziari ● Genera un riepilogo delle informazioni chiave ● Fornire consulenza sulla strategia di investimento ● Generare un rapporto di analisi dei dati
Industria finanziaria
Capacità di personalizzazione e innovazione
Soddisfare le esigenze differenziate dei clienti Rispondi ai cambiamenti del mercato con l'innovazione
Funzionamento del prodotto e assistenza clienti
Aumenta la viscosità dell'utente e aumenta i costi di migrazione Realizzare la conversione e la conservazione degli utenti
Capacità di marketing
Diluizione efficace dei costi Garantire il margine di profitto
Dominio di conoscenza del modello esteso Scopri i punti deboli dell'applicazione e le esigenze dell'applicazione
Generare qualità
Domande di Tongyi Qian
Le parole di Wen Xin
discutere
Alibaba Cloud
Baidu Smart Cloud
Shang Tang
Cina
Cina
Cina
Benchmarking contro l'applicazione di generazione di lingue universali cinesi di CHATGPT, accedendo a applicazioni come Baidu Search Engine, Baidu Library, Xiaodu Smart Assistant, ecc.
SÌ
NO
NO
Benchmarking dell'applicazione cinese di generazione di lingue comuni di chatgpt, supportando modelli personalizzati di imprese
Verranno lanciate benchmarking contro l'applicazione di generazione di lingue universali cinesi di Chatgpt e l'applicazione di generazione di lingue verticali per scenari medici e di programmazione
Claude
Benchmarking dell'applicazione di generazione di lingue comune di CHATGPT, ottimizzare l'assistenza e la sicurezza della lingua di generazione e fornire servizi di applicazione di sicurezza della generazione di lingue a livello aziendale
Antropico
all'estero
SÌ
Aperto online
SÌ
SÌ
Mercato
all'estero
all'estero
Organizzazione
Aperto
Data 2022 a: periodo di accelerazione della domanda ● Generare la qualità del linguaggio è coerente con il livello umano ● Le aziende del settore esplorano attivamente gli scenari di applicazione e i metodi dell'applicazione di generazione di lingue in vari settori e campi
Ⅵ
Ⅴ
F
E
Ⅳ
2020-2021: periodo di esplorazione delle applicazioni ● La capacità di generazione di lingue soddisfa i requisiti dell'applicazione di base ● Le aziende del settore inizialmente esplorano gli scenari di applicazione per attività di generazione di lingue a bassa modalità
2018-2019: periodo di esplorazione del modello ● Il modello di generazione di lingue ha un paradigma chiaro ● Posare le basi tecniche per applicazioni di generazione di lingue a bassa modalità
D
Ⅲ
C
Ⅱ
B
Ⅰ
2017: periodo di sviluppo tecnologico ● Proponi sull'architettura del trasformatore, Yingding Technology Foundation ● È possibile completare solo attività di generazione di lingue altamente modellate
Prima del 2017 ● Capacità di generazione del linguaggio debole ● L'applicazione può completare solo le attività di generazione di lingue altamente modellate
Periodo di sviluppo rapido
Periodo di avvio del mercato
Periodo di esplorazione
UN
Applicazioni di generazione di lingue tradizionali
Introduzione
Nome dell'applicazione
Benchmark Applicazione di generazione di lingue universali, ottenendo i migliori risultati in attività di generazione di lingue multiple come generazione di testo, riepilogo del testo, modifica del testo, interazione in linguaggio naturale, generazione di codice, ecc. E collaborando con molte imprese e istituzioni principali per esplorare gli scenari delle applicazioni di generazione di lingue
Chatgpt
Benchmarking dell'applicazione di generazione di lingue universali di chatgpt, accedere al motore di ricerca di Google per ottimizzare l'esperienza di ricerca e accedere all'ecosistema dei prodotti di Google Office
Bardo
Fornire interazione
Generare contenuti
Di solito contenuto di testo scritto che è fattuale, funzionale o divertente
Articoli di blog, notizie, e -mail, romanzi, codici
Generare un contratto di formato fisso, ecc.
Può aiutare nella creazione di contenuti letterari e riassumere vari contenuti.
AIGC - generazione di lingue
definizione
La generazione di lingue si riferisce al modello di probabilità semantica appreso dalle reti neurali in grado di generare lingue in base ai requisiti delle attività e le lingue generate includono linguaggio naturale, linguaggio di programmazione e linguaggio logico, ecc.
I tipi principali e le aree di applicazione della generazione di lingue
Tipo di dati
natura
Applicazioni tipiche
Generare un linguaggio comune
Avere molte conoscenze di dominio comune e può completare diversi tipi di attività di generazione di lingue in base ai requisiti
Griglia voxel, nuvola di punti e mesh
Generazione di lingue verticali
Oltre ad avere una certa conoscenza del dominio comune, c'è anche conoscenza del dominio professionale.
Scrittura e analisi del rapporto finanziario, ecc.
Fase chiave dello sviluppo tecnologico nella generazione di lingue
Funzionalità chiave per la commercializzazione delle applicazioni di generazione di lingue
Scenari tipici di applicazione industriale per la generazione di lingue
Rischio di commercializzazione della generazione di lingue
A causa della natura di base della semantica, tutti i tipi di applicazioni possono essere disaccoppiati e decostruiti a livello semantico.
Nel processo di generazione di applicazioni utilizzando le lingue, poiché molti prodotti e servizi si basano su servizi cloud pubblici o richiedono il caricamento di informazioni sul server del fornitore, può verificarsi il rischio di perdite di informazioni.
La generazione di disinformazione e informazioni dannose può avere un impatto enorme sulla reputazione del marchio e sull'immagine del prodotto e quindi diventa un rischio enorme per la commercializzazione delle applicazioni di generazione di lingue.
Sfide di innovazione tecnologica
Scenario Sfida di implementazione dell'applicazione
Copyright Challenge
Al momento, molti scenari di applicazione che hanno l'opportunità di essere commercializzati da una generazione tridimensionale di intelligenza artificiale, come la produzione cinematografica, il concept design del prodotto, la produzione di risorse tridimensionali del gioco, ecc., Sono ancora accettati dagli utenti nelle applicazioni reali. Il motivo per cui la generazione tridimensionale è ancora utilizzata in questo tipo di scenario dell'applicazione è che è necessario garantire l'unità del contenuto dell'immagine di diverse prospettive, quindi le generazioni tridimensionali hanno ancora il suo valore di applicazione unico in questi scenari.
Al momento, molte applicazioni di generazione tridimensionale di intelligenza artificiale richiedono ancora una grande quantità di dati di testo e dati di immagini bidimensionali come base per i modelli di addestramento. Se questi dati provengono da risorse protetti da copyright, l'utilizzo di questi dati per la commercializzazione è soggetto a problemi di copyright.
03
02
01
Gli scenari di applicazione della generazione tridimensionale possono essere approssimativamente divisi in scenari per professionisti e scenari per i consumatori ordinari. Gli scenari per i professionisti richiedono la capacità dell'intelligenza artificiale di soddisfare i requisiti di applicazione a livello di linea industriale, come la generazione di alta qualità e l'alta controllabilità. Tuttavia, gli scenari di applicazione per i consumatori ordinari hanno requisiti relativamente bassi per la qualità di generazione e la controllabilità della generazione tridimensionale di intelligenza artificiale, ma le applicazioni per i consumatori ordinari hanno generalmente requisiti elevati per l'efficienza di generazione.
Sfide per la commercializzazione della generazione 3D
Realtà virtuale
Formazione educativa
Usa la tecnologia della generazione 3D per creare mondi e personaggi virtuali realistici per migliorare il realismo e l'immersione della realtà virtuale.
Insegnanti e studenti usano la tecnologia di generazione tridimensionale per comprendere e apprendere meglio conoscenze scientifiche e tecniche complesse e migliorare l'efficacia dell'insegnamento e l'efficienza dell'apprendimento.
Produzione di film e animazione
Design artistico
Usa la tecnologia della generazione 3D per creare scene e personaggi 3D realistici e ottenere effetti visivi complessi per migliorare la qualità e la visualizzazione di film e animazioni.
Usa la tecnologia di generazione tridimensionale per creare opere d'arte digitali, sculture digitali e altre opere creative per migliorare l'efficienza e l'espressività della creazione.
Design architettonico
Assistenza sanitaria
Usa la tecnologia di generazione 3D per creare modelli architettonici e rendering visivi più velocemente, migliorando l'efficienza e l'accuratezza del design.
Utilizzare la tecnologia di generazione tridimensionale per creare modelli di organi umani realistici e dispositivi medici per l'uso in settori come l'educazione medica, la simulazione chirurgica e la diagnosi delle malattie.
Produzione industriale
Utilizzare la tecnologia di generazione 3D per creare parti e stampi più velocemente, migliorando l'efficienza e l'accuratezza della produzione e riducendo i costi di produzione.
Usa la tecnologia di generazione 3D per creare rapidamente scene 3D realistiche e personaggi virtuali per migliorare il realismo e l'immersione del gioco.
Sviluppo del gioco
Scenari tipici di applicazione industriale per la generazione tridimensionale
Controllabilità
Rafforzare la comprensione delle istruzioni Il lavoro di modellazione è separato dal lavoro di rendering ed è richiesta l'espressione della griglia
Efficienza di generazione
Grandi calcoli e velocità di generazione lenta La generazione di formazione richiede requisiti hardware elevati
Model finezza e precisione Risoluzione della risoluzione, precisione Precisione dell'espressione materiale
Generare qualità
Fattori chiave che influenzano le capacità dell'applicazione dei modelli
Modello Magic3D
Principio di attuazione: Innanzitutto, viene utilizzato un modello 3D a griglia hash semplice a bassa risoluzione e di rendering per generare un semplice rendering a bassa risoluzione del modello 3D della griglia hash e quindi un rendering di qualità superiore del modello 3D viene utilizzato per utilizzare un metodo simile alla tradizionale grafica informatica. Pro e contro: Vantaggi: il modello tridimensionale generato dai modelli Magic3D ha una risoluzione più elevata, un migliore effetto di rendering e un'efficienza di generazione significativamente migliorata. Svantaggi: il modello Magic3D ha una forte domanda di risorse di elaborazione, tempo di allenamento del modello lungo, grande impatto sulla descrizione del testo e forte dipendenza dalla conoscenza specifica del dominio.
Modello DreamFusion
Principio di attuazione: Si basa principalmente sulla tecnologia del modello di diffusione nell'apprendimento profondo e combina i concetti dei campi di radiazione neurale (NERF) e del modello di diffusione dell'immagine di testo. Pro e contro: Vantaggi: può generare modelli 3D realistici di alta qualità e realistici da descrizioni di testo e supporta la generazione e l'ottimizzazione a più angoli, migliorando la coerenza e la realtà delle scene 3D. Svantaggi: ha un'alta dipendenza dalle risorse hardware e la capacità di generalizzazione del modello deve essere migliorata.
Modello di clip-serf
Principio di attuazione: Il modello di clip (pre-allenamento del linguaggio contrastante) viene introdotto nella modifica di NERF (campi di radianza neurale) per implementare la modifica NERF guidata dal testo o l'immagine. Pro e contro: Vantaggi: il modello Clip-Serf presta maggiore attenzione alla regolazione del modello tridimensionale generato e agli effetti di rendering tridimensionale in linguaggio naturale o diagrammi bidimensionali. Svantaggi: in termini di effetto di generazione e valore commerciale, il modello Clip-Serf ha gli stessi problemi del modello di campo da sogno.
Principio di attuazione: Utilizzando la capacità di Clip di generare da immagini al testo a immagini bidimensionali, combinata con la capacità di Nerf di apprendere strutture tridimensionali e rendering di texture da immagini bidimensionali, possiamo ottenere la generazione dal linguaggio naturale al tridimensionale. Pro e contro: Vantaggi: il modello dei campi da sogno dimostra che il modello di clip può essere applicato in combinazione con il modello NERF e rompe i limiti di immaginazione dei precedenti modelli generativi tridimensionali. Svantaggi: la struttura del contenuto tridimensionale generato dal modello dei campi da sogno è ancora relativamente semplice e l'effetto di rendering tridimensionale è scarso, quindi non è possibile generare scene tridimensionali su larga scala. Inoltre, l'efficienza di generazione del modello dei campi da sogno è molto bassa e ha una scarsa connessione con il tradizionale lavoro di generazione tridimensionale, quindi non ha un valore commerciale.
Modello dei campi da sogno
● Modelli tradizionali:
Principi di attuazione del modello tradizionale e vantaggi e svantaggi
Periodo di esplorazione dell'applicazione della dimensione bidimensionale Data da 2022 a
● La generazione bidimensionale si sviluppa rapidamente ● Il percorso di aggiornamento della dimensione bidimensionale è chiaro ● GAN ha ancora applicazioni
Il periodo di sviluppo della tecnologia di aggiornamento della dimensione bidimensionale 2020-2022
● Proponi un campo di radiazioni neurali ● Accelera la ricerca di aggiornamento dimensionale ● GAN diventa il mainstream del tridimensionale
Periodo di germinazione dimensionale bidimensionale 2018-2020
● Proponi espressione tridimensionale del campo nervoso ● La ricerca di aggiornamento dimensionale si sta sviluppando lentamente ● Esistono molte ricerche tridimensionali native
Lo stadio chiave dello sviluppo tecnologico nella generazione tridimensionale
Applicazioni tipiche
Griglia voxel, nuvola di punti e mesh
Ricostruzione e rendering della scena tridimensionale
natura
Esprimere la forma, la struttura e la posizione degli oggetti tridimensionali in una forma intuitiva
Una scena tridimensionale espressa nei parametri della rete neurale, vale a dire un campo neurale
Dati di espressione impliciti
Dati di espressione dominante
Tipo di dati
I tipi principali e le aree di applicazione della generazione 3D
La generazione tridimensionale (intelligenza artificiale) si riferisce all'uso di reti neurali profonde per apprendere e generare modelli tridimensionali di oggetti o scene e sulla base del modello tridimensionale, dando colori e luce a oggetti o scene rende il risultato della generazione più realistico. Nelle applicazioni, la generazione di un modello tridimensionale di un oggetto o di una scena è chiamata modellazione tridimensionale e il colore, la luce e l'ombra di un modello tridimensionale sono chiamati rendering tridimensionale.
definizione
AIGC - Generazione 3D