로그인
로그인

마인드 맵 갤러리 [AIGC] AIGC 애플리케이션 맵 6개

[AIGC] AIGC 애플리케이션 맵 6개

인공지능 기술이 지속적으로 혁신과 반복을 이루면서 생성적 AI(Generative AI)에 대한 주제가 여러 차례 화제가 되었고, 인공지능 콘텐츠 생성(AIGC)에 대한 산업 발전, 시장 대응 및 해당 규제 요구 사항도 폭넓은 관심을 받았습니다. 컨텐츠 생성 모드를 관점으로 삼아 Edraw는 이미지 생성, 오디오 생성, 비디오 생성, 3D 생성, 언어 생성, 분자 발견 및 회로 설계(그래프 생성) 분야에서 AIGC의 기술 개발, 핵심 기능 및 일반적인 응용 시나리오를 다룹니다. 또한 우리나라 AIGC 산업이 상용화 과정에서 직면한 과제와 미래 전망을 소개한다.

2025-02-10 15:40:35에 편집됨

WSR38pNH

최근 작업 더 많은 작업 보기>>

[AIGC] AIGC 애플리케이션 맵 6개

WSR38pNH

최근 작업 더 많은 작업 보기>>

추천 사항
개요

딥러닝 이론 지식
- 42
슈퍼직장인
이미지 분할 알고리즘
- 22
슈퍼직장인
기계 학습을 위한 기본 회귀 알고리즘
- 14
슈퍼직장인
신경망의 동작과정에 대한 자세한 설명
- 16
슈퍼직장인
CNN(컨벌루션 신경망)
- 17
슈퍼직장인
신경망 및 딥러닝 순환 신경망
- 17
슈퍼직장인
신경망과 딥러닝 컨볼루셔널 신경망
- 16
슈퍼직장인
신경망과 딥러닝의 기초
- 19
슈퍼직장인
관심이 필요한 전부입니다
- 8
슈퍼직장인
AIGC 시장 분석
- 12
WSUJfrxa

코그비디오

구현 원칙: CogVideo는 자동 회귀 방식을 기반으로 한 대규모 텍스트-비디오 생성 모델입니다. 효율적인 학습을 위해 텍스트-비디오 생성에 이미지 생성 모델 CogView2를 적용하고, 재귀적으로 이전 프레임을 예측하고 연속적으로 접합하여 비디오를 생성합니다. 장점과 단점: 장점: 이 모델은 중국어 프롬프트를 지원합니다. 다중 프레임 속도 계층적 훈련 방법은 텍스트-비디오 관계를 더 잘 이해할 수 있으며 생성된 비디오가 더 자연스럽게 보입니다. 단점: 입력 시퀀스의 길이에 제한이 있습니다.

제품 유용성 문제

영상 제작 속도, 편의성, 인터랙티브 체험 콘텐츠와 인터랙티티의 통합

안정적이고 제어 가능한 과제

기간 제어, 콘텐츠 제어, 제한된 데이터의 활용 및 교육, 생성된 결과 및 프로세스 조정

자료의 저작권, 개인정보보호, 윤리

규정 준수 애플리케이션 문제

비디오 스타일 전송

● 영화 및 TV 작품의 예술적 표현 ● 광고 스타일 전환

● 영화 및 TV/광고 효과 최적화 ● 오래된 영화 및 소중한 이미지 데이터 복원 ● 보안 모니터링 및 의료영상 품질 개선

비디오 향상

● 가상 장면, 캐릭터, 특수 효과 생성 ● 영화 예고편 생성 ● 동영상 광고 생성 ● 역동적인 인체 구조 및 질병 모델 생성

비디오 생성

● 영화 및 TV 후반 작업 편집 및 특수 효과 처리 ● 짧은 영상 자료 편집 및 특수효과 추가

비디오 편집

● 보안 모니터링 및 조기경보, 지능형 트래픽 관리 ● 마케팅 콘텐츠 태그 생성 및 감성 분석 ● 영화 및 TV 분석

비디오 콘텐츠 인식

● 프레임 간 전환 효과 ● 행동의 연속성 ● 영상의 부드러움 ● 부드러운 장면 전환

통일

● 고해상도 ● 장면과 캐릭터의 사실성 ● 선명하고 풍부한 사진 디테일 ● 동영상 콘텐츠의 논리

●비디오 길이는 가변적이고 제어 가능합니다. ● 특정 설명과의 관련성 ● 동영상 속성과 동영상 요소는 제어 및 수정이 가능합니다.

제어 가능성

충실도

주류 모델 구현 원리, 장점 및 단점

● 주류 모델:

Imagen-비디오

겐

구현 원칙: Imagen-Video는 Imagen 모델을 기반으로 개발된 텍스트 조건을 기반으로 한 비디오 생성 모델입니다. 다중 확산 모델의 조합을 통해 모델은 먼저 텍스트 프롬프트를 기반으로 초기 비디오를 생성한 다음 점차적으로 비디오의 해상도와 프레임 수를 늘려 비디오를 생성합니다. 장점과 단점: 장점: 생성된 비디오는 높은 충실도, 제어 가능성 및 세계 지식을 갖추고 있으며 다양한 예술적 스타일의 다양한 비디오 및 텍스트 애니메이션 생성을 지원하며 3D 객체를 이해하는 능력이 있습니다. 단점: 캐스케이드 모델이 채택한 병렬 훈련 방법에는 높은 컴퓨팅 리소스가 필요합니다.

구현 원칙: Gen 모델은 잠재 확산 모델을 통해 텍스트-이미지 특징을 학습하고, 주어진 텍스트 힌트 또는 참조 이미지를 기반으로 새로운 비디오를 생성하거나 원본 비디오 기반 이미지를 기반으로 비디오 스타일 변환을 수행할 수 있습니다. 장점과 단점: 장점: 이 모델은 비디오 렌더링 및 스타일 변환 성능이 뛰어나고 생성된 비디오는 예술성과 이미지 구조를 유지하는 강력한 능력을 갖고 있으므로 모델 사용자 정의 요구 사항에 더 잘 적응할 수 있습니다. 단점: Gen 모델은 생성된 결과의 안정성 측면에서 여전히 한계가 있습니다.

● 국내외 대표모델 :

오픈소스인가요?

소속기관

소개

모델

오픈 소스가 아님

Google

확산 모델을 기반으로 한 텍스트-비디오 생성 모델은 생성 속도, 우수한 비디오 품질, 다양한 예술적 스타일 및 3D 개체를 이해하는 능력 등의 장점을 가지고 있습니다.

이미지 비디오

비디오 만들기

메타

오픈 소스가 아님

텍스트-비디오 데이터가 필요하지 않으며, 텍스트-이미지 데이터 트레이닝을 사용하여 비디오 생성을 달성하므로 생성된 비디오의 시간적, 공간적 해상도가 향상됩니다.

누와-XL

마이크로소프트 리서치 아시아

이미 GitHub에 오픈 소스가 있습니다.

더 나은 비디오 품질과 연속성을 갖춘 Diffusion over Diffusion 아키텍처를 기반으로 하는 초장기 비디오 생성 모델로 추론 시간을 크게 줄일 수 있습니다.

코그비디오

칭화대 & 치위안

이미 HuggingFace에서 오픈소스로 제공됨

대규모 텍스트-비디오 사전 훈련 모델, 다중 프레임 속도 계층적 훈련 전략은 텍스트와 비디오를 더 잘 정렬할 수 있으며, 대규모 훈련 데이터는 생성된 비디오의 품질을 크게 향상시킬 수 있습니다.

자기회귀적 확산모델 단계

GAN/VAE 흐름 기반 세대 단계

이미지 스티칭 세대 단계

비디오 생성하다

● 전경 및 배경 분리, 모션 및 콘텐츠 분리 기능 포함 생성 효과를 향상시키기 위해 솔루션 및 이미지 번역과 같은 방법을 사용할 수 있습니다. ● 동영상 품질이 여전히 낮습니다.

● 자동회귀 모델: 프레임 예측 생성, 일관성은 좋지만 효율성이 낮고 오류가 쉽게 축적됨 ● 확산 모델: Vincentian 그래프 아키텍처를 비디오 생성으로 마이그레이션합니다. 이는 충실도는 높지만 리소스를 많이 소모합니다.

● 비디오 스트림을 형성하기 위한 정적 이미지 접합 ● 간단하고 사용하기 쉽지만 동영상 품질이 낮고 일관성이 낮습니다.

영화 및 TV 게임 장면 제작, 광고 및 홍보, 디지털 인력

시각적 후처리

영화 및 TV 편집, 비디오 얼굴 변경

일반적인 응용 분야

트랜스포머-TTS

구현 원칙: Transformer-TTS는 Transformer 구조를 결합하여 TTS 시스템에 적용한 End-to-End 음성 생성 모델입니다. 구체적으로 Transformer-TTS는 인코더-디코더 구조를 구성하기 위해 다중 헤드 어텐션 메커니즘을 도입하고, 음소 시퀀스를 입력으로 사용하여 멜 스펙트럼을 생성하고, WaveNet 보코더를 통해 파형을 출력함으로써 훈련 효율성을 향상시킵니다. 장점과 단점: 장점: Transformer 구조의 음성 모델은 훈련 속도를 높일 수 있으며 Tacotron2의 낮은 훈련 속도 문제와 긴 의존성 모델 설정의 어려움을 해결합니다. Transformer는 의미론과 관계에 대한 이해를 바탕으로 사운드 합성 효과를 더욱 자연스럽게 만들어줍니다. 단점: 자기회귀 오류의 누적으로 인해 추론이 느려지고 모델 편향이 발생하는 문제가 있습니다.

● 국내외 대표모델 :

타코트론2

구현 원칙: Tacotron2는 WaveNet과 Tacotron의 결합을 기반으로 사운드 스펙트럼 예측 네트워크와 보코더로 구성된 엔드 투 엔드 음성 합성 모델입니다. 그 중 시퀀스-투-시퀀스 예측 네트워크는 텍스트 특징을 추출하여 모델에 입력하고, 예측된 값을 Mel 스펙트럼에 중첩하고, 보코더는 예측된 시퀀스를 기반으로 시간 영역 파형을 생성합니다. 장점과 단점: 장점: 주의 메커니즘 개선을 통해 기울기 소멸 문제가 최적화되고 음성 생성의 음질이 향상되며 텍스트 데이터 입력에 대한 견고성이 향상됩니다. 단점: RNN 구조를 사용한 자기회귀 모델의 합성 속도가 느리고, 복잡한 단어의 발음이 어렵고, 생성된 음성에 감성적인 색상이 부족하고, 대규모 데이터 세트에 대한 훈련 시간과 비용이 높으며, 모델 제어성이 부족합니다.

● 주류 모델:

맞춤형 수요 과제

다중 모드 융합 과제

데이터 격차 문제

맞춤형 음성 합성, 전문적인 상호 작용 기능, 맞춤형 음성 엔지니어링 기능

인지, 인지, 합성 기술은 애플리케이션 제품 제어 가능성과 일반화 기능을 통합합니다.

저자원 음성 합성 훈련, 텍스트 강화, 합성 데이터 구축, 사용자 데이터 컴플라이언스 침전

음성변환 스타일 전송 신청: 영화, TV, 애니메이션, 게임 및 기타 분야: 다양한 캐릭터 음성 설정 개인정보 보안과 관련된 시나리오: 소리의 개인정보 처리 합성 데이터 응용: 훈련 데이터의 규모를 늘리기 위한 합성 데이터 형성

음성 향상, 음성 복구 음성 신호에 대한 잡음 감소, 필터링, 이득 등 처리 수행 응용 시나리오: 전화 녹음, 화상 회의, 공공 환경에서의 음성 상호 작용 서비스, 음성 인식 기능 및 생성 품질 향상 역사적 오디오 데이터의 적용: 역사적 오디오 데이터의 복원, 고대 언어 발음의 추측 및 합성 역사연구 가치 : 역사연구에 있어 중요한 활용가치가 있음

음악 세대 오디오 클립이나 단서의 텍스트 설명을 기반으로 의미상, 스타일적으로 일관되고 일관성 있는 음악을 생성할 수 있습니다. 음악 및 영화 및 TV 분야: 노래 편곡, 음악 스타일 개선, 배경 음악 및 환경 사운드 생성 등

음성 상호작용 인간-컴퓨터 대화 시나리오 응용 프로그램: 모든 유형의 인간-컴퓨터 대화에 널리 사용됩니다. 엔터프라이즈 서비스, 금융 및 기타 산업: 지능형 고객 서비스 로봇이 고객과 음성 Q&A를 수행하여 인건비 절감 가전제품, 자동차 및 기타 산업: 스마트 홈, 스마트 차량 시나리오, 음성 지원 완전한 사용자 지침 뉴스 미디어 및 기타 산업: 국제 회의, 전시회 및 기타 활동에서 동시 통역 작업

음성 합성 범 엔터테인먼트 분야 애플리케이션: 뉴스 방송 및 오디오 판독과 같은 장음 제작 시나리오 운송 및 산업 제조 애플리케이션: 음성 내비게이션, 교통 명령 산업 자동화 제어 언어 간 합성 애플리케이션: 음성 번역, 언어 학습 의료 현장 적용: 인공 후두 및 기타 의료용 웨어러블 장치

음성 인식 입력 오디오의 특징을 추출하고 해당 텍스트나 명령으로 변환하여 사람의 음성 내레이션이나 다양한 오디오 콘텐츠의 텍스트 변환을 달성합니다. C-side 시나리오 적용 : 스마트폰 음성입력 방식, 받아쓰기 메모 산업 적용 시나리오: 파일 검색, 전자 의료 기록 입력, 영화 및 TV 자막 제작

오디오 생성하다

● 음성 속도, 리듬 및 리듬 제어 ● 다양한 언어 배경의 텍스트 및 음성 이해 능력 ● 감정음소의 특성을 파악한다.

제어 능력

음성 품질

● 높은 정확도 ● 간섭 방지 능력

생성하다 속도

● 개인사용자 : 발전속도가 실시간 수요에 대응할 수 있는지 여부 ● 비즈니스 사용자: 생성 속도가 비즈니스 프로세스에 미치는 영향

● 현재 주류 오디오 합성 방식 ● 언어 지식 훈련의 어려움을 줄입니다. ● 소리는 자연스럽고 실제 사람의 소리에 가깝습니다.

● 필요한 원음 데이터는 크기가 작고 유창성이 좋습니다. ● 소음이 많음 ● 음성에 기계적인 느낌이 있습니다.

● 실제 녹음을 바탕으로 더 나은 음질을 제공합니다. ● 음성 데이터베이스 데이터 양에 따라 다름 ● 단어 간의 전환이 다소 무뚝뚝합니다.

엔드투엔드 합성 단계

매개변수 합성 단계

접합 합성 단계

멜로디, 음악 생성

시각적 콘텐츠를 기반으로 (이미지 또는 비디오) 음성 설명 만들기

텍스트 음성 변환 텍스트에서 음성 합성

규정 준수 개인 정보 보호 저작권 보호 AI 거버넌스

제품화 능력 신속한 이해 미세 조정 도구 사용

데이터 기능 데이터 자산의 폐쇄 루프 관리

이미지 초해상도 의료 케이스 및 해부학적 제작 천문관측, 위성 원격탐사 및 측정

이미지 복구 디지털 역사문서 복원, 이미지 복구 오래된 사진, 오래된 영화 복구

이미지 생성, 이미지 스타일 변환 예술작품 창작, 이미지 편집, 이미지 예술성 향상, 애니메이션 캐릭터, 게임 장면 제작 포스터, 제품 로고 및 포장 디자인

이미지 분류, 이미지 분할 대상인식, 영상검색 산업디자인 해부학적, 병리학적 구조 변화에 대한 의료 영상 주석 및 분석

이미지 제어성 이미지 디테일 제어 후속 조정

이미지 다양성 세밀한 표현과 스타일 표현 여러 스타일 이미지 또는 서로 다른 스타일 이미지의 의미적 일관성

이미지 안정화 왜곡, 왜곡, 이상이 있는 데이터를 설명합니다. 간섭 방지 능력

이미지 품질 이미지 품질과 자세한 정보의 풍부함 이미지가 얼마나 사실적인지

소개

잠재 확산 모델 프레임워크를 기반으로 컴퓨팅 성능 요구 사항과 배포 임계값을 줄일 수 있으며 특히 이미지 생성 작업에 사용됩니다. 이제 이는 대부분의 이미지 생성 모델의 기본 프레임워크가 되었습니다.

CLIP의 Vincentian 그래프 모델과 확산 모델 프레임워크를 기반으로 생성된 이미지는 우수한 의미적 일관성을 유지할 수 있습니다.

확산 모델 프레임워크 기반의 다중 모드 발전 모델과 최적의 발전 네트워크를 자동으로 선택하는 하이브리드 전문가 모델을 제안합니다.

확산 모델을 기반으로 미세 조정된 이미지 생성 모델, Discord에 배포됨, 예술적인 스타일의 이미지 표현에 능숙함

오픈소스인가요?

GitHub오픈 소스

오픈 소스가 아님

기구

안정성Al

오픈알

바이두

중간 여정

모델

안정적인 확산

DALL-E2

미드저니 V5

원신 ERNIE-VILG2.0

● 국내외 대표모델 :

CLIP: 대조 언어 이미지 사전 훈련

구현 원칙: 대조 학습 기반 텍스트-이미지 교차 모달 사전 학습 모델의 학습 원리는 인코더를 통해 텍스트와 이미지 각각에서 특징을 추출하고, 텍스트와 이미지를 동일한 표현 공간에 매핑한 후, 텍스트-이미지 쌍의 유사성 및 차이 계산을 통해 모델을 학습시켜, 주어진 텍스트를 기반으로 설명과 일치하는 이미지를 생성하는 것입니다. 장점과 단점: 장점: 데이터에 미리 주석을 달 필요가 없고, 제로샷 이미지 텍스트 분류 작업을 잘 수행하고, 텍스트 설명과 이미지 스타일을 더 정확하게 파악하고, 정확도를 변경하지 않고 이미지의 불필요한 세부 사항을 변경하고, 이미지 다양성 생성에서 더 나은 성능을 발휘합니다. 단점: 복잡하고 추상적인 장면의 성능에는 한계가 있고 훈련 효과는 대규모 텍스트-이미지 쌍 데이터 세트에 의존하며 훈련 리소스 소비가 상대적으로 큽니다.

구현 원칙: 확산 단계의 마르코프 체인을 정의하고 순수한 가우스 노이즈 데이터가 얻어질 때까지 데이터에 무작위 노이즈를 지속적으로 추가한 후 역확산 과정을 학습하여 역 노이즈 제거 추론을 통해 이미지를 생성합니다. 확산 모델은 데이터의 분포를 체계적으로 교란한 다음 데이터 분포를 복원하여 전체 프로세스가 점진적인 최적화 특성을 나타내어 모델의 안정성과 제어 가능성을 보장합니다. 장점과 단점: 장점: 실제 데이터를 보다 정확하게 복원하고, 이미지 세부 정보를 유지하는 강력한 능력, 더 나은 이미지 사실성을 제공합니다. 특히 이미지 완성 및 복구, 분자 지도 생성 등과 같은 응용 분야에서 좋은 결과를 얻을 수 있습니다. 단점: 계산 단계가 복잡하고 샘플링 속도가 느리며 데이터 유형의 일반화 능력이 약합니다.

확산 모델 확산 모델

● 주류 모델:

확산모델 생성단계

● 현재 주류 이미지 생성 모델 ● 확산 프로세스를 통해 안정성, 정확성, 다양성이 크게 향상됩니다. CLIP과 결합하여 크로스모달 이미지 생성 작업에 적용 가능 ● 생성된 이미지의 속도와 품질이 크게 향상됩니다.

자기회귀 생성 단계

● Transformer 구조를 기반으로 한 Self-attention 메커니즘은 안정성과 합리성을 향상시킵니다. ● 추론 속도 및 훈련 비용 문제로 적용 제한

● 이전 세대 이미지 생성 모델 ● 적대적 훈련을 통한 생성 및 변별 능력 향상 ● 낮은 안정성, 다양성 부족, 모델 붕괴

GAN 생성 단계

트루 컬러 이미지 생성

RGB 이미지

각 픽셀의 색상 값은 RGB 3원색의 조합으로 표현되며 이미지 매트릭스에 직접 저장됩니다.

분자 다이어그램과 같은 비교적 간단한 색상 구성으로 이미지 생성

영상을 저장하는 2차원 행렬과 컬러 인덱스 행렬 MAP으로 구성됩니다.

색인 지도

이미지 생성

이미지 대 이미지 기존 이미지에서 새 이미지 생성

이미지 구성 이미지 합성

텍스트를 이미지로 텍스트 설명을 기반으로 의미론적 이미지 생성

AIGC - 오디오 생성

AIGC - 비디오 생성

AIGC - 이미지 생성

정의

오디오 생성이란 입력 데이터를 기반으로 해당 사운드 파형을 합성하는 프로세스를 말합니다. 주로 텍스트 기반 음성 합성(Text-to-Speech), 서로 다른 언어 간 음성 변환 수행, 시각적 콘텐츠(이미지 또는 비디오) 기반 음성 설명 수행, 멜로디, 음악 생성 등이 포함됩니다.

비디오 생성이란 텍스트, 이미지, 비디오 등 주어진 단일 모드 또는 다중 모드 데이터를 기반으로 설명적이고 충실도가 높은 비디오 콘텐츠를 자동으로 생성할 수 있도록 인공 지능을 훈련시키는 것을 의미합니다.

이미지 생성은 인공 지능 기술을 사용하여 주어진 데이터를 기반으로 단일 모드 또는 교차 모드 이미지를 생성하는 프로세스를 의미합니다. 작업 목표 및 입력 양식에 따라 이미지 생성에는 주로 이미지 합성(이미지 합성), 기존 이미지를 기반으로 새로운 이미지 생성(Image-to-Image), 텍스트 설명을 기반으로 의미론적으로 호환되는 이미지 생성(Text-to-Image) 등이 포함됩니다.

오디오 생성의 주요 유형 및 응용 분야

영상 생성의 주요 유형 및 적용 분야

영상합성의 주요 종류 및 적용분야

일반적인 응용 분야

자연

데이터 유형

자연

데이터 유형

이미지 유형

자연

일반적인 응용 분야

정보방송, 인간-컴퓨터 상호작용 서비스

텍스트 정보 특징 추출 및 음성 정보 합성

문자 메시지

여러 비디오를 잘라내고 결합하고 편집하여 비디오 속성 편집, 세그먼트 편집, 비디오 부분 편집 등을 포함하여 새로운 비디오를 생성합니다.

클립 생성

바이너리 그래프

이미지의 2차원 행렬은 0(검은색)과 1(흰색)로만 구성되어 있으며 이는 회색조 이미지의 이진화로 볼 수 있습니다.

텍스트 추출, 이미지 특징 추출

음성 편집, 음성 번역, 음악 제작

주어진 음성 클립을 기반으로 편집하거나 한 언어를 다른 언어의 음성 정보로 변환합니다.

오디오 정보

기존 영상에 필터, 빛과 그림자, 불꽃놀이 등 다양한 효과를 추가하여 영상의 창의성과 예술적 효과를 향상시킵니다.

특수 효과 생성

회색조 이미지

2차원 행렬 요소의 값 범위는 일반적으로 0(순수한 검정색)부터 255(순백색)까지이며, 가운데 숫자는 검정색과 흰색 사이의 전환 색상을 나타냅니다.

의료 영상 및 원격 감지 영상 생성

의료용 웨어러블

후두, 얼굴 등 근육의 움직임을 인지하고 음성을 합성합니다.

근육 진동

콘텐츠 생성

주어진 텍스트, 이미지 및 기타 정보를 기반으로 해당 비디오 콘텐츠를 생성합니다.

이미지, 동영상 등의 시각적 콘텐츠를 인식하고 이해하며, 입 모양에 맞는 음성정보를 생성합니다.

디지털 맨

시각적 콘텐츠

이미지 합성 기술 개발의 주요 단계

오디오 생성 기술 개발의 주요 단계

비디오 생성 기술 개발의 주요 단계

주류 모델 구현 원리, 장점 및 단점

영상생성 상용화의 과제

모델 적용 기능에 영향을 미치는 주요 요소

이미지 생성의 일반적인 산업 응용 시나리오

오디오 생성 주류 애플리케이션

모델

소개

소속기관

오픈소스인가요?

타코트론2

첫째, 다중 음성 시스템 솔루션을 위한 인프라로 엔드투엔드 음성 합성 모델이 제안됩니다.

Google

이미 GitHub에 오픈 소스가 있습니다.

자동 음성 인식 모델은 대규모의 다양한 데이터 세트를 통해 음성 인식 기능을 향상시키고 음성 전사, 음성 번역 등을 지원합니다.

이미 GitHub에 오픈 소스가 있습니다.

오픈알

속삭임

음성 합성 모델 훈련 데이터 세트를 확장하여 다자 음성 합성 효과를 향상시킬 수 있는 완전 컨볼루셔널 시퀀스-투-시퀀스 음성 합성 모델

오픈 소스가 아님

바이두

딥보이스3

산업용 등급 중국어 음성 사전 훈련 모델은 다중 모드 음성 인식, 감정 인식, 성문 인식 및 기타 작업을 지원합니다.

오픈 소스가 아님

아이플라이텍

스마트-TTS

모델 적용 기능에 영향을 미치는 주요 요소

오디오 생성 상용화의 과제

오디오 생성을 위한 일반적인 산업 응용 시나리오

비디오 생성을 위한 일반적인 산업 응용 시나리오

영상생성 상용화의 과제

칩 설계

식량과 농업

에너지

재료과학

개인 관리

인공지능 기술은 빠르게 발전하고, 새로운 기술이 기존 기술을 대체할 수 있어 기존 기술의 상용화 가치에 영향을 미칠 수 있습니다.

기술개발대회

● 약물 연구 및 개발에는 엄격한 승인이 필요합니다. ● 집적회로 설계 저작권 문제 ● 분자발견 모델은 불법 약물 및 위험물 개발에 사용될 수 있습니다.

법 그리고 안전

개발 및 검증비용

약물 디자인

적용 가능성

품질 구축

열쇠 요인

분자 발견 및 집적 회로 설계 모델은 특정 설계 목적에 적합해야 합니다. 또한 집적 회로 설계 모델은 업계의 설계 목적에 따라 재교육하고, 아키텍처를 수정하고, 매개변수를 수동으로 조정하고, 원리를 계획 및 발견하여 업계 요구 사항에 적응해야 합니다.

분자 발견 및 집적 회로 설계 모델의 경우 생성 품질은 응용 기능을 결정하는 핵심 요소입니다.

배선

직업 유형

업무 목표

대표모델

기본 알고리즘 및 모델

드림플레이스

신경망 매개변수 최적화

기계 학습 레이아웃 최적화

그래프 신경망

PL-GNN

그래프 신경망

강화 학습

완전히 연결된 컨벌루션 네트워크

컨벌루션 신경망

다층 퍼셉트론

... ...

컨벌루션 신경망

변형 자동 인코더

몬테카를로 트리 검색

CF2용 RL

딥플레이스

인공지능 레이아웃 의사결정

RDP3용 CNN

RDP4용 FCN

라우팅 레이아웃 결정 고려

RDPE용 ML

DLRoute

인공지능 케이블링 최적화

... ...

DeepPR

CR6용 VAE

CR5용 MCTS

인공 지능 라우팅 결정

공들여 나열한 것

완벽한 레이아웃 및 라우팅 설계

배선 레이아웃

분자 발견 및 회로 설계 응용 시나리오

조합 최적화 방법

깊이 생성 방법

마르코프 체인 몬테카를로

함수초

2차원

화성

2차원

confGF

입체적인

확산 모델

입체적인

EVF

1차원

오르간

2차원

1차원

2차원

입체적인

MoIDQNMOIDON

강화 학습

GB-GA

술취한

유전자 알고리즘

보케이

보아

베이지안 최적화

디팩터

1차원

생성적 적대 신경망

2차원

오르간

그래프NVP

2차원

표준화된 흐름

2차원

모플로우

SG-VAE

1차원

변형 자동 인코더

2차원

CGVAE

SF-RNN

1차원

2차원

분자RNN

자기회귀 모델

표현을 생성하다

대표모델

사용된 알고리즘 및 모델

생성 방법

원칙

직업 유형

표준 셀, 매크로 모듈, 로직 게이트 등을 포함한 일련의 집적 회로 구성 요소와 이러한 구성 요소의 너비 및 높이와 같은 특성 정보가 주어지면, 또한 이들 구성요소의 핀 위치와 구성요소 간의 연결관계 정보도 제공해야 한다. 위의 정보를 바탕으로 구성요소가 서로 겹치지 않도록 구성요소의 물리적인 위치를 지정합니다.

공들여 나열한 것

배선

레이아웃이 완성되면 컴포넌트의 핀 위치가 결정되고, 컴포넌트 간의 연결 관계도 결정됩니다. In the wiring area reserved during layout, 부품 간의 연결 관계와 최소 총 배선 길이, 부품 간의 타이밍 관계 등 요구 사항에 따라 부품 간의 연결 회로는 배선 규칙을 위반하지 않도록 설계됩니다.

일반적으로 사실적이거나 기능적이거나 재미있는 텍스트 콘텐츠로 작성되었습니다.

3D 표현

AIGC - 분자 발견 및 회로 설계

정의

분자 발견 및 회로 설계는 기계 학습, 심층 신경망 및 기타 기술을 사용하여 분자 및 집적 회로의 구조, 규칙 및 속성을 학습하고 유사한 구조를 갖고 특정 규칙을 준수하며 목표 속성을 갖는 분자 및 집적 회로를 생성하는 것을 의미합니다.

분자발견 및 회로설계의 주요 종류 및 응용분야

표현

원칙

1차원 표현

분자를 문자열로 표현하고, 분자의 원자와 구조를 문자를 이용하여 표현합니다.

2차원 표현

분자를 그래프 데이터로 표현하고, 원자와 결합은 각각 그래프 데이터의 점과 모서리로 표현됩니다.

분자 발견의 주류 모델

회로 설계의 주류 모델

모델 적용 기능에 영향을 미치는 주요 요소

분자발견과 회로설계 상용화의 위험성

● 개발에는 많은 데이터와 인력 비용이 필요합니다. ● 검증 과정은 불확실성이 크고 주기도 길어야 합니다.

03 기술 및 애플리케이션 대체 위험

02 정보 보안 위험

01 오류 메시지 유해정보

전자상거래 산업

뉴스 및 미디어

교육산업

● 제품 설명 생성 ● 제품 리뷰 분석 ● 제품 추천 생성 ● 분석 보고서 생성

● 뉴스 보고서 생성 ● 콘텐츠 만들기 ● 호스트 방송 생성 ● 광고 문구 생성

● 수업 계획 생성 ● 수업 계획 생성 ● 숙제 교정 지원 ● 학습지도 제공

제품 개발

● IT 제품 개발 지원 ● 테스트 사례 생성 ● 제품 매뉴얼 생성 ● 작업 단계 생성

고객 서비스 산업

● 솔루션 생성 ● 지능형 고객 서비스 솔루션 ● 고객 의도 이해 ● 대규모 고객을 위한 독점적인 고객 서비스

마케팅

● 견적 생성 ● 판매 계획 생성 ● 시장 데이터 분석 ● 판매 데이터 분석

의료산업

● 의료 계획 작성 시 의사 지원 ● 의사의 의료 기록 작성 지원 ● 환자가 의료 자원을 매칭하도록 돕습니다. ● 환자에게 진단 및 치료 지도 제공

● 다수의 재무 보고서 분석 ● 주요 정보 요약 생성 ● 투자 전략 조언 제공 ● 데이터 분석 보고서 생성

금융 산업

맞춤화 역량과 혁신 역량

고객의 차별화된 요구 충족 혁신으로 시장변화에 대응하다

제품 운영 및 고객 지원

사용자 끈적임 증가 및 마이그레이션 비용 증가 사용자 전환 및 유지 달성

마케팅 능력

효과적인 비용 희석 보장된 이익 마진

모델 지식 영역 확장 애플리케이션의 문제점과 애플리케이션 요구사항을 발견하세요.

품질 구축

퉁이 첸웬

원신이옌

논의하다

알리바바 클라우드

바이두 스마트 클라우드

샹탕

중국

벤치마크 ChatGPT의 중국어 범용 언어 생성 애플리케이션, Baidu 검색 엔진, Baidu 라이브러리, Xiaodu 지능형 보조자 및 기타 애플리케이션에 액세스하고 많은 기업 및 기관과 협력하여 언어 생성 애플리케이션 시나리오를 탐색합니다.

예

아니요

ChatGPT를 벤치마킹하고 기업 맞춤형 모델을 지원하는 중국어 범용 언어 생성 애플리케이션

ChatGPT의 중국어 범용 언어 생성 애플리케이션과 비교하여 의료 시나리오 및 프로그래밍 시나리오를 위한 수직 언어 생성 애플리케이션이 출시됩니다.

클로드

ChatGPT의 범용 언어 생성 애플리케이션을 벤치마킹하여 언어 생성 지원 및 보안을 최적화하고 기업 수준의 언어 생성 보안 애플리케이션 서비스를 제공합니다.

인류학

해외

예

공개 출시

예

시장

해외

소속기관

오픈알

Google

2022년~현재: 신청 가속화 기간 ● 생성된 언어 품질은 인간 수준과 동일합니다. ● 업계 기업들은 다양한 산업과 분야에서 언어 생성의 적용 시나리오와 방법을 적극적으로 모색하고 있습니다.

Ⅵ

Ⅴ

에프

이자형

Ⅴ

2020-2021: 애플리케이션 탐색 기간 ● 언어 생성 기능은 기본 애플리케이션 요구사항을 충족합니다. ● 산업체는 처음에 낮은 패턴의 언어 생성 작업에 대한 응용 시나리오를 탐색하고 있습니다.

2018-2019: 모델 탐색 기간 ● 언어 생성 모델 패러다임이 명확합니다. ● 로우 패턴 언어 생성 애플리케이션을 위한 기술 기반 마련

디

Ⅲ

기음

Ⅱ

비

Ⅰ

2017년 : 기술개발기 ● Transformer 아키텍처를 제안하고 기술 기반을 구축했습니다. ● 여전히 고도로 패턴화된 언어 생성 작업만 완료할 수 있습니다.

2017년 이전 ● 언어 생산 능력이 약함 ● 애플리케이션은 고도로 패턴화된 언어 생성 작업만 완료할 수 있습니다.

급속한 발전 기간

시장 개시 기간

탐사 기간

에이

언어 생성 주류 애플리케이션

소개

애플리케이션 이름

텍스트 생성, 텍스트 요약, 텍스트 수정, 자연어 상호 작용 및 코드 생성과 같은 다중 언어 생성 작업에서 최적의 결과를 달성한 벤치마크 범용 언어 생성 애플리케이션입니다. 많은 주요 기업 및 기관과 협력하여 언어 생성 응용 시나리오를 탐색했습니다.

채팅GPT

ChatGPT를 벤치마킹한 범용 언어 생성 애플리케이션으로 Google 검색 엔진에 연결되어 검색 환경을 최적화하고 Google 사무용품 생태계에 통합되었습니다.

음유 시인

상호작용 제공

콘텐츠 생성

일반적으로 사실적이거나 기능적이거나 재미있는 텍스트 콘텐츠로 작성되었습니다.

블로그 게시물, 뉴스, 이메일, 소설, 코드

고정형 계약서 등 생성

문학 콘텐츠 창작에 도움을 줄 수 있으며, 다양한 유형의 콘텐츠를 요약, 요약할 수 있습니다.

AIGC - 언어 생성

정의

언어 생성은 작업 요구 사항에 따라 언어를 생성할 수 있는 신경망이 학습한 의미론적 확률 모델을 나타냅니다. 생성되는 언어에는 자연어, 프로그래밍 언어, 논리 언어 등이 포함됩니다.

언어 생성의 주요 유형 및 응용 분야

데이터 유형

자연

일반적인 응용 분야

범용 언어 생성

풍부한 일반 도메인 지식을 보유하고 있으며 요구 사항에 따라 다양한 유형의 언어 생성 작업을 완료할 수 있습니다.

복셀 그리드, 포인트 클라우드 및 메시

수직 언어 생성

특정한 일반적인 도메인 지식을 보유하는 것 외에도 전문적인 도메인 지식도 보유하고 있습니다. 일반적으로 애플리케이션 모델 디자인은 전문 도메인 애플리케이션의 요구 사항에 더 부합합니다.

금융업의 재무보고서 작성 및 분석 등

언어 생성 기술 개발의 주요 단계

언어생성어플리케이션 상용화를 위한 핵심역량

언어 생성의 일반적인 산업 응용 시나리오

언어 생성 상용화 위험

의미론의 기본 특성으로 인해 다양한 애플리케이션이 의미론적 수준에서 분리되고 해체될 수 있습니다. 따라서 많은 언어 생성 응용 프로그램은 기술 발전 및 응용 프로그램 설계 반복으로 인해 상업적 경쟁력을 유지하기 어렵기 때문에 빠르게 교체되거나 교체될 수 있습니다.

언어를 사용하여 애플리케이션을 생성하는 과정에서 많은 제품과 서비스가 퍼블릭 클라우드 서비스를 기반으로 하거나 공급자의 서버에 정보를 업로드해야 하기 때문에 정보 유출의 위험이 있을 수 있습니다.

잘못된 정보와 유해한 정보를 생성하는 것은 브랜드 평판과 제품 이미지에 큰 영향을 미칠 수 있으므로 언어 생성 애플리케이션의 상용화에 큰 위험을 의미합니다.

기술 혁신 과제

시나리오 애플리케이션 구현 과제

저작권 문제

현재 영화 제작, 제품 컨셉 디자인, 게임 3D 자산 제작 등 인공지능 3D 생성이 상용화될 수 있는 많은 응용 시나리오가 있습니다. 실제 응용 프로그램에서 사용자는 여전히 2D 이미지를 수용합니다. 이러한 응용 시나리오에서 3D 생성이 여전히 사용되는 이유는 다양한 시야각에서 사진 콘텐츠의 통일성을 보장해야 하기 때문입니다. 따라서 3D 생성은 이러한 시나리오에서 여전히 고유한 응용 가치를 갖고 있습니다.

3D 생성의 적용 시나리오는 크게 전문가를 위한 시나리오와 일반 소비자를 위한 시나리오로 나눌 수 있다. 전문가를 위한 시나리오에는 고품질 생성 및 높은 수준의 제어 가능성과 같은 산업 생산 라인 수준 애플리케이션 요구 사항을 충족하기 위해 인공 지능의 3D 생성 기능이 필요합니다. 일반 소비자를 위한 애플리케이션 시나리오는 인공지능 3D 생성의 생성 품질 및 제어 가능성에 대한 요구 사항이 상대적으로 낮지만, 일반 소비자를 위한 애플리케이션은 일반적으로 발전 효율성에 대한 요구 사항이 더 높습니다.

3D 생성 상용화의 과제

가상 현실

교육 및 훈련

3D 생성 기술을 활용해 실감나는 가상 세계와 캐릭터를 만들어 가상 현실의 현실감과 몰입감을 향상시킵니다.

교사와 학생은 3D 생성 기술을 사용하여 복잡한 과학 및 기술 지식을 더 잘 이해하고 학습하며 교육 효과와 학습 효율성을 향상시킵니다.

영화 및 애니메이션 제작

예술 디자인

3D 생성 기술을 사용하여 사실적인 3D 장면과 캐릭터를 만들고 복잡한 시각 효과를 구현하여 영화와 애니메이션의 품질과 즐거움을 향상시킵니다.

3D 생성 기술을 사용하여 디지털 아트워크, 디지털 조각 및 기타 창작 작품을 제작하여 창작의 효율성과 표현력을 향상시킵니다.

건축 디자인

건강 관리

3D 생성 기술을 사용하여 건축 모델과 시각화 렌더링을 더 빠르게 생성하여 설계 효율성과 정확성을 향상시킵니다.

3D 생성 기술을 사용하여 의학 교육, 수술 시뮬레이션, 질병 진단 등의 분야에서 사용할 수 있는 현실적인 인간 장기 모델과 의료 장비를 만듭니다.

산업 제조업

3D 생성 기술을 사용하여 부품과 금형을 더 빠르게 생성하고, 생산 효율성과 정확성을 향상시키며, 제조 비용을 절감하세요.

3D 생성 기술을 사용하여 사실적인 3D 장면과 가상 캐릭터를 빠르게 생성하여 게임의 현실감과 몰입감을 향상시킵니다.

게임 개발

일반적인 산업 응용 시나리오의 3D 생성

제어 가능성

명령이해능력 강화 모델링 작업과 렌더링 작업이 분리되어 있으며 메쉬 표현이 필요합니다.

발전 효율

계산량이 많고 생성 속도가 느림 훈련 생성에는 하드웨어 요구 사항이 높습니다.

모델 정밀도 및 정확성 렌더링 해상도, 정확도 소재 표현 정확도

품질 구축

모델 적용 기능에 영향을 미치는 주요 요소

매직 3D 모델

구현 원칙: 먼저 DreamFusion과 유사한 확산 모델을 사용하여 저해상도의 간단하게 렌더링된 해시 그리드 3D 모델을 생성한 다음 기존 컴퓨터 그래픽과 유사한 방법을 사용하여 더 높은 품질의 3D 모델을 렌더링합니다. 장점과 단점: 장점: Magic3D 모델로 생성된 3D 모델은 해상도가 더 높고 렌더링 효과가 더 좋으며 생성 효율성이 크게 향상됩니다. 단점: Magic3D 모델은 컴퓨팅 리소스 요구 사항이 높고 모델 교육 시간이 길며 생성된 결과는 텍스트 설명에 크게 영향을 받으며 특정 분야의 지식에 크게 의존합니다.

드림퓨전 모델

구현 원칙: 주로 딥러닝의 확산 모델 기술을 기반으로 하며 NeRF(Neural Radiance Fields) 개념과 텍스트-이미지 확산 모델을 결합합니다. 장점과 단점: 장점: 텍스트 설명을 통해 고품질의 사실적인 3D 모델을 생성할 수 있으며 다중 각도 생성 및 최적화를 지원하여 3D 장면의 일관성과 사실성을 향상시킵니다. 단점: 하드웨어 자원에 대한 의존도가 높고 모델의 일반화 능력을 향상시켜야 합니다.

CLIP-NeRF 모델

구현 원칙: 텍스트 또는 이미지 기반 NeRF 수정을 달성하기 위해 NeRF(Neural Radiance Fields) 편집에 CLIP(Contrastive Language-Image Pre-training) 모델을 도입합니다. 장점과 단점: 장점: CLIP-NeRF 모델은 생성된 3D 모델을 조정하고 자연어 또는 2D 도식 다이어그램을 사용하여 3D 렌더링 효과를 조정하는 데 더 중점을 둡니다. 단점: 발전효과 및 상품성 측면에서 CLIP-NeRF 모델은 Dream Field 모델과 동일한 문제점을 가지고 있습니다.

구현 원칙: 텍스트에서 2차원 이미지로 텍스트를 생성하는 CLIP의 기능과 2차원 이미지에서 3차원 구조 및 텍스처 렌더링을 학습하는 NeRF의 기능을 결합하여 자연어에서 3차원 이미지로의 생성을 달성합니다. 장점과 단점: 장점: Dream Fields 모델은 CLIP 모델이 NeRF 모델과 결합될 수 있음을 입증하고 이전 3차원 생성 모델의 상상력 한계를 뛰어넘습니다. 단점: Dream Fields 모델로 생성된 3D 콘텐츠의 구조는 여전히 상대적으로 단순하며, 3D 렌더링 효과가 좋지 않아 대규모 3D 장면을 생성할 수 없습니다. 또한, 드림필드 모델은 생성효율이 매우 낮고, 기존의 3D 생성작업과의 연계성도 낮아 상품성이 없다.

드림 필드 모델

● 주류 모델:

주류 모델 구현 원리, 장점 및 단점

2차원성 업그레이드 응용 탐색 기간 2022년~현재

● 2D세대의 급속한 발전 ● 2차원 차원 업그레이드 경로가 명확하다 ● GAN에는 여전히 애플리케이션이 있습니다.

2차원 차원 고도화 기술 개발기간 2020-2022

● 제안된 신경방사선 분야 ● 차원 업그레이드 연구 가속화 ●GAN이 3D의 주류가 되다

2차원 입체성 향상의 싹트는 단계 2018-2020

●신경장의 입체적 표현 제안 ● 차원 연구의 발전이 더디다 ● 네이티브 3D에 대한 많은 연구가 있습니다.

3D 생성 기술 개발의 주요 단계

일반적인 응용 분야

복셀 그리드, 포인트 클라우드 및 메시

3D 장면 재구성 및 렌더링

자연

3차원 물체의 모양, 구조, 위치 등의 정보를 직관적인 형태로 표현합니다.

신경망 매개변수, 즉 신경장(Neural Field)으로 표현된 3차원 장면

암시적 표현식 데이터

명시적 표현 데이터

데이터 유형

3D 생성의 주요 유형 및 적용 분야

3차원 생성(인공지능)은 심층신경망을 이용해 사물이나 장면의 3차원 모델을 학습하고 생성하는 것을 말하며, 3차원 모델을 바탕으로 사물이나 장면에 색, 빛, 그림자를 부여해 생성 결과를 더욱 현실감 있게 만들어준다. 응용 프로그램에서는 물체나 장면의 3차원 모델을 생성하는 것을 3차원 모델링이라고 하며, 3차원 모델의 색상, 빛, 그림자를 생성하는 것을 3차원 렌더링이라고 합니다.

정의

AIGC - 3D 생성