멀티 모달 대형 모델 기술 시스템

사전 훈련 데이터 수집, 기본 모델 구성, 자체 감독 학습 및 모델 최적화 교육 및 다운 스트림 작업을 미세 조정하는 것을 포함한 멀티 모드 너무 모듈 모델의 주요 기술을 설명하십시오.

2025-01-05 13:43:37에 편집됨

Riley_

최근 작업 더 많은 작업 보기>>

곤충학
이것은 곤충학에 대한 마인드 맵으로, 곤충의 생태와 형태, 생식 및 발달, 곤충과 인간의 관계를 연구하는 과학입니다. 그것의 연구 대상은 곤충으로, 가장 다양하고 가장 많은 수의 동물이며 생물학적 세계에서 가장 널리 분포되어 있습니다.
자녀의 내부 동기 부여를 개발하는 방법 기업가를위한 실용 가이드
이것은 어린이의 내부 동기를 육성하는 방법에 대한 마인드 맵입니다. 기업가를위한 실용적인 가이드, 주요 내용 : 요약, 7. 정서적 연결에주의를 기울이고, 과도한 스트레스를 피하십시오.
자동화 된 프로젝트 관리 템플릿
이것은 자동화 프로젝트 관리 템플릿, 주요 내용에 대한 마인드 맵입니다. 메모, 시나리오 예제, 템플릿 사용 지침, 프로젝트 설정 검토 단계 (What-Why-How), 디자인 검토 단계 (What-Why-How), 수요 분석 단계 (What-Why-How)에 대한 마인드 맵입니다.

멀티 모달 대형 모델 기술 시스템

Riley_

최근 작업 더 많은 작업 보기>>

추천 사항
개요

DeepSeek 및 Chatgpt 기술 경로 비교
- 18
Riley_
Deepseek 큰 모델 소개
- 22
Riley_
Deepseek 30 수유 수준 지침
- 56
21_ethanSawyer
R1과 V3의 심층적 인 핵심 차이
- 9
21_ethanSawyer
큰 모델 분류 및 계층 적 마인드 맵
- 13
21_ethanSawyer

멀티 모달 큰 모델 기술 시스템

사전 훈련 데이터 수집

데이터 소스

공개 데이터 세트 (예 : Wikipedia, 신문 백과 사전, 온라인 포럼, 소셜 플랫폼 등).

엔터프라이즈 내부 데이터 세트 (예 : 내부 로그, 문서, 데이터베이스).

자체 수집 데이터 세트 (네트워크 크롤러, API 인터페이스 등을 통해).

데이터 청소

중복 제거 (중복 샘플 제거), 비노 이징 (무의미한 데이터 필터링), 통합 형식 (광고, 철자 오류 등과 같은 의미없는 데이터 필터링), 데이터 수리 (철자 오류와 같은 데이터의 오류 수정 등). .

데이터 주석

레이블 유형에는 텍스트 라벨링 (예 : 이름 지정 엔터티 인식, 감정 분석 등) 및 이미지 라벨링 (예 : 객체 제한 상자, 이미지 분류 레이블 등)이 포함됩니다. 라벨 품질은 중요하며 일반적으로 자동화 된 도구로 표시되며, 수동 검토 및 수정을 통해 레이블의 일관성을 보장합니다.

미리 훈련 된 모델의 적용

미리 훈련 된 모델은 대규모 텍스트 코퍼스를 교육하여 공통 언어 모델을 학습합니다. 이러한 모델은 특정 요구에 맞게 다른 작업에서 미세 조정할 수 있습니다.

네트워크 구조 설계

이미지와 텍스트를 처리합니다

변압기 또는 CNN은 일반적으로 비전과 언어 사이의 복잡한 관계를 포착하는 데 사용됩니다.

이벤트 흐름

맥박 신경망이 더 적합하고 정보의 타이밍 역학을 효과적으로 시뮬레이션 할 수 있습니다.

언어 모델을 핵심으로 사용합니다

Deepmind Flamingo Visual Language Model, Kosmos-1은 변압기를 Visual Perception Module 및 Chatbridge와 연결합니다.

자기 감독 학습 최적화

마스크 언어 모델링 (MCM) : 입력 시퀀스의 일부 단어 또는 마커는 특수 마스크 마커로 대체됩니다. 그런 다음 가시성 다중 모드 컨텍스트를 기반으로 이러한 마스크 된 단어 또는 마커를 예측하기 위해서는 사방 모델이 필요합니다.

마스크 이미지 모델링 (MIM) : 입력 이미지의 일부 영역은 숨겨져 있거나 특수 마스크 마크로 교체되며, 미리 훈련 된 모델은 나머지 이미지 컨텐츠 및 텍스트와 같은 다른 모달 정보 만 볼 수 있습니다. 가려진 이미지 영역을 예측하거나 복원하십시오.

ITM (Image-Text Match) : 이미지 및 텍스트의 글로벌 정렬을 구현합니다. 일반적으로 주어진 그림과 텍스트 쌍은 양의 샘플로 사용 된 다음 음의 샘플로 페어링 한 다음 이미지와 텍스트의 일치가 이진 분류 방법을 통해 달성되어 이미지와 이미지와 사이의 의미 론적 관계를 설정합니다. 텍스트.

ITC (Image-Text Comparison Learning) : 대비 학습을 사용하여 동일한 샘플 이미지와 텍스트의 벡터 표현을 더 밀접하게 벡터 표현하고 더 멀리 다른 샘플 쌍을 푸시하여 이미지와 텍스트 사이의 의미 론적 상관 관계를 향상시킵니다.

다운 스트림 작업 미세 조정 적응

작업 별 모델 미세 조정 적응 : 멀티 모달 대형 모델의 가중치는 초기 매개 변수로 사용되며 감독 된 미세 조정은 작업 별 데이터에서 수행됩니다. 이 미세 조정을 통해이 모델은 특정 작업에 대한 세밀한 기능과 표현을 학습하여 특정 작업의 요구 사항에 적응합니다.

공동 프롬프트 학습을위한 모델의 미세 조정 : 상류 사전 훈련 작업에 맞는 템플릿을 설계하고 업스트림 사전 훈련 모델의 잠재력을 누르고 업스트림 사전 훈련 모델이 다운 스트림 작업을 더 잘 완료하도록 허용합니다. 데이터를 레이블을 지정합니다. 프롬프트 학습을 통해 다양한 유형의 작업에서 미리 훈련 된 모델을 재사용 할 수 있으며, 프롬프트 템플릿을 수정하고 교육 시간을 절약하고 리소스를 계산하여 특정 작업에 적응할 수 있습니다.

어댑터 네트워크 기반 모델 미세 조정 적응 : 각 작업에는 고유 한 독립 어댑터 계층이 있으므로 모델이 다른 작업간에 공통 미리 훈련 된 모델의 표현을 공유하면서 각 작업에 대해 개인화 된 조정을 수행 할 수 있습니다. 어댑터 층은 일반적으로 더 적은 매개 변수로 구성되므로 모델 전체에서 미세 조정보다 더 효율적입니다. 훈련하는 동안, 사전에 걸린 모델의 매개 변수는 고정되어 있으며 어댑터 레이어의 매개 변수 만 업데이트됩니다.