마인드 맵 갤러리 AI 대형 모델 최초 소개 및 개발 기회 마인드맵
AI 대형모델에 대한 기본적 이해를 확립하고, 기초기술의 핵심핵심과 시대적 기회를 이해한다. 그것이 모두에게 도움이 되기를 바랍니다.
2023-12-02 22:21:21에 편집됨AI 대형 모델 최초 소개 및 개발 기회
1. AI 대형모델이란?
AI 대형 모델은 "Artificial Intelligence Pre-training Large Model"의 약어로, "사전 훈련"과 "대형 모델"이라는 두 가지 의미를 포함하며, 이 둘이 결합되어 새로운 인공지능 모델, 즉 모델은 대규모 데이터 세트에 대해 학습됩니다. 사전 학습이 완료된 후에는 미세 조정이 필요하지 않거나, 적은 양의 데이터로 미세 조정만 하면 되며 다양한 응용을 직접 지원할 수 있습니다.
그 중 대형 모델을 사전 훈련시키는 것은 마치 대학생이나 심지어는 기본 지식을 모두 알고 '일반 교육'을 이수한 박사 과정 학생과도 같습니다. 하지만 작업을 더 잘 완료하려면 피드백 후 연습과 미세 조정이 여전히 필요합니다.
또한, 대형 AI 모델은 범용, 대규모 복제 등 장점이 많아 AGI(Artificial General Intelligence)를 구현하는 중요한 방향이다.
현재 대형 AI 모델에는 자연어 처리(NLP), 컴퓨터 비전(CV) 등은 물론 통합 및 통합 다중 모드 대형 모델이 포함됩니다. 예를 들어, ChatGPT는 자연어 처리 분야의 획기적인 혁신입니다. 이는 "인간 언어"를 이해하고 말합니다. 기존 자연어 처리 모델을 능가하며 기계 번역, 질문 응답, 텍스트 생성 등 다양한 자연어 처리 작업을 처리할 수 있습니다.
간단히 말해서, 대규모 모델은 컴퓨터가 입력 데이터를 더 잘 이해하고 처리하는 데 도움이 될 수 있는 많은 양의 정보와 지식을 저장하는 매우 큰 지식 기반으로 생각할 수 있습니다. 대규모 모델의 각 뉴런과 매개변수는 함께 입력 데이터를 효율적으로 처리하고 변환할 수 있는 강력한 네트워크를 형성합니다.
현재 바이두(Baidu), 알리바바(Alibaba), 텐센트(Tencent), 화웨이(Huawei) 등 국내 기업들은 대형 AI 모델을 개발했다.
Baidu는 수년 동안 AI를 배포해 왔으며 대형 모델에서 확실한 선점자 이점을 가지고 있습니다. 현재 Wen Xin Yi Yan의 API 호출 서비스 테스트를 신청한 기업 수는 65,000개를 넘어섰습니다. 대규모 산업 모델의 경우 State Grid, Shanghai Pudong Development Bank, Geely, TCL, People's Daily Online, Shanghai Dictionary Publishing House 등의 사례에 적용되었습니다.
Alibaba Tongyi의 대형 모델은 논리적 운영, 코딩 기능 및 음성 처리에 능숙합니다. 이 그룹은 여행 시나리오, 사무실 시나리오, 쇼핑 시나리오 및 생활 시나리오에서 널리 사용되는 풍부한 생태계와 제품 라인을 보유하고 있습니다.
Tencent의 Hunyuan 대규모 모델은 광고 및 게임 제작에 사용되었습니다. 이 그룹은 현재 대화형 지능형 비서를 연구하고 있으며 사용 후 QQ 및 WeChat 생태계를 최적화할 것으로 예상됩니다.
화웨이는 B측과 긴밀히 협력하고 있으며 향후 애플리케이션은 주로 ToB가 될 것으로 예상된다. 또한 화웨이는 알고리즘과 컴퓨팅 능력에 있어서 풍부한 보유량을 보유하고 있습니다. 예: "Pengcheng Cloud Brain II"는 5회 연속 글로벌 IO500 순위를 획득했으며 강력한 AI 컴퓨팅 능력과 데이터 처리 능력을 갖추고 있습니다. Huawei Cloud ModelArts 플랫폼은 대용량 데이터를 효율적으로 처리할 수 있는 능력을 갖추고 있으며 40TB의 텍스트 데이터 처리를 완료합니다. 7일 Pangu 데이터 모델은 이르면 2021년 4월에 공식 출시되었습니다. 현재 Pangu 대형 모델 학습 텍스트 데이터는 최대 40TB(GPT-3은 45TB)입니다.
2. AI 대형 모델의 핵심 기술 포인트
대규모 모델은 일반적으로 수억에서 수십억 개의 매개변수로 구성되며 더 높은 예측 정확도와 일반화 기능을 달성하려면 방대한 양의 데이터에 대해 교육하고 최적화해야 합니다. 업계 관계자들은 대형 모델은 “빅데이터, 빅 컴퓨팅 파워, 강력한 알고리즘”이 결합된 산물이라고 흔히 말한다. 산업 발전의 핵심도 이 세 가지에 있습니다.
빅 데이터
데이터는 알고리즘 훈련의 자양분입니다. 초기 단계에서는 모델의 이해 능력을 형성하기 위해 많은 양의 데이터가 모델에 공급되어야 하며, 중간 단계와 이후 단계에서 공급되는 데이터의 품질이 모델의 정확성을 결정합니다. .
GPT 모델을 예로 들면, ChatGPT가 더 나은 성능을 발휘하는 이유 중 하나는 비지도 학습을 기반으로 고품질의 실제 데이터를 제공한다는 것입니다.
하지만 머신러닝 데이터에는 사전에 수동으로 라벨링을 해야 하는데, 라벨링은 기본 데이터를 처리해 기계가 인식할 수 있는 정보로 변환하는 작업이므로, 많은 양의 학습과 최대한 많은 시나리오를 거쳐야 좋은 모델을 얻을 수 있습니다.
현재 대부분의 훈련 데이터 소스는 공개 데이터입니다. 예를 들어 Alan D. Thompson 박사(전 Mensa International 회장, 인공 지능 전문가 및 컨설턴트)의 기사에 따르면 나열된 대형 모델에 대한 데이터 세트에는 Wikipedia, 서적, 저널, Reddit 링크, Common Crawl 및 기타 데이터 세트 등.
한편으로는 데이터의 양이 많은 반면, 데이터의 풍부함과 신뢰성 또한 대규모 모델을 훈련하는 데 중요합니다. 학습의 중간 및 후반 단계에서는 고품질 데이터가 모델의 정확도를 향상시킵니다. 예를 들어:
사실적인 데이터가 많을수록 모델 정확도가 향상됩니다.
중국어가 더욱 유창해지면 모델의 중국어 이해 능력이 향상됩니다.
보다 정확한 수직 데이터를 사용하면 좀 더 세분화된 영역에서 모델 구축을 완료할 수 있습니다.
또한 고품질 피드백 데이터는 모델 성능을 향상시킬 수 있습니다. 예를 들어, ChatGPT는 인간 강화 학습 RLHF를 사용하여 보다 전문적인 질문, 지침, 인간 피드백 정렬 등을 통해 인간 언어 논리에 대한 모델의 이해를 향상합니다.
국내 대규모 모델의 경우 여전히 노력이 필요한 두 가지 과제가 있습니다. 국내 인터넷 코퍼스의 품질이 상대적으로 낮고 고품질의 중국어 주석 라벨이 주로 수동으로 주석을 달고 특정 주석 기술 세부 사항 및 교육이 부족합니다. 의 주석자는 여전히 국내 기술 사업 탐색이 필요합니다.
큰 컴퓨팅 성능
데이터는 집의 기초를 제공합니다. 얼마나 높이 지을 수 있는지는 컴퓨팅 성능에 따라 다릅니다. 컴퓨팅 파워는 컴퓨터 시스템의 컴퓨팅 파워, 즉 데이터를 처리하고 컴퓨팅 작업을 수행하는 능력입니다.
AI 분야에서 심층 신경망은 특히 대규모 모델과 복잡한 작업을 지원하기 위해 더 많은 컴퓨팅 성능이 필요한 경우 많은 계산과 훈련이 필요합니다.
GPT 대형 모델을 예로 들면, GPT, GPT-2, GPT-3(현재 공개 버전은 GPT-3.5)의 매개변수 수가 1억 1,700만 개에서 1,750억 개로 증가함에 따라 사전 훈련 데이터의 양이 증가합니다. 그에 따라 전력 수요도 5GB에서 45TB로 증가합니다.
따라서 컴퓨팅 성능이 향상되면 모델의 훈련 속도와 효율성이 향상될 뿐만 아니라 모델의 정확도와 성능도 향상될 수 있습니다.
선도적인 제조업체가 훈련 및 추론의 컴퓨팅 성능 요구 사항을 지원할 수 있는지 여부를 측정하려면 돈이 충분한지, 얼마나 오래 지속될지, 회사의 전략이 얼마나 오래 지속되는지라는 두 가지 사항을 더 고려해야 합니다.
ChatGPT를 재현하기 위해서는 장기적인 투자 전략과 충분한 자본 예산이 필수 요소입니다.
바이두를 예로 들면, 2017년 'All IN AI'가 제안된 이후 자본 지출은 변동을 겪었습니다. 지난해 자본 지출(iQiyi 제외)은 같은 기간 동안 30% 증가한 261억 7천만 위안을 기록했습니다. 2022년말 기준 회사의 자본지출에 사용된 현금 및 현금성자산 잔액은 531억6천만위안으로 장기간에 걸쳐 충분한 자금이다.
또한 컴퓨팅 성능 인프라는 실제로 칩입니다. 칩 성능이 좋을수록 대형 모델의 처리 능력이 빨라집니다. 이것이 바로 계획을 지원하기 위해 돈과 전략이 필요한 이유입니다.
강력한 알고리즘
알고리즘은 특정 계산이나 작업을 수행하는 데 사용할 수 있는 문제 해결 단계 및 규칙의 집합입니다. 다양한 문제를 해결하기 위해 컴퓨터 프로그램을 설계하고 구현하는 데 종종 사용됩니다.
알고리즘의 품질은 프로그램의 효율성과 성능에 직접적인 영향을 미칩니다. 예를 들어, ChatGPT의 알고리즘 혁신은 특정 이론보다는 아이디어에 더 많이 있습니다. 이는 복제의 어려움 중 하나가 된 "재료"보다는 "레시피"의 혁신입니다.
알고리즘의 품질을 어떻게 판단하나요? 공간 복잡도, 시간 복잡도, 견고성이라는 세 가지 주요 사항이 있습니다.
시간은 알고리즘이 작업을 완료하는 데 걸리는 시간입니다.
공간은 작업을 완료하기 위해 알고리즘에 필요한 메모리 공간을 나타냅니다.
견고성은 비정상적인 데이터 및 노이즈에 대한 알고리즘의 허용치를 나타냅니다.
일반적으로 시간 복잡도와 공간 복잡도가 작을수록 알고리즘의 효율성이 높아집니다. 좋은 알고리즘은 견고성이 높아야 하고, 다양한 상황에서 작업을 올바르게 수행할 수 있어야 하며, 명확한 정보를 출력할 수 있어야 합니다.
실제 적용에서는 특정 요구 사항과 시나리오에 따라 가장 적합한 알고리즘을 선택할 수 있으며, 위의 요소를 고려하여 균형점을 찾을 수 있습니다.
예를 들어, GPT는 Transformer 모델을 기반으로 개발되었습니다. 전통적인 순환 신경망(RNN) 또는 컨볼루션 신경망(CNN)과 비교하여 Transformer는 긴 텍스트를 처리할 때 더 나은 병렬성과 더 짧은 시간을 제공하여 올바른 거래를 달성합니다. - 비용, 규모, 효율성 사이에서 벗어나 있습니다.
국내 대형 모델의 관점에서 볼 때, 인재의 흐름, 시간의 흐름, 연구의 진전에 따라 알고리즘, 데이터, 컴퓨팅 능력에 대한 장벽은 극복할 수 없는 것이 아닙니다. 대형 모델의 성능은 점차 수렴될 가능성이 높습니다.
산업 응용이 심화되고 현장 복잡성이 증가함에 따라 데이터의 폭발적인 증가, 알고리즘의 빠른 반복, 컴퓨팅 성능 소비의 기하급수적인 증가가 있을 것이며, 이 모두는 인공 지능 개발을 위한 새로운 요구 사항을 제시합니다. 지능.
3. AI 대형모델 시대의 기회
미래에는 "일반 지식, 프로세스 작업 능력 등의 숙달"이라는 전통적인 요구 사항이 점차 숨겨진 하위 요구 사항이 될 것이며, 보다 명확하고 높은 수준의 요구 사항은 "가치를 창출하고 도구를 효율적으로 사용하는 능력"입니다. 문제를 해결하다."
일반 사람들에게 대규모 AI 모델이 제공하는 기회는 크게 두 가지 범주로 나눌 수 있습니다. 하나는 단기 투자 기회이고 다른 하나는 장기적인 직업 기회입니다.
단기적으로는 Tencent Holdings, Alibaba, Baidu 등과 같이 대형 모델 분야의 기술 보유량을 보유한 회사가 더 많은 이점을 갖게 될 것입니다. 동시에 iFlytek, Danghong Technology, Jebsen Holdings, BlueFocus, Fengyuzhu, Zhejiang Internet 등과 같이 비디오, 마케팅, 읽기 및 기타 관련 하위 부문을 주도한 주요 대상에 주목할 수 있습니다.
장기적으로 Lu Qi가 연설에서 한 말을 빌리자면 "이 시대(대형 모델의 시대)는 골드 러시 시대와 매우 유사합니다. 당시 금을 캐러 캘리포니아로 갔다면 많은 사람들이 사람은 죽겠지만 숟가락이나 삽을 파는 사람은 언제나 돈을 벌 수 있다.”
인간의 기술이 주도하는 기업가 혁신은 크게 기본 기술, 요구 충족, 세상 변화라는 세 가지 유형의 기회로 나눌 수 있습니다.
첫째는 디지털 기술의 가장 낮은 수준이다. 디지털화는 인간의 확장이다. GPT를 포함해 현재 출시되는 모든 대형 AI는 기술을 기반으로 한다. Nvidia, Cambrian 등의 칩 회사도 기본 기술을 위한 하드웨어 시설을 제공합니다. 우리는 우리에게 적합한 기회를 찾거나 프런트엔드, 백엔드, 장비, 칩 등 이 직책에 대한 기술을 향상하기 위해 열심히 노력할 수 있습니다.
두 번째는 기술을 사용하여 요구 사항을 해결하는 것입니다. 수요는 두 가지 방향으로 나눌 수 있습니다. C에서는 AI가 모든 사람의 오락, 소비, 소셜 네트워킹, 콘텐츠 등을 해결하는 데 사용될 수 있고, B에서는 사람들이 더 나은 삶을 살 수 있도록 돕는 모든 요구가 충족되어야 합니다. 기업이 비용을 절감하고 성장 효과를 높이는 데 도움이 될 수 있습니다. 이 부분의 기회는 주로 사람들과 접촉하고, 사용자 요구 사항을 더 잘 이해하고, 더 나은 제품이나 경험을 제공하는 것입니다.
세 번째는 세상을 바꾸는 것입니다. 예를 들어 에너지 기술, 변형 에너지, 생명 과학, 새로운 공간 등이 있습니다. 예를 들어 머스크는 로봇, 뇌-컴퓨터 인터페이스 등, 심지어 메타버스와 웹 3까지 작업하고 있습니다.
Lu Qi는 연설에서 대형 모델에 대한 자신의 견해를 언급했습니다. 규모가 더 크고 모델 구조가 더 복잡할수록 응용 분야가 더 넓어지고 기회도 더 많아집니다. 그러나 신중하게 고려하고 먼저 생각한 다음 액션 지향을 사용해야 합니다.
일반 사람들의 기회는 대형 모델의 개발과 매우 유사합니다. 장기적인 개발은 기술에 의해 주도되어야 하지만 구현 중 요구 사항을 해체, 분석, 분류 및 제어하는 것이 전부입니다. 할 수 있는 일을 하고 나머지는 미래에 맡기세요!