Галерея диаграмм связей Первое знакомство с большими моделями ИИ и интеллект-картой возможностей развития
Получите базовое представление о крупных моделях ИИ и поймите суть базовых технологий и возможностей времени. Надеюсь, это поможет всем.
Отредактировано в 2023-12-02 22:21:21Первое знакомство с большими моделями ИИ и возможностями развития
1. Что такое большая модель ИИ?
Большая модель искусственного интеллекта — это аббревиатура от «большой модели предварительного обучения искусственного интеллекта», которая включает в себя два значения: «предварительное обучение» и «большая модель». Сочетание этих двух слов создает новую модель искусственного интеллекта, то есть модель искусственного интеллекта. модель обучается на крупномасштабных наборах данных. После завершения предварительного обучения нет необходимости в тонкой настройке или требуется только точная настройка с небольшим объемом данных, и она может напрямую поддерживать различные приложения.
Среди них предобучать большие модели может студент колледжа или даже докторант, владеющий всеми базовыми знаниями и получивший «общее образование». Но им все равно нужна практика и доработка после обратной связи, чтобы лучше выполнять задачи.
Кроме того, крупные модели ИИ имеют множество преимуществ, таких как универсальность и крупномасштабное тиражирование, и являются важным направлением реализации AGI (искусственного общего интеллекта).
Текущие крупные модели ИИ включают обработку естественного языка (NLP), компьютерное зрение (CV) и т. д., а также унифицированные и интегрированные мультимодальные большие модели. Например, ChatGPT — это прорывная инновация в области обработки естественного языка. Он понимает и говорит на «человеческом языке». Он превосходит предыдущие модели обработки естественного языка и может решать различные задачи обработки естественного языка, включая машинный перевод, ответы на вопросы, генерацию текста и т. д.
Проще говоря, мы можем думать о большой модели как об очень большой базе знаний, в которой хранится большое количество информации и знаний, которые могут помочь компьютеру лучше понять и обработать входные данные. Каждый нейрон и параметр большой модели вместе образуют мощную сеть, которая может эффективно обрабатывать и преобразовывать входные данные.
В настоящее время отечественные компании, такие как Baidu, Alibaba, Tencent и Huawei, разработали крупные модели искусственного интеллекта. Каждая серия моделей имеет свою собственную направленность, некоторые из них уже запущены, а некоторые реализованы.
Baidu уже много лет внедряет искусственный интеллект и имеет определенное преимущество первопроходца в области крупных моделей. В настоящее время количество компаний, подавших заявки на тестирование службы вызовов API Вэнь Синь И Яня, превысило 65 000. Что касается крупных отраслевых моделей, он применялся в случаях с State Grid, Shanghai Pudong Development Bank, Geely, TCL, People's Daily Online, Shanghai Dictionary Publishing House и т. д.
Крупная модель Alibaba Tongyi хороша в логических операциях, возможностях кодирования и обработки голоса. Группа имеет богатую экосистему и линейки продуктов, которые широко используются в сценариях путешествий, офисных сценариев, сценариев покупок и жизненных сценариев.
Крупномасштабная модель Hunyuan от Tencent была использована в рекламе и производстве игр. В настоящее время группа исследует диалоговых интеллектуальных помощников и, как ожидается, оптимизирует экологию QQ и WeChat после их внедрения.
Huawei тесно сотрудничает со стороной B, и ожидается, что будущие приложения будут в основном ToB. Кроме того, у Huawei есть большие резервы в алгоритмах и вычислительных мощностях. Например: «Pengcheng Cloud Brain II» пять раз подряд выигрывал глобальный рейтинг IO500 и обладает мощной вычислительной мощностью искусственного интеллекта и возможностями пропускной способности данных; платформа Huawei Cloud ModelArts способна эффективно обрабатывать большие объемы данных, выполняя обработку 40 ТБ текстовых данных. 7 дней; данные Pangu. Модель была официально выпущена еще в апреле 2021 года. Текущий объем текстовых данных для обучения большой модели Pangu составляет до 40 ТБ (GPT-3 — 45 ТБ).
2. Ключевые технические моменты крупных моделей ИИ
Большие модели обычно состоят из сотен миллионов и миллиардов параметров, и их необходимо обучать и оптимизировать на огромных объемах данных для достижения более высокой точности прогнозирования и возможностей обобщения. Представители отрасли часто говорят, что большие модели — это результат сочетания «больших данных, больших вычислительных мощностей и надежных алгоритмов». Ключ к развитию отрасли также лежит в этих трех пунктах.
Большие данные
Данные являются основой для обучения алгоритма. На раннем этапе в модель необходимо ввести большой объем данных, чтобы сформировать способность понимания модели. Качество данных, подаваемых на среднем и более поздних этапах, определяет точность модели. .
Если взять в качестве примера модель GPT, то одна из причин, по которой ChatGPT работает лучше, заключается в том, что он предоставляет высококачественные реальные данные на основе неконтролируемого обучения.
Однако данные машинного обучения необходимо заранее разметить вручную. Маркировка заключается в обработке первичных данных и преобразовании их в машинно-распознаваемую информацию. Только после большого объема обучения и охвата как можно большего количества сценариев можно получить хорошую модель.
В настоящее время большинство источников данных для обучения являются общедоступными. Например, согласно статье доктора Алана Д. Томпсона (бывшего председателя Mensa International, эксперта и консультанта по искусственному интеллекту), перечисленные наборы данных для крупных моделей включают Википедию, книги, журналы и ссылки Reddit, Common Crawl и другие наборы данных и т. д.
С одной стороны, существует большой объем данных. С другой стороны, богатство и достоверность данных также имеют решающее значение для обучения больших моделей. На среднем и более поздних этапах обучения высококачественные данные повысят точность модели. например:
Больше фактических данных повысит точность модели;
Более свободное владение китайским языком улучшит способность модели понимать китайский язык;
Более точные вертикальные данные могут завершить построение моделей в некоторых более разделенных областях.
Кроме того, высококачественные данные обратной связи могут улучшить производительность модели. Например, ChatGPT использует обучение с подкреплением человека RLHF, чтобы улучшить понимание моделью логики человеческого языка за счет более профессиональных вопросов, инструкций, сортировки отзывов людей и т. д.
Что касается отечественных крупномасштабных моделей, есть две проблемы, которые все еще требуют усилий: качество внутреннего интернет-корпуса относительно низкое, а высококачественные наборы данных для аннотаций на китайском языке недостаточны, метки в основном аннотируются вручную, а также конкретные технические детали аннотаций и обучение; аннотаторов по-прежнему требуют изучения отечественного технологического бизнеса.
Большая вычислительная мощность
Данные обеспечивают фундамент дома. Насколько высоким он может быть построен, зависит от вычислительной мощности. Вычислительная мощность — это вычислительная мощность компьютерной системы, то есть способность обрабатывать данные и выполнять вычислительные задачи.
В области искусственного интеллекта глубокие нейронные сети требуют большого количества вычислений и обучения, особенно для крупномасштабных моделей и сложных задач, для поддержки которых требуется больше вычислительной мощности.
Если взять в качестве примера большую модель GPT, то по мере увеличения количества параметров GPT, GPT-2 и GPT-3 (текущая открытая версия — GPT-3.5) со 117 миллионов до 175 миллиардов, объем данных предварительного обучения увеличивается. с 5 ГБ до 45 ТБ соответственно увеличивается потребность в мощности.
Следовательно, увеличение вычислительной мощности может улучшить скорость обучения и эффективность модели, а также повысить точность и производительность модели.
Чтобы оценить, могут ли ведущие производители удовлетворить требования к вычислительной мощности, необходимые для обучения и вывода, необходимо учитывать еще два момента: достаточно ли денег, на какой срок их хватит и насколько долгой является стратегия компании.
Долгосрочная инвестиционная стратегия и достаточный капитальный бюджет являются необходимыми элементами для воспроизведения ChatGPT.
Возьмем в качестве примера Baidu. После того, как в 2017 году была предложена программа «All IN AI», капитальные затраты в прошлом году (без учета iQiyi) достигли 18,1 млрд юаней. За тот же период операционный денежный поток увеличился на 30% до 26,17 млрд юаней. По состоянию на 2022 год остаток денежных средств и их эквивалентов, использованных на капитальные затраты, составил 53,16 млрд юаней, что достаточно денег на долгое время.
Кроме того, инфраструктура вычислительной мощности на самом деле представляет собой чип. Чем выше производительность чипа, тем выше вычислительная мощность больших моделей. Вот почему для поддержки планирования необходимы деньги и стратегия.
сильный алгоритм
Алгоритм — это набор шагов и правил решения проблемы, которые можно использовать для выполнения определенного расчета или операции. Часто используется для разработки и реализации компьютерных программ для решения различных задач.
Качество алгоритма напрямую влияет на эффективность и производительность программы. Например, прорыв в алгоритме ChatGPT заключается скорее в идеях, чем в конкретных теориях. Это инновация в «рецептах», а не в «ингредиентах», что стало одной из трудностей при воспроизведении.
Как оценить качество алгоритма? Есть три основных момента: пространственная сложность, временная сложность и надежность.
Время — это то, сколько времени потребуется алгоритму для выполнения своей задачи;
Пространство — это объем памяти, необходимый алгоритму для выполнения задачи;
Надежность означает устойчивость алгоритма к аномальным данным и шуму.
Обычно чем меньше временная сложность и пространственная сложность, тем выше эффективность алгоритма. Хороший алгоритм должен обладать высокой надежностью, уметь правильно выполнять задачи в различных обстоятельствах и выдавать четкую информацию.
В практических приложениях наиболее подходящий алгоритм может быть выбран в соответствии с конкретными потребностями и сценариями, а точка баланса может быть найдена с учетом вышеуказанных факторов.
Например, GPT разработан на основе модели Transformer. По сравнению с традиционной рекуррентной нейронной сетью (RNN) или сверточной нейронной сетью (CNN), Transformer имеет лучший параллелизм и более короткое время при обработке длинного текста, что позволяет добиться правильной торговли. разрыв между стоимостью, масштабом и эффективностью.
С точки зрения отечественных больших моделей барьеры для алгоритмов, данных и вычислительной мощности не являются непреодолимыми. С притоком талантов, течением времени и прогрессом исследований производительность больших моделей, вероятно, постепенно сблизится.
С углублением промышленных приложений и увеличением сложности сцены произойдет взрывной рост данных, быстрая итерация алгоритмов и экспоненциальный рост потребления вычислительной мощности, все это выдвигает новые требования к разработке искусственных интеллект.
3. Возможности в эпоху больших моделей ИИ
В будущем традиционные требования «овладения общими знаниями, умением работать с процессами и т. д. постепенно станут скрытыми требованиями нижнего уровня, в то время как более явные требования высокого уровня — это способность «создавать ценность и эффективно использовать инструменты для решать задачи."
Для обычных людей возможности, которые открываются перед нами благодаря крупным моделям ИИ, можно грубо разделить на две категории: одна — это краткосрочные инвестиционные возможности, а другая — долгосрочные возможности карьерного роста.
В краткосрочной перспективе больше преимуществ будут иметь компании, обладающие техническими резервами в области крупных моделей, такие как Tencent Holdings, Alibaba, Baidu и др. При этом можно обратить внимание на ключевые цели, которые заняли лидирующие позиции в подразделениях видео, маркетинга, чтения и других смежных подразделениях, таких как iFlytek, Danghong Technology, Jebsen Holdings, BlueFocus, Fengyuzhu, Zhejiang Internet и др.
В конечном счете, если позаимствовать слова Лу Ци в своей речи: «Эта эпоха (эпоха крупных моделей) очень похожа на эпоху золотой лихорадки. люди бы погибли. Но те, кто продает ложки и лопаты. Люди всегда могут заработать деньги.
Предпринимательские инновации, движимые человеческими технологиями, можно разделить на три типа возможностей: лежащие в основе технологии, удовлетворение потребностей и изменение мира.
Первый – это низший уровень цифровых технологий. Цифровизация — это продолжение человеческого существа. Все выпускаемые в настоящее время крупные модели ИИ, включая GPT, основаны на технологиях. Компании-производители чипов, включая Nvidia и Cambrian, также предоставляют аппаратное обеспечение для базовой технологии. Мы можем искать подходящие нам возможности или усердно работать над улучшением своих навыков для этой позиции, таких как front-end, back-end, оборудование, чипы и т. д.
Во-вторых, использовать технологии для решения потребностей. Спрос можно разделить на два направления: для C искусственный интеллект может использоваться для решения задач развлечения, потребления, социальных сетей, контента и т. д., и все потребности, которые могут помочь людям жить лучше, должны быть удовлетворены; для B он должен быть удовлетворен; может помочь предприятиям сократить расходы и увеличить эффект роста. Возможности в этой части заключаются в основном в том, чтобы связаться с людьми, лучше понять потребности пользователей и предложить более качественные продукты или опыт.
Третье – изменить мир. Например, энергетические технологии, преобразованная энергия, или науки о жизни, или новый космос. Например, Маск работает над роботами, интерфейсами «мозг-компьютер» и т. д., даже над Метавселенной и Web 3.
Лу Ци упомянул в своем выступлении о своих взглядах на большие модели: «Большие масштабы и более сложные структуры моделей означают более широкие области применения и больше возможностей, но их необходимо тщательно обдумать, сначала подумать, а затем использовать, ориентированные на действие».
Возможности для обычных людей очень похожи на разработку больших моделей. Долгосрочная разработка должна определяться технологиями, но демонтаж, анализ, сортировка и контроль потребностей во время реализации — это все. Делайте то, что можете, а остальное оставьте будущему!