Galeria de mapas mentais Primeira introdução aos grandes modelos de IA e mapa mental de oportunidades de desenvolvimento
Estabeleça uma compreensão básica dos grandes modelos de IA e compreenda o núcleo principal das tecnologias básicas e as oportunidades da época. Espero que ajude a todos.
Editado em 2023-12-02 22:21:21Il s'agit d'une carte mentale sur les anévrismes intracrâniens, avec le contenu principal, notamment: le congé, l'évaluation d'admission, les mesures infirmières, les mesures de traitement, les examens auxiliaires, les manifestations cliniques et les définitions.
Il s'agit d'une carte mentale sur l'entretien de comptabilité des coûts, le principal contenu comprend: 5. Liste des questions d'entrevue recommandées, 4. Compétences de base pour améliorer le taux de réussite, 3. Questions professionnelles, 2. Questions et réponses de simulation de scénarios, 1. Questions et réponses de capacité professionnelle.
Il s'agit d'une carte mentale sur les méthodes de recherche de la littérature, et son contenu principal comprend: 5. Méthode complète, 4. Méthode de traçabilité, 3. Méthode de vérification des points, 2. Méthode de recherche inversée, 1. Méthode de recherche durable.
Il s'agit d'une carte mentale sur les anévrismes intracrâniens, avec le contenu principal, notamment: le congé, l'évaluation d'admission, les mesures infirmières, les mesures de traitement, les examens auxiliaires, les manifestations cliniques et les définitions.
Il s'agit d'une carte mentale sur l'entretien de comptabilité des coûts, le principal contenu comprend: 5. Liste des questions d'entrevue recommandées, 4. Compétences de base pour améliorer le taux de réussite, 3. Questions professionnelles, 2. Questions et réponses de simulation de scénarios, 1. Questions et réponses de capacité professionnelle.
Il s'agit d'une carte mentale sur les méthodes de recherche de la littérature, et son contenu principal comprend: 5. Méthode complète, 4. Méthode de traçabilité, 3. Méthode de vérification des points, 2. Méthode de recherche inversée, 1. Méthode de recherche durable.
Primeira introdução aos grandes modelos de IA e oportunidades de desenvolvimento
1. O que é um modelo grande de IA?
Modelo grande de IA é a abreviatura de "modelo grande de pré-treinamento de inteligência artificial", que inclui os dois significados de "pré-treinamento" e "modelo grande". o modelo é treinado em conjuntos de dados em grande escala. Depois de concluir o pré-treinamento, não há necessidade de ajuste fino, ou apenas é necessário ajuste fino com uma pequena quantidade de dados, e ele pode suportar diretamente vários aplicativos.
Entre eles, a pré-formação de grandes modelos é como um estudante universitário ou mesmo um doutorando que conhece todos os conhecimentos básicos e concluiu uma “formação geral”. Mas eles ainda precisam de prática e ajuste fino após feedback para concluir melhor as tarefas.
Além disso, grandes modelos de IA têm muitas vantagens, como propósito geral e replicação em larga escala, e são uma direção importante para a realização de AGI (inteligência artificial geral).
Os grandes modelos atuais de IA incluem processamento de linguagem natural (PNL), visão computacional (CV), etc., bem como grandes modelos multimodais unificados e integrados. Por exemplo, ChatGPT é uma inovação revolucionária no campo do processamento de linguagem natural. Ele compreende e fala a “linguagem humana”. Ele supera os modelos anteriores de processamento de linguagem natural e pode lidar com várias tarefas de processamento de linguagem natural, incluindo tradução automática, resposta a perguntas, geração de texto, etc.
Simplificando, podemos pensar em um modelo grande como uma base de conhecimento muito grande, que armazena uma grande quantidade de informações e conhecimento, que pode ajudar o computador a compreender e processar melhor os dados de entrada. Cada neurônio e parâmetro no modelo grande juntos formam uma rede poderosa que pode processar e transformar com eficiência os dados de entrada.
Atualmente, empresas nacionais como Baidu, Alibaba, Tencent e Huawei desenvolveram grandes modelos de IA. Cada série de modelos tem seu próprio foco, e alguns foram lançados e alguns aplicativos foram implementados.
O Baidu vem implantando IA há muitos anos e tem uma certa vantagem de ser o pioneiro em modelos grandes. Atualmente, o número de empresas que se inscreveram para testes de serviço de chamada API de Wen Xin Yi Yan ultrapassou 65.000. Em termos de modelos de grande indústria, tem sido aplicado em casos com State Grid, Shanghai Pudong Development Bank, Geely, TCL, People's Daily Online, Shanghai Dictionary Publishing House, etc.
O grande modelo do Alibaba Tongyi é bom em operações lógicas, capacidades de codificação e processamento de voz. O grupo possui um rico ecossistema e linhas de produtos, que são amplamente utilizados em cenários de viagens, cenários de escritório, cenários de compras e cenários de vida.
O modelo de grande escala Hunyuan da Tencent foi colocado em uso em publicidade e produção de jogos. O grupo está atualmente pesquisando assistentes inteligentes de conversação e espera-se que otimize a ecologia QQ e WeChat após ser colocado em uso.
A Huawei coopera estreitamente com o lado B e espera-se que as aplicações futuras sejam principalmente ToB. Além disso, a Huawei possui reservas abundantes em algoritmos e poder computacional. Por exemplo: "Pengcheng Cloud Brain II" ganhou o ranking global IO500 por cinco vezes consecutivas e possui forte poder de computação de IA e capacidade de transferência de dados. A plataforma Huawei Cloud ModelArts tem a capacidade de processar dados massivos com eficiência, completando 40 TB de processamento de dados de texto em; 7 dias; Dados Pangu O modelo foi lançado oficialmente já em abril de 2021. Os dados de texto de treinamento do modelo grande Pangu atual são de até 40 TB (GPT-3 é 45 TB).
2. Principais pontos técnicos dos grandes modelos de IA
Grandes modelos geralmente consistem em centenas de milhões a bilhões de parâmetros e precisam ser treinados e otimizados em grandes quantidades de dados para alcançar maior precisão de previsão e capacidades de generalização. As pessoas na indústria costumam dizer que grandes modelos são o produto da combinação de “big data, grande poder de computação e algoritmos fortes”. A chave para o desenvolvimento da indústria também reside nestes três pontos.
Grandes dados
Os dados são o alimento para o treinamento do algoritmo No estágio inicial, o modelo precisa ser alimentado com uma grande quantidade de dados para formar a capacidade de compreensão do modelo. A qualidade dos dados alimentados nos estágios intermediário e posterior determina a precisão do modelo. .
Tomando o modelo GPT como exemplo, uma das razões pelas quais o ChatGPT tem melhor desempenho é que ele fornece dados reais de alta qualidade baseados em aprendizagem não supervisionada.
No entanto, os dados de aprendizado de máquina precisam ser rotulados manualmente com antecedência. A rotulagem consiste em processar os dados primários e convertê-los em informações reconhecíveis pela máquina. Somente após uma grande quantidade de treinamento e cobrindo o maior número possível de cenários é que um bom modelo pode ser obtido.
Atualmente, a maioria das fontes de dados de treinamento são dados públicos. Por exemplo, de acordo com o artigo do Dr. Alan D. Thompson (ex-presidente da Mensa International, especialista e consultor em inteligência artificial), os conjuntos de dados para grandes modelos listados incluem Wikipedia, livros, periódicos e links do Reddit, rastreamento comum e outros conjuntos de dados, etc.
Por um lado, existe uma grande quantidade de dados. Por outro lado, a riqueza e a autenticidade dos dados também são cruciais para o treinamento de grandes modelos. Nas fases intermediárias e posteriores do treinamento, dados de alta qualidade melhorarão a precisão do modelo. por exemplo:
Mais dados factuais melhorarão a precisão do modelo;
Uma língua chinesa mais fluente melhorará a capacidade do modelo de compreender a língua chinesa;
Dados verticais mais precisos podem completar a construção de modelos em algumas áreas mais subdivididas.
Além disso, dados de feedback de alta qualidade podem melhorar o desempenho do modelo. Por exemplo, ChatGPT usa aprendizagem por reforço humano RLHF para aprimorar a compreensão do modelo da lógica da linguagem humana por meio de perguntas mais profissionais, instruções, classificação de feedback humano, etc.
Para modelos domésticos de grande escala, existem dois desafios que ainda exigem esforços: a qualidade do corpus doméstico da Internet é relativamente baixa e os conjuntos de dados de anotação chinesa de alta qualidade são escassos, os rótulos são anotados principalmente manualmente e os detalhes técnicos e de treinamento de anotação específica; dos anotadores ainda exigem exploração de negócios de tecnologia doméstica.
Grande poder de computação
Os dados fornecem a base da casa. A altura em que ela pode ser construída depende do poder computacional. O poder computacional é o poder computacional de um sistema computacional, ou seja, a capacidade de processar dados e executar tarefas computacionais.
No campo da IA, as redes neurais profundas exigem muitos cálculos e treinamento, especialmente para modelos de grande escala e tarefas complexas, que exigem mais poder computacional para serem suportadas.
Tomando como exemplo o grande modelo GPT, à medida que o número de parâmetros de GPT, GPT-2 e GPT-3 (a versão aberta atual é GPT-3.5) aumenta de 117 milhões para 175 bilhões, a quantidade de dados de pré-treinamento aumenta de 5 GB para 45 TB A demanda por energia aumenta de acordo.
Portanto, um aumento no poder computacional pode melhorar a velocidade de treinamento e a eficiência do modelo, bem como melhorar a precisão e o desempenho do modelo.
Para medir se os principais fabricantes podem suportar os requisitos de poder computacional de treinamento e inferência, mais dois pontos precisam ser considerados: se o dinheiro é suficiente, por quanto tempo será suficiente e por quanto tempo a estratégia da empresa é.
Uma estratégia de investimento de longo prazo e um orçamento de capital suficiente são elementos necessários para reproduzir o ChatGPT.
Tomemos o Baidu como exemplo. Depois que "All IN AI" foi proposto em 2017, as despesas de capital flutuaram no ano passado (excluindo iQiyi) durante o mesmo período, o fluxo de caixa operacional aumentou 30%, para 26,17 bilhões de yuans. Em 2022, no final do ano, o saldo de caixa e equivalentes de caixa da empresa usados para despesas de capital era de 53,16 bilhões de yuans, o que é dinheiro suficiente por muito tempo.
Além disso, a infraestrutura de poder de computação é, na verdade, um chip. Quanto melhor o desempenho do chip, mais rápido será o poder de processamento dos modelos grandes. É por isso que são necessários dinheiro e estratégia para apoiar o planeamento.
algoritmo forte
Um algoritmo é um conjunto de etapas e regras de resolução de problemas que podem ser usadas para realizar um cálculo ou operação específica. Freqüentemente usado para projetar e implementar programas de computador para resolver vários problemas.
A qualidade do algoritmo afeta diretamente a eficiência e o desempenho do programa. Por exemplo, o avanço do algoritmo ChatGPT reside mais em ideias do que em teorias específicas. É uma inovação em “receitas” e não em “ingredientes”, o que se tornou uma das dificuldades de replicação.
Como julgar a qualidade de um algoritmo? Existem três pontos principais: complexidade espacial, complexidade temporal e robustez.
Tempo é quanto tempo leva para o algoritmo completar sua tarefa;
Espaço refere-se ao espaço de memória exigido pelo algoritmo para completar a tarefa;
Robustez refere-se à tolerância do algoritmo a dados e ruídos anormais.
Normalmente, quanto menor a complexidade do tempo e a complexidade do espaço, maior será a eficiência do algoritmo. Um bom algoritmo deve ter alta robustez, ser capaz de executar tarefas corretamente em diversas circunstâncias e produzir informações claras.
Em aplicações práticas, o algoritmo mais adequado pode ser selecionado de acordo com necessidades e cenários específicos, e um ponto de equilíbrio pode ser encontrado levando em consideração os fatores acima.
Por exemplo, o GPT é desenvolvido com base no modelo Transformer Em comparação com as redes neurais recorrentes tradicionais (RNN) ou redes neurais convolucionais (CNN), o Transformer tem melhor paralelismo e processamento de texto mais curto ao processar textos longos, alcançando o comércio correto. entre custo, escala e eficiência.
Do ponto de vista dos grandes modelos nacionais, as barreiras aos algoritmos, aos dados e ao poder computacional não são intransponíveis. Com o fluxo de talentos, a passagem do tempo e o progresso da investigação, é provável que o desempenho dos grandes modelos convirja gradualmente.
Com o aprofundamento das aplicações industriais e o aumento da complexidade da cena, haverá um crescimento explosivo de dados, uma rápida iteração de algoritmos e um aumento exponencial no consumo de poder computacional, todos os quais apresentaram novos requisitos para o desenvolvimento de dispositivos artificiais. inteligência.
3. Oportunidades na era dos grandes modelos de IA
No futuro, os requisitos tradicionais de “domínio do conhecimento geral, capacidade de trabalho em processos, etc.” tornar-se-ão gradualmente requisitos ocultos de nível inferior, enquanto os requisitos mais explícitos e de alto nível serão a capacidade de “criar valor e usar ferramentas de forma eficiente para resolver problemas."
Para as pessoas comuns, as oportunidades que os grandes modelos de IA nos trazem podem ser divididas em duas categorias: uma é a oportunidade de investimento de curto prazo e a outra é a oportunidade de carreira de longo prazo.
No curto prazo, as empresas com reservas técnicas na área de grandes modelos terão mais vantagens, como Tencent Holdings, Alibaba, Baidu, etc. Ao mesmo tempo, você pode prestar atenção aos principais alvos que assumiram a liderança em vídeo, marketing, leitura e outras subdivisões relacionadas, como iFlytek, Danghong Technology, Jebsen Holdings, BlueFocus, Fengyuzhu, Zhejiang Internet, etc.
No longo prazo, tomando emprestado o que Lu Qi disse em seu discurso: “Esta era (a era dos grandes modelos) é muito semelhante à era da corrida do ouro. pessoas morreriam. Mas aqueles que vendem colheres e pás As pessoas sempre podem ganhar dinheiro.”
A inovação empresarial impulsionada pela tecnologia humana pode ser dividida principalmente em três tipos de oportunidades – tecnologia subjacente, satisfação de necessidades e mudança do mundo.
O primeiro é o nível mais baixo de tecnologia digital. A digitalização é uma extensão dos seres humanos. Todos os grandes modelos de IA lançados atualmente, incluindo o GPT, são baseados em tecnologia. Empresas de chips, incluindo Nvidia e Cambrian, também fornecem recursos de hardware para a tecnologia subjacente. Podemos buscar oportunidades que nos agradem, ou trabalhar duro para melhorar nossas habilidades para esta posição, como front-end, back-end, equipamentos, chips, etc.
A segunda é usar a tecnologia para resolver necessidades. A demanda pode ser dividida em duas direções: Para C, a IA pode ser usada para resolver o entretenimento, consumo, redes sociais, conteúdo, etc. de todos, e todas as necessidades que podem ajudar as pessoas a viver uma vida melhor precisam ser atendidas; pode ajudar as empresas a reduzir custos e aumentar o efeito de crescimento. As oportunidades nesta parte são principalmente para contatar pessoas, entender melhor as necessidades dos usuários e trazer melhores produtos ou experiências.
A terceira é mudar o mundo. Por exemplo, tecnologia energética, energia transformada, ou ciências da vida, ou novo espaço. Por exemplo, Musk está trabalhando em robôs, interfaces cérebro-computador, etc., até mesmo no Metaverso e na Web 3.
Lu Qi mencionou em seu discurso seus pontos de vista sobre grandes modelos: Estruturas de modelos em maior escala e mais complexas significam campos de aplicação mais amplos e mais oportunidades - mas devem ser cuidadosamente considerados, pensar primeiro e depois usar orientados para a ação.
As oportunidades para as pessoas comuns são muito semelhantes às do desenvolvimento de grandes modelos. O desenvolvimento a longo prazo deve ser impulsionado pela tecnologia, mas desmontar, analisar, classificar e controlar as necessidades durante a implementação é tudo. Faça o que puder e deixe o resto para o futuro!