Galeria de mapas mentais Capítulo 3 Modelo Linear
Machine Learning (Xigua Book Edition), apresenta a forma básica, regressão linear, Regressão de probabilidades logarítmicas, análise discriminante linear, Aprendizagem multiclassificação, etc.
Editado em 2024-04-12 22:37:17이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
Capítulo 3 Modelo Linear
(1) Formulário básico
Um modelo linear tenta aprender uma função que prevê através de uma combinação linear de atributos. Vantagens: forma simples, fácil de modelar Interpretabilidade A base de modelos não lineares (introduzindo estruturas hierárquicas ou mapeamento de alta dimensão)
Forma básica
Forma geral
é um exemplo descrito por atributos, onde xi é o valor de x no i-ésimo atributo
forma vetorial
,em
(2) Regressão linear
Considere o processamento de tipo discreto:
Existe uma relação de “ordem” Converter para valores contínuos
Relacionamento de "pedido" Se houver um valor de atributo, ele será convertido em um vetor dimensional
Objetivo: aprender um modelo linear para prever tokens de saída com valor real com a maior precisão possível
linearidade de um único atributo
Alvo:
Estimativa de parâmetro/modelo: mínimos quadrados
Minimize o erro quadrático:
Tomando as derivadas de w e b respectivamente, podemos obter:
Regressão linear múltipla
Alvo de regressão linear múltipla
método dos mínimos quadrados
(3) Regressão de probabilidade logarítmica
Modelo linear generalizado:
Duas tarefas de classificação
Desvantagens da função degrau unitário: descontinuidade
grande lei natural
Se y for considerado como uma estimativa de probabilidade posterior de classe
, método de gradiente descendente, método de Newton, etc. podem ser usados para obter a solução ideal.
(6) Problema de desequilíbrio de categoria
Descrição do problema: Existe um problema de desequilíbrio entre amostras positivas e negativas. Para muitos algoritmos de classificação, se você usar conjuntos de amostras não balanceados diretamente para treinamento e aprendizado, haverá alguns problemas.
Paradoxo da Precisão: Existem 1.000 pontos de dados no conjunto de dados, 990 dos quais são da categoria 0 e os 10 restantes são da categoria 1. O modelo A na tabela abaixo é melhor que o modelo B?
Quando confrontados com dados desequilibrados, alguns indicadores de avaliação (como a precisão) irão enviesar seriamente o modelo para categorias com uma proporção maior, fazendo com que a função de previsão do modelo falhe. A AUC (área sob a curva) pode permanecer estável diante de conjuntos de dados desequilibrados, e distorções como o paradoxo da precisão não ocorrerão.
Definição de precisão (ACC):
Quando o número de exemplos de treinamento de diferentes categorias é muito diferente (assumindo que a categoria positiva é uma categoria pequena), a “categoria pequena” é frequentemente mais importante
A ideia básica:
Estratégia básica: escalar novamente.
Métodos comuns de aprendizagem de desequilíbrio de categoria: (1) sobreamostragem (sobreamostragem) Por exemplo: SMOTE (2) Subamostragem Por exemplo: EasyEnsemble (3) Mudança de limite
Sobreamostragem: adicione alguns exemplos positivos para aproximar o número de exemplos positivos e negativos
Movimento de limite: para problemas de classificação, você não pode prever diretamente o rótulo da classe da instância, mas prever o valor da probabilidade e, em seguida, especificar um limite para classificar a instância em uma classe positiva e uma classe negativa. O limite é geralmente especificado como 0,5. mas pode ser determinado de acordo com a situação real. Mover o limite e aumentar o peso de uma determinada classe para resolver o desequilíbrio de classe.
Subamostragem: remova alguns exemplos negativos para tornar o número de exemplos positivos e negativos próximos um do outro
Existe uma dificuldade: estimar com precisão m − /m é muitas vezes difícil!
(5) Aprendizagem multicategoria
A ideia básica da aprendizagem multiclassificação é o "método dividido". A chave é: como dividir tarefas de distribuição múltipla e integrar vários classificadores.
Estratégia de divisão: 1. Um para um 2. Um para o resto 3. Muitos para muitos
Um a um
fase dividida
Emparelhamento de N categorias: N(N-1)/2 tarefas de duas categorias
Classificadores de aprendizagem para cada tarefa de duas categorias: N(N-1)/2 classificadores de duas classes
fase de testes
Novas amostras são enviadas a todos os classificadores para previsão: Resultados da classificação N(N-1)/2
A votação produz o resultado final da classificação: A categoria mais prevista é a categoria final
um par de restantes
Divisão de tarefas
Uma determinada categoria é usada como exemplo positivo e outros contra-exemplos: N tarefas de segunda categoria
Cada classificador de aprendizagem de tarefas de duas classes: N classificadores de duas classes
fase de testes
Novas amostras são enviadas a todos os classificadores para previsão: resultados da classificação N
Compare a confiança da predição de cada classificador: a categoria com maior confiança é usada como categoria final
Muitos para muitos: Várias classes são usadas como classes positivas e várias classes são usadas como anticlasses.
código de saída de correção de erros
fluxograma:
Resumo: (1) A codificação ECOC tem uma certa tolerância e capacidade de correção para erros do classificador. Quanto mais longo o código, mais forte será a capacidade de correção de erros. (2) Para códigos do mesmo comprimento, teoricamente, quanto maior for a distância de codificação entre quaisquer duas categorias, maior será a capacidade de correção de erros.
Comparação de "um para muitos" e "muitos para descansar"
"Um-para-muitos": treina classificadores N(N-1)/2, o que requer grande sobrecarga de armazenamento e tempo de teste. Apenas duas categorias de exemplos são usadas para treinamento e o tempo de treinamento é curto.
"Many to Rest": treinar N classificadores com pequena sobrecarga de armazenamento e tempo de teste Todos os exemplos de treinamento são usados para treinamento e o tempo de treinamento é longo.
O desempenho da previsão depende da distribuição específica dos dados e, na maioria dos casos, os dois são semelhantes
(4) Análise discriminante linear
É um algoritmo de aprendizagem supervisionado e frequentemente usado para reduzir a dimensionalidade dos dados. Foi inventado por Ronald Fisher em 1936, e algumas fontes também o chamam de Fisher LDA. LDA é um algoritmo clássico e popular nas áreas de aprendizado de máquina e mineração de dados.
LDA também pode ser considerada uma técnica supervisionada de redução de dimensionalidade
A ideia da LDA
Os pontos projetados de amostras semelhantes são os mais próximos possíveis:
Os pontos de projeção de amostras heterogêneas estão o mais distantes possível:
Derivado do pensamento LDA
Maximizar meta:
Matriz de divergência intraclasse:
Matriz de divergência interclasse:
Quociente de Rayleigh generalizado:
Este é o objetivo da LDA maximizar. fazer
O equivalente é:
Use o método do multiplicador de Lagrange:
Disponível:
resultado:
Nota: Ele é um algoritmo de aprendizagem
Função alternativa: Função de probabilidade logarítmica (a função de probabilidade logarítmica é referida como "função de probabilidade logarítmica") Vantagens: Monótono diferenciável, diferenciável em qualquer ordem
Registrar probabilidades (logit) As probabilidades (probabilidades) refletem a probabilidade relativa de uma amostra ser um exemplo positivo
Vantagens: Não há necessidade de assumir antecipadamente a distribuição de dados (ou seja, pode ser usado para qualquer dado) A previsão de probabilidade aproximada de "categoria" pode ser obtida Algoritmos de otimização numérica existentes podem ser aplicados diretamente para obter a solução ideal.