Conecte-se
Fazer login

Galeria de mapas mentais Capítulo 3 Modelo Linear

Capítulo 3 Modelo Linear

Machine Learning (Xigua Book Edition), apresenta a forma básica, regressão linear, Regressão de probabilidades logarítmicas, análise discriminante linear, Aprendizagem multiclassificação, etc.

Editado em 2024-04-12 22:37:17

슈퍼직장인

Trabalhos recentes Ver mais trabalhos>>

(III) 저산소 유도 인자 프롤릴 하이드 록 실라 제 억제제
이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
Kuka 산업용 로봇의 개발 및 Kuka 산업 로봇의 모션 제어 명령
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
1.1 컴퓨터 네트워크 요약
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!

Capítulo 3 Modelo Linear

슈퍼직장인

Trabalhos recentes Ver mais trabalhos>>

Recomendado para você
Descrição

Aprendizagem em conjunto
- 6
WSysQn6v
agrupamento hierárquico
- 5
WSysQn6v
DBSCAN
- 10
WSysQn6v
K-meios
- 13
WSysQn6v
Árvore de conhecimento de big data
- 19
슈퍼직장인
IA
- 58
WSb6eYgD
Desenvolvimento de Tecnologia de Inteligência Artificial
- 6
WSb6eYgD
IA
- 9
WSb6eYgD
Introdução à Inteligência Artificial
- 9
WSb6eYgD
Resumo dos pontos de conhecimento de aprendizado de máquina de inteligência artificial do sklearn (com ilustrações práticas de código)
- 8
WSb6eYgD

Capítulo 3 Modelo Linear

(1) Formulário básico

Um modelo linear tenta aprender uma função que prevê através de uma combinação linear de atributos. Vantagens: forma simples, fácil de modelar Interpretabilidade A base de modelos não lineares (introduzindo estruturas hierárquicas ou mapeamento de alta dimensão)

Forma básica

Forma geral

é um exemplo descrito por atributos, onde xi é o valor de x no i-ésimo atributo

forma vetorial

,em

(2) Regressão linear

Considere o processamento de tipo discreto:

Existe uma relação de “ordem” Converter para valores contínuos

Relacionamento de "pedido" Se houver um valor de atributo, ele será convertido em um vetor dimensional

Objetivo: aprender um modelo linear para prever tokens de saída com valor real com a maior precisão possível

linearidade de um único atributo

Alvo:

Estimativa de parâmetro/modelo: mínimos quadrados

Minimize o erro quadrático:

Tomando as derivadas de w e b respectivamente, podemos obter:

Regressão linear múltipla

Alvo de regressão linear múltipla

método dos mínimos quadrados

(3) Regressão de probabilidade logarítmica

Modelo linear generalizado:

Duas tarefas de classificação

Desvantagens da função degrau unitário: descontinuidade

grande lei natural

Se y for considerado como uma estimativa de probabilidade posterior de classe

, método de gradiente descendente, método de Newton, etc. podem ser usados para obter a solução ideal.

(6) Problema de desequilíbrio de categoria

Descrição do problema: Existe um problema de desequilíbrio entre amostras positivas e negativas. Para muitos algoritmos de classificação, se você usar conjuntos de amostras não balanceados diretamente para treinamento e aprendizado, haverá alguns problemas.

Paradoxo da Precisão: Existem 1.000 pontos de dados no conjunto de dados, 990 dos quais são da categoria 0 e os 10 restantes são da categoria 1. O modelo A na tabela abaixo é melhor que o modelo B?

Quando confrontados com dados desequilibrados, alguns indicadores de avaliação (como a precisão) irão enviesar seriamente o modelo para categorias com uma proporção maior, fazendo com que a função de previsão do modelo falhe. A AUC (área sob a curva) pode permanecer estável diante de conjuntos de dados desequilibrados, e distorções como o paradoxo da precisão não ocorrerão.

Definição de precisão (ACC):

Quando o número de exemplos de treinamento de diferentes categorias é muito diferente (assumindo que a categoria positiva é uma categoria pequena), a “categoria pequena” é frequentemente mais importante

A ideia básica:

Estratégia básica: escalar novamente.

Métodos comuns de aprendizagem de desequilíbrio de categoria: (1) sobreamostragem (sobreamostragem) Por exemplo: SMOTE (2) Subamostragem Por exemplo: EasyEnsemble (3) Mudança de limite

Sobreamostragem: adicione alguns exemplos positivos para aproximar o número de exemplos positivos e negativos

Movimento de limite: para problemas de classificação, você não pode prever diretamente o rótulo da classe da instância, mas prever o valor da probabilidade e, em seguida, especificar um limite para classificar a instância em uma classe positiva e uma classe negativa. O limite é geralmente especificado como 0,5. mas pode ser determinado de acordo com a situação real. Mover o limite e aumentar o peso de uma determinada classe para resolver o desequilíbrio de classe.

Subamostragem: remova alguns exemplos negativos para tornar o número de exemplos positivos e negativos próximos um do outro

Existe uma dificuldade: estimar com precisão m − /m é muitas vezes difícil!

(5) Aprendizagem multicategoria

A ideia básica da aprendizagem multiclassificação é o "método dividido". A chave é: como dividir tarefas de distribuição múltipla e integrar vários classificadores.

Estratégia de divisão: 1. Um para um 2. Um para o resto 3. Muitos para muitos

Um a um

fase dividida

Emparelhamento de N categorias: N(N-1)/2 tarefas de duas categorias

Classificadores de aprendizagem para cada tarefa de duas categorias: N(N-1)/2 classificadores de duas classes

fase de testes

Novas amostras são enviadas a todos os classificadores para previsão: Resultados da classificação N(N-1)/2

A votação produz o resultado final da classificação: A categoria mais prevista é a categoria final

um par de restantes

Divisão de tarefas

Uma determinada categoria é usada como exemplo positivo e outros contra-exemplos: N tarefas de segunda categoria

Cada classificador de aprendizagem de tarefas de duas classes: N classificadores de duas classes

fase de testes

Novas amostras são enviadas a todos os classificadores para previsão: resultados da classificação N

Compare a confiança da predição de cada classificador: a categoria com maior confiança é usada como categoria final

Muitos para muitos: Várias classes são usadas como classes positivas e várias classes são usadas como anticlasses.

código de saída de correção de erros

fluxograma:

Resumo: (1) A codificação ECOC tem uma certa tolerância e capacidade de correção para erros do classificador. Quanto mais longo o código, mais forte será a capacidade de correção de erros. (2) Para códigos do mesmo comprimento, teoricamente, quanto maior for a distância de codificação entre quaisquer duas categorias, maior será a capacidade de correção de erros.

Comparação de "um para muitos" e "muitos para descansar"

"Um-para-muitos": treina classificadores N(N-1)/2, o que requer grande sobrecarga de armazenamento e tempo de teste. Apenas duas categorias de exemplos são usadas para treinamento e o tempo de treinamento é curto.

"Many to Rest": treinar N classificadores com pequena sobrecarga de armazenamento e tempo de teste Todos os exemplos de treinamento são usados para treinamento e o tempo de treinamento é longo.

O desempenho da previsão depende da distribuição específica dos dados e, na maioria dos casos, os dois são semelhantes

(4) Análise discriminante linear

É um algoritmo de aprendizagem supervisionado e frequentemente usado para reduzir a dimensionalidade dos dados. Foi inventado por Ronald Fisher em 1936, e algumas fontes também o chamam de Fisher LDA. LDA é um algoritmo clássico e popular nas áreas de aprendizado de máquina e mineração de dados.

LDA também pode ser considerada uma técnica supervisionada de redução de dimensionalidade

A ideia da LDA

Os pontos projetados de amostras semelhantes são os mais próximos possíveis:

Os pontos de projeção de amostras heterogêneas estão o mais distantes possível:

Derivado do pensamento LDA

Maximizar meta:

Matriz de divergência intraclasse:

Matriz de divergência interclasse:

Quociente de Rayleigh generalizado:

Este é o objetivo da LDA maximizar. fazer

O equivalente é:

Use o método do multiplicador de Lagrange:

Disponível:

resultado:

Nota: Ele é um algoritmo de aprendizagem

Função alternativa: Função de probabilidade logarítmica (a função de probabilidade logarítmica é referida como "função de probabilidade logarítmica") Vantagens: Monótono diferenciável, diferenciável em qualquer ordem

Registrar probabilidades (logit) As probabilidades (probabilidades) refletem a probabilidade relativa de uma amostra ser um exemplo positivo

Vantagens: Não há necessidade de assumir antecipadamente a distribuição de dados (ou seja, pode ser usado para qualquer dado) A previsão de probabilidade aproximada de "categoria" pode ser obtida Algoritmos de otimização numérica existentes podem ser aplicados diretamente para obter a solução ideal.