Conecte-se
Fazer login

Galeria de mapas mentais Resumo dos pontos de conhecimento de aprendizado de máquina de inteligência artificial do sklearn (com ilustrações práticas de código)

Resumo dos pontos de conhecimento de aprendizado de máquina de inteligência artificial do sklearn (com ilustrações práticas de código)

Um resumo dos pontos práticos de conhecimento de aprendizado de máquina baseados no sklearn, incluindo código prático e diagramas de resultados escritos pelo autor, que podem ser usados para aprendizado, revisão de entrevistas e uso avançado.

Editado em 2022-03-20 14:40:39

WSb6eYgD

Trabalhos recentes Ver mais trabalhos>>

Resumo dos pontos de conhecimento de aprendizado de máquina de inteligência artificial do sklearn (com ilustrações práticas de código)

WSb6eYgD

Trabalhos recentes Ver mais trabalhos>>

Recomendado para você
Descrição

Aprendizagem em conjunto
- 6
WSysQn6v
agrupamento hierárquico
- 5
WSysQn6v
DBSCAN
- 10
WSysQn6v
K-meios
- 13
WSysQn6v
Árvore de conhecimento de big data
- 19
슈퍼직장인
Capítulo 3 Modelo Linear
- 10
슈퍼직장인
IA
- 58
WSb6eYgD
Desenvolvimento de Tecnologia de Inteligência Artificial
- 6
WSb6eYgD
IA
- 9
WSb6eYgD
Introdução à Inteligência Artificial
- 9
WSb6eYgD

aprendizado de máquina

Pacote de guia 1

DictVectorizer

ContarVetorizador

chinês

jieba.cut

particípio gago

Chame a função à esquerda e conte o vetorizador

TF-IDF

A ideia principal do TF-IDF

Se uma palavra ou frase aparecer com alta probabilidade em um artigo, E se raramente aparece em outros artigos, considera-se que esta palavra ou frase possui boa distinção de categorias. A habilidade é adequada para classificação.

Tf: frequência do termo: o número de vezes que a frequência da palavra aparece

idf: frequência inversa do documento frequência inversa do documento =log(número total de documentos do corpus/número de documentos em que a palavra aparece 1)

TF-IDF=tf*idf representa o grau de importância

Normalizado

Recursos: Mapeie os dados para (o padrão é [0,1]) transformando os dados originais

Função: a descida do gradiente é mais rápida, a solução ideal é encontrada mais rapidamente e o modelo é treinado mais rapidamente

Desvantagens: facilmente afetado por valores extremos

estandardização

Recursos: Transforme os dados originais em um intervalo com média 0 e desvio padrão de 1 (distribuição normal padrão)

𝑋′= (𝑥−média)/𝜎

Atua em cada coluna, média é a média e 𝜎 é o desvio padrão.

std se torna a variância, 𝜎= √std

Se ocorrerem outliers, devido a uma certa quantidade de dados, um pequeno número de outliers não terá um grande impacto no valor médio, portanto a variância mudará pouco.

Tratamento de valor ausente

Os valores faltantes podem ser preenchidos pela média ou mediana de cada linha ou coluna.

Seleção de recursos

sub tópico

Filtro: Limite de Variância

Remover recursos de baixa variação

var = VarianceThreshold(threshold=0.2) # Exclua aqueles com variação menor que 0,2 dados = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

Incorporado: regularização, árvore de decisão, rede neural

Invólucro (embrulhado)

O método de empacotamento seleciona continuamente subconjuntos de recursos do conjunto de recursos inicial, treina o aluno e avalia os subconjuntos com base no desempenho do aluno até que o melhor subconjunto seja selecionado.

Análise de componentes principais PCA

Objetivo: Compressão da dimensionalidade dos dados, reduzindo ao máximo a dimensionalidade (complexidade) dos dados originais e perdendo uma pequena quantidade de informações

Função: Pode reduzir o número de recursos na análise de regressão ou análise de cluster.

Pacote de guia 2

fit_transform

O teste é fit_transform, o que significa que apenas a média e a variância do teste são usadas no processo de padronização.

teste é transformado, indicando que a média e a variância do trem são utilizadas no processo de padronização.

Projeto KNN-facebook

Pontos de conhecimento

Se o valor k de KNN for muito pequeno, é fácil superajustar.

problema de seleção de valor k

Se for muito grande, o modelo é muito simples e sujeito a ajuste insuficiente.

Se for muito pequeno, o modelo é muito complexo e fácil de ajustar demais.

Erro de aproximação e erro de estimativa:

O erro de aproximação é o erro de treinamento no conjunto de treinamento

O erro de estimativa é o erro de teste no conjunto de teste

Combate real

Formato de dados: row_id x y precisão hora place_id

x y é a coordenada, o tempo é 23234s, o número de segundos desde 1º de janeiro de 1970, place_id é o local

O objetivo é prever para qual loja place_id ir com base em x y

Pré-processamento de dados

Construir modelo KNN

Vantagens e desvantagens

vantagem

Simples e eficaz

A reciclagem é barata

Adequado para amostras cruzadas de domínio de classe

Adequado para classificação automática de amostras grandes

deficiência

aprendizagem preguiçosa

A saída não é muito interpretável

Não é bom em amostras desequilibradas

Muitos de uma categoria e poucos de outras

Seleção e ajuste de modelo

Validação cruzada

Validação cruzada do conjunto de treinamento

pesquisa em grade

Pesquisa de hiperparâmetros

Combate real

Métricas de avaliação para modelos de classificação

matriz de confusão

Taxa de precisão: O resultado da previsão é a proporção de exemplos positivos entre os exemplos positivos (verificação precisa) TP/(TP FP)

Taxa de recall: a proporção de exemplos positivos previstos entre as amostras que são realmente exemplos positivos (pesquisa completa, capacidade de distinguir amostras positivas) TP/(TP FN)

Pontuação F1: reflete a robustez do modelo

TPR, FPR, TNR, FNR, curva ROC, valor AUC

A precisão pode ser entendida como o número de classificações corretas em todos os experimentos

Algoritmo de classificação Naive Bayes

Fórmula

Exemplo

Suavização laplaciana

Obtemos uma probabilidade de entretenimento de 0, o que não é razoável

Fórmula

α é o coeficiente especificado, que geralmente é 1, e m é o número de palavras características contadas no documento de treinamento.

Vantagens e desvantagens

vantagem

O modelo Naive Bayes originou-se da teoria matemática clássica e possui eficiência de classificação estável.

Não é muito sensível a dados perdidos e o algoritmo é relativamente simples. É frequentemente usado para classificação de texto.

Alta precisão de classificação e velocidade rápida

deficiência

É necessário conhecer a probabilidade a priori P(F1,F2,…|C), então em algum momento o efeito de predição será ruim devido ao modelo a priori assumido: se os artigos não forem bem coletados, por exemplo, há trapaça artigos cheios de certas palavras interferirão nos resultados

Combate real

Pré-processamento de dados

Previsão e avaliação do modelo

Algoritmo de classificação de árvore de decisão

entropia de informação

A árvore de decisão é dividida com base no ganho de informação.

Caso ID3

Algoritmos comuns

ID3

O critério para maximizar o ganho de informação

Entenda do ponto de vista extremo: se houver apenas uma categoria adicionada a um determinado recurso, então o ganho de informação é zero, e iremos deletar esse recurso

Desvantagens: Quando os valores de entropia são semelhantes, dois recursos são multiplicados por 1/2 e três recursos são multiplicados por 1/3, portanto o ganho é grande. Portanto, o algoritmo ID3 prefere recursos com um número relativamente grande de recursos.

C4.5

Critério máximo da relação de ganho de informação

CARRINHO

Árvore de classificação: critério mínimo do coeficiente de Gini

Se o empréstimo está em atraso

dados

Dividido de acordo com a disponibilidade de moradia

De acordo com o casamento

De acordo com a renda anual

Os restantes atributos continuam divididos

árvore de decisão final

Resumo dos tipos comuns de árvores de decisão

Vantagens e desvantagens:

vantagem

1. Compreensão e explicação simples, visualização em árvore. 2. Requer pouca preparação de dados, outras técnicas geralmente requerem normalização e padronização de dados

deficiência

1. Totalmente desenvolvida, a árvore é muito complexa e fácil de ajustar demais. 2. As árvores de decisão podem ser instáveis porque pequenas alterações nos dados podem causar a geração de árvores completamente diferentes.

formas de melhorar

poda de carrinho

pré-poda

(1) O número mínimo de amostras contidas em cada nó, como 10. Se o número total de amostras no nó for inferior a 10, nenhuma classificação será realizada.

(2) Especifique a altura ou profundidade da árvore, por exemplo, a profundidade máxima da árvore é 4;

(3) Se a entropia do nó especificado for inferior a um determinado valor, ele não será mais dividido.

pós-poda

Execute a poda na árvore de decisão de overfitting gerada para obter uma versão simplificada da árvore de decisão podada.

Projeto de previsão de sobrevivência do Titanic

Lidar com valores ausentes e dividir dados

Converta texto em vetores e depois modele a previsão

Método de aprendizagem de conjunto - floresta aleatória

Uma floresta aleatória é um classificador que contém múltiplas árvores de decisão e sua categoria de saída é determinada pelo modo de saída da categoria pelas árvores individuais.

Etapas principais no processo de construção de floresta aleatória (use N para representar o número de casos de treinamento (amostras), M para representar o número de recursos): 1) Selecione aleatoriamente uma amostra de cada vez, amostragem com reposição, repita N vezes (podem ocorrer amostras duplicadas) 2) Selecione aleatoriamente m recursos, m <<M, e construa uma árvore de decisão

processo de configuração

1. Por que fazer uma amostragem aleatória do conjunto de treinamento? Se a amostragem aleatória não for realizada e o conjunto de treinamento de cada árvore for o mesmo, os resultados finais da classificação da árvore treinada serão exatamente os mesmos. 2. Por que é necessária a amostragem com reposição? Se não houver amostragem com reposição, então as amostras de treinamento de cada árvore são diferentes e não possuem interseção. Dessa forma, cada árvore é "tendenciosa" e absolutamente "unilateral" (é claro que é possível dizer isso errado). , ou seja, cada árvore é muito diferente após o treinamento e a classificação final da floresta aleatória depende da votação de múltiplas árvores (classificadores fracos);

vantagem

1 tem excelente precisão entre todos os algoritmos atuais 2. Capaz de funcionar de forma eficaz em grandes conjuntos de dados 3. Capaz de processar amostras de entrada com recursos de alta dimensão sem exigir redução de dimensionalidade. 4. Capacidade de avaliar a importância de cada característica em problemas de classificação 5. Bons resultados também podem ser obtidos para problemas de valor padrão.

Código real

Pacote de guia 3

Análise de regressão linear de algoritmo de regressão

Definição: A regressão linear é uma análise de regressão que modela a relação entre uma ou mais variáveis independentes e uma variável dependente. que é caracterizado por uma combinação linear de um ou mais parâmetros do modelo chamados coeficientes de regressão

Fórmula

função de perda

Diagrama visual

Método de solução: Como encontrar W no modelo para minimizar a perda? (O objetivo é encontrar o valor W correspondente à perda mínima, este é o ponto chave)

equação normal

Processo de derivação (𝑋 é a matriz de autovalores, 𝑦 é a matriz de valores alvo )

Desvantagens: 1. Quando os recursos são muito complexos, a velocidade da solução é muito lenta. 2. Às vezes, a transposta de X multiplicada pela matriz inversa de X não está disponível e não pode ser resolvida.

Previsão de retorno do preço das casas em Boston na prática

Pré-processamento de dados

Predição Lr=LinearRegression()

Gradiente descendente

Fórmula de gradiente descendente (w = w1-taxa de aprendizagem * derivada da perda em relação a w)

taxa de Aprendizagem

é um hiperparâmetro, ajuste-o para obter a perda mínima

processo de descida

Previsão de retorno do preço das casas em Boston na prática

sgd = SGDRegressor(eta0=0,008) previsão

Existem muitos parâmetros para descida gradiente estocástica. Apenas os parâmetros comuns são listados aqui. A penalidade é a penalidade, dividida em L1 e L2, taxa de aprendizagem learning_rate e força de regularização alfa.

Alguns pontos de conhecimento

SGD significa Stochastic Gradient Descent: e atualiza o modelo à medida que o cronograma de intensidade (ou seja, a taxa de aprendizagem) diminui.

O regularizador é uma penalidade na função de perda

A regularização L1 produz pesos esparsos, A regularização L1 tende a ser esparsa. Ela realizará automaticamente a seleção de recursos e removerá alguns recursos inúteis, ou seja, redefinirá os pesos correspondentes a esses recursos para 0. Evitará o overfitting.

A principal função de L2 é evitar o sobreajuste. Quando os parâmetros necessários são menores (os parâmetros são coeficientes de termos de ordem superior), os coeficientes de termos de ordem superior são menores e os termos de ordem superior estão mais próximos de 0, indicando que o. o modelo é mais simples, e quanto mais simples o modelo, mais ele tende a ser mais suave, evitando assim o overfitting.

Força de regularização: grande: parâmetros se aproximam de 0, termos de ordem superior se aproximam de 0 Pequeno: as alterações nos parâmetros são pequenas (o peso dos termos de ordem superior não muda)

método de descida gradiente

Algoritmo Gradiente Descendente Completo (FG)

Calcule os erros de todas as amostras do conjunto de treinamento, some-os e tome a média como função objetivo. A descida do gradiente em lote é lenta porque precisamos calcular todos os gradientes em todo o conjunto de dados ao realizar cada atualização. Ao mesmo tempo, a descida do gradiente em lote não pode lidar com conjuntos de dados que excedem o limite de capacidade de memória.

Algoritmo Estocástico de Gradiente Descendente (SG)

A função objetivo de cada rodada de cálculo não é mais o erro de todas as amostras, mas apenas o erro de uma única amostra. Ou seja, apenas o gradiente da função objetivo de uma amostra é calculado a cada vez para atualizar o peso, e então. a próxima amostra é coletada e o processo é repetido até que o valor da função de perda interrompa o declínio ou o valor da função de perda seja menor que algum limite tolerável. Este processo é simples e eficiente e geralmente pode evitar melhor que as iterações de atualização convirjam para a solução ideal local.

Regressão de cume

A regressão Ridge é uma versão regularizada da regressão linear, ou seja, adicionando termos regulares à função de custo da regressão linear original (ou seja, regressão linear com regularização l2)

Fórmula

Código real

Regressão Lasso(Regressão Lasso)

A regressão Lasso é uma regressão linear com regularização L1

Fórmula

Como escolher o algoritmo de aprendizado de máquina certo

A razão para o underfitting: menos características dos dados são aprendidas. Solução: Aumente o número de recursos dos dados.

Causas e soluções para overfitting

razão: Existem muitos recursos originais e alguns recursos barulhentos. O modelo é muito complexo porque tenta levar em conta pontos de dados de teste individuais

Solução: Realize a seleção de recursos e elimine recursos altamente relevantes (difíceis de fazer) Validação cruzada (deixe todos os dados serem treinados) Regularização (compreensão)

Algoritmo de Classificação - Regressão Logística

Só pode resolver problemas de classificação 2. Para resolver problemas de classificação múltipla, requer classificação contínua de 2 pontos.

função de ativação

função sigmóide

Fórmula da função (z é o resultado da regressão)

Saída: valor de probabilidade no intervalo [0,1], padrão 0,5 como limite

função de perda de custo

Processo de cálculo 1

Derivada da função de perda de custo em relação a w

O processo de derivação

Descida gradiente para encontrar o w ideal

Fórmula de gradiente descendente

O processo de gradiente descendente obtém gradualmente a linha divisória ideal

Combate prático - regressão logística para classificação binária para previsão de câncer

Pré-processamento de dados

Previsão do modelo

resultado

modelos discriminativos e generativos

Aprendizagem não supervisionada - análise de cluster

k-significa

Princípios básicos do algoritmo

Métricas de avaliação de desempenho Kmeans

Coeficiente de contorno

Explicação do coeficiente de silhueta

1. Se 〖𝑠𝑐〗_ responsável for menor que 0, significa que a distância média de 𝑎_ responsável é maior que os outros clusters mais próximos. O efeito de agrupamento não é bom 2. Se 〖𝑠𝑐〗_ responsável for maior, significa que a distância média de 𝑎_ responsável é menor que os outros clusters mais próximos. Bom efeito de agrupamento 3. O valor do coeficiente de silhueta está entre [-1,1]. Quanto mais próximo estiver de 1, melhor será a coesão e a separação.

Análise prática de cluster de usuários de combate-Taobao

Ler tabelas, mesclar tabelas

Faça uma tabela cruzada de ID do usuário e ID do produto

Redução da dimensionalidade da análise de componentes principais do PCA

modelo de agrupamento

Agrupamento de resultados

Cálculo do coeficiente de silhueta

Método de detecção de valores discrepantes

Desenhar gráfico de caixa

princípio

Pontuação Z

princípio

DBSCAN

Todos os pontos de dados são definidos como pontos centrais (Core Points), pontos de fronteira (Border Points) ou pontos de ruído e, em seguida, agrupados

Floresta de Isolamento|Floresta de Isolamento

São necessárias menos divisões para isolar valores discrepantes do que para isolar valores discrepantes, ou seja, valores discrepantes têm números de isolamento mais baixos em comparação com pontos não discrepantes. Portanto, um ponto de dados é definido como outlier se o seu número de órfãos estiver abaixo do limite.

Aprendizagem em conjunto

Definição: Unificar os resultados dos classificadores básicos em uma decisão final

Classificação

Impulsionando (série)

A previsão do próximo classificador base depende da saída do classificador base anterior

O método Boosting usa um método serial para treinar classificadores básicos e há dependências entre cada classificador base. Sua ideia básica é empilhar classificadores base camada por camada. Durante o treinamento, cada camada atribui maior peso às amostras que foram classificadas incorretamente pelo classificador base da camada anterior. Durante os testes, o resultado final é obtido com base na ponderação dos resultados de cada camada de classificadores.

Ensacamento (paralelo)

Não há forte dependência entre os classificadores base e eles podem ser treinados em paralelo. Por exemplo, uma floresta aleatória baseada em um classificador baseado em árvore de decisão. Para tornar os classificadores base independentes entre si, o conjunto de treinamento é dividido em vários subconjuntos (quando o número de amostras de treinamento é pequeno, pode haver sobreposição entre os subconjuntos). É mais como um processo coletivo de tomada de decisão. Cada indivíduo aprende individualmente. O conteúdo de aprendizagem pode ser o mesmo, diferente ou parcialmente sobreposto. No entanto, devido às diferenças entre os indivíduos, os julgamentos finais não serão completamente consistentes. No processo de tomada de decisão final, cada indivíduo faz um julgamento individualmente e, em seguida, a decisão coletiva final é tomada através de votação.

Compreender as diferenças entre os métodos Boosting e Bagging na perspectiva de eliminar o viés e a variância do classificador base

O erro do classificador base é a soma dos erros de polarização e variância. O viés se deve principalmente a erros sistemáticos causados pela capacidade expressiva limitada do classificador, que se manifesta na não convergência do erro de treinamento. A variância se deve ao fato de o classificador ser muito sensível à distribuição da amostra, resultando em overfitting quando o número de amostras de treinamento é pequeno.

desvio

O viés refere-se ao desvio entre o resultado médio do modelo treinado e o resultado do modelo real. O erro causado pelo viés geralmente se reflete no erro de treinamento.

variação

A variância refere-se à variância da saída de todos os modelos treinados a partir de todos os conjuntos de dados de treinamento amostrados de tamanho m. A variância geralmente é causada pela complexidade do modelo ser muito alta em relação ao número de amostras de treinamento m. O erro causado pela variância geralmente se reflete no incremento do erro de teste em relação ao erro de treinamento. As previsões de baixa variância têm um bom agrupamento de valores

Exemplo de modelo de filmagem

Suponha que uma tomada seja o modelo fazendo uma previsão em uma amostra. Acertar a posição do alvo significa que a previsão é precisa e, quanto mais se desviar do alvo, maior será o erro de previsão.

No canto superior esquerdo, os resultados dos disparos são precisos e concentrados, indicando que o viés e a variância do modelo são muito pequenos; Embora o centro dos resultados do disparo na imagem superior direita esteja ao redor do alvo, a distribuição é relativamente dispersa, indicando que o modelo tem um pequeno desvio, mas uma grande variância; A figura inferior esquerda mostra que a variância do modelo é pequena e o desvio é grande; A imagem no canto inferior direito mostra que o modelo possui uma grande variância e um grande desvio.

A relação entre erro de generalização, viés, variância e complexidade do modelo

O método Boosting reduz o viés do classificador integrado concentrando-se gradualmente nas amostras que foram classificadas incorretamente pelo classificador base.

O método Bagging adota uma estratégia de dividir e conquistar para reduzir a variância do classificador integrado, amostrando amostras de treinamento várias vezes, treinando vários modelos diferentes separadamente e, em seguida, sintetizando-os.

Diagrama de ensacamento

O Modelo 1, o Modelo 2 e o Modelo 3 são todos treinados usando um subconjunto do conjunto de treinamento. Vistos individualmente, seus limites de decisão são muito tortuosos e tendem a se ajustar demais. O limite de decisão do modelo integrado (mostrado pela linha vermelha) é mais suave do que o de cada modelo independente. Isso se deve ao método de votação ponderada integrada, que reduz a variância.

Etapas básicas de aprendizagem em conjunto

(1) Encontre um classificador base cujos erros sejam independentes um do outro. (2) Treine o classificador base. (3) Mesclar os resultados dos classificadores base. Existem dois métodos de mesclagem de classificadores básicos: votação e empilhamento.

Exemplo

Adaboost

Selecione a árvore de decisão ID3 como classificador base A razão é: o modelo em árvore tem uma estrutura simples e é propenso à aleatoriedade, então Mais comumente usado

Para amostras classificadas corretamente, o peso é reduzido, e para amostras classificadas incorretamente, o peso é aumentado ou mantido inalterado. No processo final de fusão de modelos, os classificadores base também são ponderados e fundidos de acordo com a taxa de erro. Classificadores com baixas taxas de erro têm maior “direito de falar”

Árvore de decisão de aumento de gradiente GBDT

idéia principal

Treine um novo classificador fraco com base no gradiente negativo da função de perda do modelo e, em seguida, combine os classificadores fracos treinados no modelo existente de forma cumulativa (ou seja, use resíduos para treinamento)

Exemplo

Os sites de vídeo precisam prever a idade de cada usuário. As características incluem a duração da visita da pessoa, período de tempo, tipos de vídeos assistidos, etc. Por exemplo, a idade real do usuário A é de 25 anos, mas a idade prevista da primeira árvore de decisão é de 22 anos, o que representa uma diferença de 3 anos, ou seja, o residual é de 3 anos. Então, na segunda árvore, definimos a idade de A como 3 anos para aprender. Se a segunda árvore pode dividir A em um nó folha de 3 anos, então os resultados das duas árvores podem ser somados para obter a verdadeira idade de A. ; Se a conclusão da segunda árvore tiver 5 anos, então A ainda tem um resíduo de −2 anos, e a idade de A na terceira árvore passa a ser −2 anos e continua aprendendo. Por fim, some os resultados. O uso de resíduos para continuar aprendendo aqui é o que significa Gradient Boosted no GBDT.

XGBoost

O GBDT original constrói uma nova árvore de decisão com base no gradiente negativo da função de perda empírica e somente remove após a construção da árvore de decisão. XGBoost adiciona termos regulares na fase de construção da árvore de decisão. Comparado ao GBDT, o XGBoost também fez muitas otimizações na implementação de engenharia.

Classificadores básicos comumente usados

árvore de decisão

Existem principalmente três razões. (1) As árvores de decisão podem integrar mais facilmente o peso das amostras no processo de treinamento. (2) A capacidade de expressão e generalização da árvore de decisão pode ser comprometida ajustando o número de camadas da árvore. (3) A perturbação das amostras de dados tem um impacto maior na árvore de decisão, de modo que o classificador base da árvore de decisão gerado por diferentes conjuntos de subamostras é mais aleatório. Esse "aluno instável" é mais adequado como classificador base. Além disso, quando o nó da árvore de decisão é dividido, um subconjunto de recursos é selecionado aleatoriamente para encontrar o atributo de divisão ideal, o que introduz bem a aleatoriedade.

modelo de rede neural

Como o modelo de rede neural também é relativamente “instável”, Além disso, a aleatoriedade também pode ser introduzida ajustando o número de neurônios, métodos de conexão, número de camadas de rede, pesos iniciais, etc.

problema comum

É possível substituir o classificador base na floresta aleatória da árvore de decisão para o classificador linear ou K-vizinho mais próximo?

Não pode. A floresta aleatória pertence à classe de aprendizado em conjunto. O principal benefício do bagging é que a variância do classificador integrado é menor que a variância do classificador base. O classificador base utilizado no ensacamento deve preferencialmente ser aquele que seja sensível à distribuição da amostra (o chamado classificador instável), para que o ensacamento possa ser útil. Classificadores lineares ou K-vizinhos mais próximos são classificadores relativamente estáveis e suas variações não são grandes.

Quais são as vantagens e limitações do GBDT?

vantagem (1) A velocidade de cálculo na fase de previsão é rápida. (2) Em conjuntos de dados densamente distribuídos, a capacidade de generalização e a capacidade de expressão são muito boas, o que torna o GBDT frequentemente no topo da lista em muitas competições Kaggle. (3) O uso de árvores de decisão como classificadores fracos faz com que o modelo GBDT tenha melhor interpretabilidade e robustez, possa descobrir automaticamente relacionamentos de alta ordem entre recursos e não exija pré-processamento especial de dados, como normalização, etc.

limitações (1) O desempenho do GBDT é pior do que máquinas de vetores de suporte ou redes neurais em conjuntos de dados esparsos de alta dimensão. (2) O GBDT não tem vantagens óbvias ao lidar com problemas de recursos de classificação de texto. (3) O processo de treinamento requer treinamento em série, e alguns métodos paralelos locais só podem ser usados dentro da árvore de decisão para melhorar a velocidade do treinamento.

A diferença entre aumento de gradiente e descida de gradiente

No gradiente descendente, o modelo é representado de forma parametrizada, de forma que a atualização do modelo equivale à atualização dos parâmetros.

No aumento de gradiente, o modelo não precisa ser parametrizado, mas é definido diretamente no espaço funcional, o que amplia muito os tipos de modelos que podem ser utilizados, para que diferentes modelos possam ser combinados, como GBDT

Por que os modelos de aprendizagem em conjunto podem melhorar a precisão

Princípio de cálculo de votação

Aprendizagem integrada na prática

Gerar dados

make_moons (y tem dois rótulos 0,1)

divisão de dados

dividir

Regressão logística, SVC e árvore de decisão classificam e prevêem respectivamente e depois votam

Classificador de votação de aprendizagem integrada

votação dura e votação suave

Use ensacamento, design oob (teste usando dados não obtidos), njobs define o núcleo (n_jobs=-1 treinamento multi-core melhora a eficiência)

bootstrap_features seleciona alguns recursos, Comparado com floresta aleatória

Extra-Trees árvores aleatórias extremas

As árvores de decisão usam recursos aleatórios e limites aleatórios para dividir os nós. Fornece aleatoriedade adicional, inibe o overfitting, mas aumenta o viés ---- reduz a variância e aumenta o viés Tenha velocidade de treinamento mais rápida

BoostingSerial

AdaBoost GBDT