Galeria de mapas mentais Resumo dos pontos de conhecimento de aprendizado de máquina de inteligência artificial do sklearn (com ilustrações práticas de código)
Um resumo dos pontos práticos de conhecimento de aprendizado de máquina baseados no sklearn, incluindo código prático e diagramas de resultados escritos pelo autor, que podem ser usados para aprendizado, revisão de entrevistas e uso avançado.
Editado em 2022-03-20 14:40:39Il s'agit d'une carte mentale sur les anévrismes intracrâniens, avec le contenu principal, notamment: le congé, l'évaluation d'admission, les mesures infirmières, les mesures de traitement, les examens auxiliaires, les manifestations cliniques et les définitions.
Il s'agit d'une carte mentale sur l'entretien de comptabilité des coûts, le principal contenu comprend: 5. Liste des questions d'entrevue recommandées, 4. Compétences de base pour améliorer le taux de réussite, 3. Questions professionnelles, 2. Questions et réponses de simulation de scénarios, 1. Questions et réponses de capacité professionnelle.
Il s'agit d'une carte mentale sur les méthodes de recherche de la littérature, et son contenu principal comprend: 5. Méthode complète, 4. Méthode de traçabilité, 3. Méthode de vérification des points, 2. Méthode de recherche inversée, 1. Méthode de recherche durable.
Il s'agit d'une carte mentale sur les anévrismes intracrâniens, avec le contenu principal, notamment: le congé, l'évaluation d'admission, les mesures infirmières, les mesures de traitement, les examens auxiliaires, les manifestations cliniques et les définitions.
Il s'agit d'une carte mentale sur l'entretien de comptabilité des coûts, le principal contenu comprend: 5. Liste des questions d'entrevue recommandées, 4. Compétences de base pour améliorer le taux de réussite, 3. Questions professionnelles, 2. Questions et réponses de simulation de scénarios, 1. Questions et réponses de capacité professionnelle.
Il s'agit d'une carte mentale sur les méthodes de recherche de la littérature, et son contenu principal comprend: 5. Méthode complète, 4. Méthode de traçabilité, 3. Méthode de vérification des points, 2. Méthode de recherche inversée, 1. Méthode de recherche durable.
aprendizado de máquina
Pacote de guia 1
DictVectorizer
ContarVetorizador
chinês
jieba.cut
particípio gago
Chame a função à esquerda e conte o vetorizador
TF-IDF
A ideia principal do TF-IDF
Se uma palavra ou frase aparecer com alta probabilidade em um artigo, E se raramente aparece em outros artigos, considera-se que esta palavra ou frase possui boa distinção de categorias. A habilidade é adequada para classificação.
Tf: frequência do termo: o número de vezes que a frequência da palavra aparece
idf: frequência inversa do documento frequência inversa do documento =log(número total de documentos do corpus/número de documentos em que a palavra aparece 1)
TF-IDF=tf*idf representa o grau de importância
Normalizado
Recursos: Mapeie os dados para (o padrão é [0,1]) transformando os dados originais
+
Função: a descida do gradiente é mais rápida, a solução ideal é encontrada mais rapidamente e o modelo é treinado mais rapidamente
Desvantagens: facilmente afetado por valores extremos
estandardização
Recursos: Transforme os dados originais em um intervalo com média 0 e desvio padrão de 1 (distribuição normal padrão)
𝑋′= (𝑥−média)/𝜎
Atua em cada coluna, média é a média e 𝜎 é o desvio padrão.
std se torna a variância, 𝜎= √std
Se ocorrerem outliers, devido a uma certa quantidade de dados, um pequeno número de outliers não terá um grande impacto no valor médio, portanto a variância mudará pouco.
Tratamento de valor ausente
Os valores faltantes podem ser preenchidos pela média ou mediana de cada linha ou coluna.
Seleção de recursos
sub tópico
Filtro: Limite de Variância
Remover recursos de baixa variação
var = VarianceThreshold(threshold=0.2) # Exclua aqueles com variação menor que 0,2 dados = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
Incorporado: regularização, árvore de decisão, rede neural
Invólucro (embrulhado)
O método de empacotamento seleciona continuamente subconjuntos de recursos do conjunto de recursos inicial, treina o aluno e avalia os subconjuntos com base no desempenho do aluno até que o melhor subconjunto seja selecionado.
Análise de componentes principais PCA
Objetivo: Compressão da dimensionalidade dos dados, reduzindo ao máximo a dimensionalidade (complexidade) dos dados originais e perdendo uma pequena quantidade de informações
Função: Pode reduzir o número de recursos na análise de regressão ou análise de cluster.
Pacote de guia 2
fit_transform
O teste é fit_transform, o que significa que apenas a média e a variância do teste são usadas no processo de padronização.
teste é transformado, indicando que a média e a variância do trem são utilizadas no processo de padronização.
Projeto KNN-facebook
Pontos de conhecimento
Se o valor k de KNN for muito pequeno, é fácil superajustar.
problema de seleção de valor k
Se for muito grande, o modelo é muito simples e sujeito a ajuste insuficiente.
Se for muito pequeno, o modelo é muito complexo e fácil de ajustar demais.
Erro de aproximação e erro de estimativa:
O erro de aproximação é o erro de treinamento no conjunto de treinamento
O erro de estimativa é o erro de teste no conjunto de teste
Combate real
Formato de dados: row_id x y precisão hora place_id
x y é a coordenada, o tempo é 23234s, o número de segundos desde 1º de janeiro de 1970, place_id é o local
O objetivo é prever para qual loja place_id ir com base em x y
Pré-processamento de dados
Construir modelo KNN
Vantagens e desvantagens
vantagem
Simples e eficaz
A reciclagem é barata
Adequado para amostras cruzadas de domínio de classe
Adequado para classificação automática de amostras grandes
deficiência
aprendizagem preguiçosa
A saída não é muito interpretável
Não é bom em amostras desequilibradas
Muitos de uma categoria e poucos de outras
Seleção e ajuste de modelo
Validação cruzada
Validação cruzada do conjunto de treinamento
pesquisa em grade
Pesquisa de hiperparâmetros
Combate real
Métricas de avaliação para modelos de classificação
matriz de confusão
Taxa de precisão: O resultado da previsão é a proporção de exemplos positivos entre os exemplos positivos (verificação precisa) TP/(TP FP)
Taxa de recall: a proporção de exemplos positivos previstos entre as amostras que são realmente exemplos positivos (pesquisa completa, capacidade de distinguir amostras positivas) TP/(TP FN)
Pontuação F1: reflete a robustez do modelo
TPR, FPR, TNR, FNR, curva ROC, valor AUC
A precisão pode ser entendida como o número de classificações corretas em todos os experimentos
Algoritmo de classificação Naive Bayes
Fórmula
Exemplo
Suavização laplaciana
Obtemos uma probabilidade de entretenimento de 0, o que não é razoável
Fórmula
α é o coeficiente especificado, que geralmente é 1, e m é o número de palavras características contadas no documento de treinamento.
Vantagens e desvantagens
vantagem
O modelo Naive Bayes originou-se da teoria matemática clássica e possui eficiência de classificação estável.
Não é muito sensível a dados perdidos e o algoritmo é relativamente simples. É frequentemente usado para classificação de texto.
Alta precisão de classificação e velocidade rápida
deficiência
É necessário conhecer a probabilidade a priori P(F1,F2,…|C), então em algum momento o efeito de predição será ruim devido ao modelo a priori assumido: se os artigos não forem bem coletados, por exemplo, há trapaça artigos cheios de certas palavras interferirão nos resultados
Combate real
Pré-processamento de dados
Previsão e avaliação do modelo
Algoritmo de classificação de árvore de decisão
entropia de informação
A árvore de decisão é dividida com base no ganho de informação.
Caso ID3
Algoritmos comuns
ID3
O critério para maximizar o ganho de informação
Entenda do ponto de vista extremo: se houver apenas uma categoria adicionada a um determinado recurso, então o ganho de informação é zero, e iremos deletar esse recurso
Desvantagens: Quando os valores de entropia são semelhantes, dois recursos são multiplicados por 1/2 e três recursos são multiplicados por 1/3, portanto o ganho é grande. Portanto, o algoritmo ID3 prefere recursos com um número relativamente grande de recursos.
C4.5
Critério máximo da relação de ganho de informação
CARRINHO
Árvore de classificação: critério mínimo do coeficiente de Gini
Se o empréstimo está em atraso
dados
Dividido de acordo com a disponibilidade de moradia
De acordo com o casamento
De acordo com a renda anual
Os restantes atributos continuam divididos
árvore de decisão final
Resumo dos tipos comuns de árvores de decisão
Vantagens e desvantagens:
vantagem
1. Compreensão e explicação simples, visualização em árvore. 2. Requer pouca preparação de dados, outras técnicas geralmente requerem normalização e padronização de dados
deficiência
1. Totalmente desenvolvida, a árvore é muito complexa e fácil de ajustar demais. 2. As árvores de decisão podem ser instáveis porque pequenas alterações nos dados podem causar a geração de árvores completamente diferentes.
formas de melhorar
poda de carrinho
pré-poda
(1) O número mínimo de amostras contidas em cada nó, como 10. Se o número total de amostras no nó for inferior a 10, nenhuma classificação será realizada.
(2) Especifique a altura ou profundidade da árvore, por exemplo, a profundidade máxima da árvore é 4;
(3) Se a entropia do nó especificado for inferior a um determinado valor, ele não será mais dividido.
pós-poda
Execute a poda na árvore de decisão de overfitting gerada para obter uma versão simplificada da árvore de decisão podada.
Projeto de previsão de sobrevivência do Titanic
Lidar com valores ausentes e dividir dados
Converta texto em vetores e depois modele a previsão
Método de aprendizagem de conjunto - floresta aleatória
Uma floresta aleatória é um classificador que contém múltiplas árvores de decisão e sua categoria de saída é determinada pelo modo de saída da categoria pelas árvores individuais.
Etapas principais no processo de construção de floresta aleatória (use N para representar o número de casos de treinamento (amostras), M para representar o número de recursos): 1) Selecione aleatoriamente uma amostra de cada vez, amostragem com reposição, repita N vezes (podem ocorrer amostras duplicadas) 2) Selecione aleatoriamente m recursos, m <<M, e construa uma árvore de decisão
processo de configuração
1. Por que fazer uma amostragem aleatória do conjunto de treinamento? Se a amostragem aleatória não for realizada e o conjunto de treinamento de cada árvore for o mesmo, os resultados finais da classificação da árvore treinada serão exatamente os mesmos. 2. Por que é necessária a amostragem com reposição? Se não houver amostragem com reposição, então as amostras de treinamento de cada árvore são diferentes e não possuem interseção. Dessa forma, cada árvore é "tendenciosa" e absolutamente "unilateral" (é claro que é possível dizer isso errado). , ou seja, cada árvore é muito diferente após o treinamento e a classificação final da floresta aleatória depende da votação de múltiplas árvores (classificadores fracos);
vantagem
1 tem excelente precisão entre todos os algoritmos atuais 2. Capaz de funcionar de forma eficaz em grandes conjuntos de dados 3. Capaz de processar amostras de entrada com recursos de alta dimensão sem exigir redução de dimensionalidade. 4. Capacidade de avaliar a importância de cada característica em problemas de classificação 5. Bons resultados também podem ser obtidos para problemas de valor padrão.
Código real
Pacote de guia 3
Análise de regressão linear de algoritmo de regressão
Definição: A regressão linear é uma análise de regressão que modela a relação entre uma ou mais variáveis independentes e uma variável dependente. que é caracterizado por uma combinação linear de um ou mais parâmetros do modelo chamados coeficientes de regressão
Fórmula
função de perda
Diagrama visual
Método de solução: Como encontrar W no modelo para minimizar a perda? (O objetivo é encontrar o valor W correspondente à perda mínima, este é o ponto chave)
equação normal
Processo de derivação (𝑋 é a matriz de autovalores, 𝑦 é a matriz de valores alvo )
Desvantagens: 1. Quando os recursos são muito complexos, a velocidade da solução é muito lenta. 2. Às vezes, a transposta de X multiplicada pela matriz inversa de X não está disponível e não pode ser resolvida.
Previsão de retorno do preço das casas em Boston na prática
Pré-processamento de dados
Predição Lr=LinearRegression()
Gradiente descendente
Fórmula de gradiente descendente (w = w1-taxa de aprendizagem * derivada da perda em relação a w)
taxa de Aprendizagem
é um hiperparâmetro, ajuste-o para obter a perda mínima
processo de descida
Previsão de retorno do preço das casas em Boston na prática
sgd = SGDRegressor(eta0=0,008) previsão
Existem muitos parâmetros para descida gradiente estocástica. Apenas os parâmetros comuns são listados aqui. A penalidade é a penalidade, dividida em L1 e L2, taxa de aprendizagem learning_rate e força de regularização alfa.
Alguns pontos de conhecimento
SGD significa Stochastic Gradient Descent: e atualiza o modelo à medida que o cronograma de intensidade (ou seja, a taxa de aprendizagem) diminui.
O regularizador é uma penalidade na função de perda
A regularização L1 produz pesos esparsos, A regularização L1 tende a ser esparsa. Ela realizará automaticamente a seleção de recursos e removerá alguns recursos inúteis, ou seja, redefinirá os pesos correspondentes a esses recursos para 0. Evitará o overfitting.
A principal função de L2 é evitar o sobreajuste. Quando os parâmetros necessários são menores (os parâmetros são coeficientes de termos de ordem superior), os coeficientes de termos de ordem superior são menores e os termos de ordem superior estão mais próximos de 0, indicando que o. o modelo é mais simples, e quanto mais simples o modelo, mais ele tende a ser mais suave, evitando assim o overfitting.
Força de regularização: grande: parâmetros se aproximam de 0, termos de ordem superior se aproximam de 0 Pequeno: as alterações nos parâmetros são pequenas (o peso dos termos de ordem superior não muda)
método de descida gradiente
Algoritmo Gradiente Descendente Completo (FG)
Calcule os erros de todas as amostras do conjunto de treinamento, some-os e tome a média como função objetivo. A descida do gradiente em lote é lenta porque precisamos calcular todos os gradientes em todo o conjunto de dados ao realizar cada atualização. Ao mesmo tempo, a descida do gradiente em lote não pode lidar com conjuntos de dados que excedem o limite de capacidade de memória.
Algoritmo Estocástico de Gradiente Descendente (SG)
A função objetivo de cada rodada de cálculo não é mais o erro de todas as amostras, mas apenas o erro de uma única amostra. Ou seja, apenas o gradiente da função objetivo de uma amostra é calculado a cada vez para atualizar o peso, e então. a próxima amostra é coletada e o processo é repetido até que o valor da função de perda interrompa o declínio ou o valor da função de perda seja menor que algum limite tolerável. Este processo é simples e eficiente e geralmente pode evitar melhor que as iterações de atualização convirjam para a solução ideal local.
Regressão de cume
A regressão Ridge é uma versão regularizada da regressão linear, ou seja, adicionando termos regulares à função de custo da regressão linear original (ou seja, regressão linear com regularização l2)
Fórmula
Código real
Regressão Lasso(Regressão Lasso)
A regressão Lasso é uma regressão linear com regularização L1
Fórmula
Como escolher o algoritmo de aprendizado de máquina certo
A razão para o underfitting: menos características dos dados são aprendidas. Solução: Aumente o número de recursos dos dados.
Causas e soluções para overfitting
razão: Existem muitos recursos originais e alguns recursos barulhentos. O modelo é muito complexo porque tenta levar em conta pontos de dados de teste individuais
Solução: Realize a seleção de recursos e elimine recursos altamente relevantes (difíceis de fazer) Validação cruzada (deixe todos os dados serem treinados) Regularização (compreensão)
Algoritmo de Classificação - Regressão Logística
Só pode resolver problemas de classificação 2. Para resolver problemas de classificação múltipla, requer classificação contínua de 2 pontos.
função de ativação
função sigmóide
Fórmula da função (z é o resultado da regressão)
Saída: valor de probabilidade no intervalo [0,1], padrão 0,5 como limite
função de perda de custo
Processo de cálculo 1
Derivada da função de perda de custo em relação a w
O processo de derivação
Descida gradiente para encontrar o w ideal
Fórmula de gradiente descendente
O processo de gradiente descendente obtém gradualmente a linha divisória ideal
Combate prático - regressão logística para classificação binária para previsão de câncer
Pré-processamento de dados
Previsão do modelo
resultado
modelos discriminativos e generativos
Aprendizagem não supervisionada - análise de cluster
k-significa
Princípios básicos do algoritmo
Métricas de avaliação de desempenho Kmeans
Coeficiente de contorno
Explicação do coeficiente de silhueta
1. Se 〖𝑠𝑐〗_ responsável for menor que 0, significa que a distância média de 𝑎_ responsável é maior que os outros clusters mais próximos. O efeito de agrupamento não é bom 2. Se 〖𝑠𝑐〗_ responsável for maior, significa que a distância média de 𝑎_ responsável é menor que os outros clusters mais próximos. Bom efeito de agrupamento 3. O valor do coeficiente de silhueta está entre [-1,1]. Quanto mais próximo estiver de 1, melhor será a coesão e a separação.
Análise prática de cluster de usuários de combate-Taobao
Ler tabelas, mesclar tabelas
Faça uma tabela cruzada de ID do usuário e ID do produto
Redução da dimensionalidade da análise de componentes principais do PCA
modelo de agrupamento
Agrupamento de resultados
Cálculo do coeficiente de silhueta
Método de detecção de valores discrepantes
Desenhar gráfico de caixa
princípio
Pontuação Z
princípio
DBSCAN
Todos os pontos de dados são definidos como pontos centrais (Core Points), pontos de fronteira (Border Points) ou pontos de ruído e, em seguida, agrupados
Floresta de Isolamento|Floresta de Isolamento
São necessárias menos divisões para isolar valores discrepantes do que para isolar valores discrepantes, ou seja, valores discrepantes têm números de isolamento mais baixos em comparação com pontos não discrepantes. Portanto, um ponto de dados é definido como outlier se o seu número de órfãos estiver abaixo do limite.
Aprendizagem em conjunto
Definição: Unificar os resultados dos classificadores básicos em uma decisão final
Classificação
Impulsionando (série)
A previsão do próximo classificador base depende da saída do classificador base anterior
O método Boosting usa um método serial para treinar classificadores básicos e há dependências entre cada classificador base. Sua ideia básica é empilhar classificadores base camada por camada. Durante o treinamento, cada camada atribui maior peso às amostras que foram classificadas incorretamente pelo classificador base da camada anterior. Durante os testes, o resultado final é obtido com base na ponderação dos resultados de cada camada de classificadores.
Ensacamento (paralelo)
Não há forte dependência entre os classificadores base e eles podem ser treinados em paralelo. Por exemplo, uma floresta aleatória baseada em um classificador baseado em árvore de decisão. Para tornar os classificadores base independentes entre si, o conjunto de treinamento é dividido em vários subconjuntos (quando o número de amostras de treinamento é pequeno, pode haver sobreposição entre os subconjuntos). É mais como um processo coletivo de tomada de decisão. Cada indivíduo aprende individualmente. O conteúdo de aprendizagem pode ser o mesmo, diferente ou parcialmente sobreposto. No entanto, devido às diferenças entre os indivíduos, os julgamentos finais não serão completamente consistentes. No processo de tomada de decisão final, cada indivíduo faz um julgamento individualmente e, em seguida, a decisão coletiva final é tomada através de votação.
Compreender as diferenças entre os métodos Boosting e Bagging na perspectiva de eliminar o viés e a variância do classificador base
O erro do classificador base é a soma dos erros de polarização e variância. O viés se deve principalmente a erros sistemáticos causados pela capacidade expressiva limitada do classificador, que se manifesta na não convergência do erro de treinamento. A variância se deve ao fato de o classificador ser muito sensível à distribuição da amostra, resultando em overfitting quando o número de amostras de treinamento é pequeno.
desvio
O viés refere-se ao desvio entre o resultado médio do modelo treinado e o resultado do modelo real. O erro causado pelo viés geralmente se reflete no erro de treinamento.
variação
A variância refere-se à variância da saída de todos os modelos treinados a partir de todos os conjuntos de dados de treinamento amostrados de tamanho m. A variância geralmente é causada pela complexidade do modelo ser muito alta em relação ao número de amostras de treinamento m. O erro causado pela variância geralmente se reflete no incremento do erro de teste em relação ao erro de treinamento. As previsões de baixa variância têm um bom agrupamento de valores
Exemplo de modelo de filmagem
Suponha que uma tomada seja o modelo fazendo uma previsão em uma amostra. Acertar a posição do alvo significa que a previsão é precisa e, quanto mais se desviar do alvo, maior será o erro de previsão.
No canto superior esquerdo, os resultados dos disparos são precisos e concentrados, indicando que o viés e a variância do modelo são muito pequenos; Embora o centro dos resultados do disparo na imagem superior direita esteja ao redor do alvo, a distribuição é relativamente dispersa, indicando que o modelo tem um pequeno desvio, mas uma grande variância; A figura inferior esquerda mostra que a variância do modelo é pequena e o desvio é grande; A imagem no canto inferior direito mostra que o modelo possui uma grande variância e um grande desvio.
A relação entre erro de generalização, viés, variância e complexidade do modelo
O método Boosting reduz o viés do classificador integrado concentrando-se gradualmente nas amostras que foram classificadas incorretamente pelo classificador base.
O método Bagging adota uma estratégia de dividir e conquistar para reduzir a variância do classificador integrado, amostrando amostras de treinamento várias vezes, treinando vários modelos diferentes separadamente e, em seguida, sintetizando-os.
Diagrama de ensacamento
O Modelo 1, o Modelo 2 e o Modelo 3 são todos treinados usando um subconjunto do conjunto de treinamento. Vistos individualmente, seus limites de decisão são muito tortuosos e tendem a se ajustar demais. O limite de decisão do modelo integrado (mostrado pela linha vermelha) é mais suave do que o de cada modelo independente. Isso se deve ao método de votação ponderada integrada, que reduz a variância.
Etapas básicas de aprendizagem em conjunto
(1) Encontre um classificador base cujos erros sejam independentes um do outro. (2) Treine o classificador base. (3) Mesclar os resultados dos classificadores base. Existem dois métodos de mesclagem de classificadores básicos: votação e empilhamento.
Exemplo
Adaboost
Selecione a árvore de decisão ID3 como classificador base A razão é: o modelo em árvore tem uma estrutura simples e é propenso à aleatoriedade, então Mais comumente usado
Para amostras classificadas corretamente, o peso é reduzido, e para amostras classificadas incorretamente, o peso é aumentado ou mantido inalterado. No processo final de fusão de modelos, os classificadores base também são ponderados e fundidos de acordo com a taxa de erro. Classificadores com baixas taxas de erro têm maior “direito de falar”
Árvore de decisão de aumento de gradiente GBDT
idéia principal
Treine um novo classificador fraco com base no gradiente negativo da função de perda do modelo e, em seguida, combine os classificadores fracos treinados no modelo existente de forma cumulativa (ou seja, use resíduos para treinamento)
Exemplo
Os sites de vídeo precisam prever a idade de cada usuário. As características incluem a duração da visita da pessoa, período de tempo, tipos de vídeos assistidos, etc. Por exemplo, a idade real do usuário A é de 25 anos, mas a idade prevista da primeira árvore de decisão é de 22 anos, o que representa uma diferença de 3 anos, ou seja, o residual é de 3 anos. Então, na segunda árvore, definimos a idade de A como 3 anos para aprender. Se a segunda árvore pode dividir A em um nó folha de 3 anos, então os resultados das duas árvores podem ser somados para obter a verdadeira idade de A. ; Se a conclusão da segunda árvore tiver 5 anos, então A ainda tem um resíduo de −2 anos, e a idade de A na terceira árvore passa a ser −2 anos e continua aprendendo. Por fim, some os resultados. O uso de resíduos para continuar aprendendo aqui é o que significa Gradient Boosted no GBDT.
XGBoost
O GBDT original constrói uma nova árvore de decisão com base no gradiente negativo da função de perda empírica e somente remove após a construção da árvore de decisão. XGBoost adiciona termos regulares na fase de construção da árvore de decisão. Comparado ao GBDT, o XGBoost também fez muitas otimizações na implementação de engenharia.
Classificadores básicos comumente usados
árvore de decisão
Existem principalmente três razões. (1) As árvores de decisão podem integrar mais facilmente o peso das amostras no processo de treinamento. (2) A capacidade de expressão e generalização da árvore de decisão pode ser comprometida ajustando o número de camadas da árvore. (3) A perturbação das amostras de dados tem um impacto maior na árvore de decisão, de modo que o classificador base da árvore de decisão gerado por diferentes conjuntos de subamostras é mais aleatório. Esse "aluno instável" é mais adequado como classificador base. Além disso, quando o nó da árvore de decisão é dividido, um subconjunto de recursos é selecionado aleatoriamente para encontrar o atributo de divisão ideal, o que introduz bem a aleatoriedade.
modelo de rede neural
Como o modelo de rede neural também é relativamente “instável”, Além disso, a aleatoriedade também pode ser introduzida ajustando o número de neurônios, métodos de conexão, número de camadas de rede, pesos iniciais, etc.
problema comum
É possível substituir o classificador base na floresta aleatória da árvore de decisão para o classificador linear ou K-vizinho mais próximo?
Não pode. A floresta aleatória pertence à classe de aprendizado em conjunto. O principal benefício do bagging é que a variância do classificador integrado é menor que a variância do classificador base. O classificador base utilizado no ensacamento deve preferencialmente ser aquele que seja sensível à distribuição da amostra (o chamado classificador instável), para que o ensacamento possa ser útil. Classificadores lineares ou K-vizinhos mais próximos são classificadores relativamente estáveis e suas variações não são grandes.
Quais são as vantagens e limitações do GBDT?
vantagem (1) A velocidade de cálculo na fase de previsão é rápida. (2) Em conjuntos de dados densamente distribuídos, a capacidade de generalização e a capacidade de expressão são muito boas, o que torna o GBDT frequentemente no topo da lista em muitas competições Kaggle. (3) O uso de árvores de decisão como classificadores fracos faz com que o modelo GBDT tenha melhor interpretabilidade e robustez, possa descobrir automaticamente relacionamentos de alta ordem entre recursos e não exija pré-processamento especial de dados, como normalização, etc.
limitações (1) O desempenho do GBDT é pior do que máquinas de vetores de suporte ou redes neurais em conjuntos de dados esparsos de alta dimensão. (2) O GBDT não tem vantagens óbvias ao lidar com problemas de recursos de classificação de texto. (3) O processo de treinamento requer treinamento em série, e alguns métodos paralelos locais só podem ser usados dentro da árvore de decisão para melhorar a velocidade do treinamento.
A diferença entre aumento de gradiente e descida de gradiente
No gradiente descendente, o modelo é representado de forma parametrizada, de forma que a atualização do modelo equivale à atualização dos parâmetros.
No aumento de gradiente, o modelo não precisa ser parametrizado, mas é definido diretamente no espaço funcional, o que amplia muito os tipos de modelos que podem ser utilizados, para que diferentes modelos possam ser combinados, como GBDT
Por que os modelos de aprendizagem em conjunto podem melhorar a precisão
Princípio de cálculo de votação
Aprendizagem integrada na prática
Gerar dados
make_moons (y tem dois rótulos 0,1)
divisão de dados
dividir
Regressão logística, SVC e árvore de decisão classificam e prevêem respectivamente e depois votam
Classificador de votação de aprendizagem integrada
votação dura e votação suave
Use ensacamento, design oob (teste usando dados não obtidos), njobs define o núcleo (n_jobs=-1 treinamento multi-core melhora a eficiência)
bootstrap_features seleciona alguns recursos, Comparado com floresta aleatória
Extra-Trees árvores aleatórias extremas
As árvores de decisão usam recursos aleatórios e limites aleatórios para dividir os nós. Fornece aleatoriedade adicional, inibe o overfitting, mas aumenta o viés ---- reduz a variância e aumenta o viés Tenha velocidade de treinamento mais rápida
BoostingSerial
AdaBoost GBDT