Galeria de mapas mentais Análise e mineração de Big Data - Plano de aula experimental Árvore de decisão e análise de regressão
Este é um artigo sobre análise e mineração de big data - plano de aula experimental: mapa mental da árvore de decisão e análise de regressão. O conteúdo principal inclui: 4. Resumo (cerca de 1 minuto), 3. Análise de regressão (cerca de 6 minutos), 2. Árvore de decisão (cerca de 6 minutos), 1. Introdução ao cenário (cerca de 2 minutos).
Editado em 2024-11-23 00:43:18A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
Análise e mineração de Big Data - Plano de aula experimental: Árvore de decisão e análise de regressão
1. Introdução ao cenário (cerca de 2 minutos)
Introdução ao cenário: Faça uma pergunta prática, como: Como um banco prevê o risco de inadimplência do empréstimo com base nas informações do cliente? Como as plataformas de comércio eletrônico recomendam produtos com base no comportamento do usuário? Descubra a importância de métodos comuns de mineração de dados.
Apresentando o tópico: Hoje estudamos principalmente dois métodos comuns em mineração de dados: árvore de decisão e análise de regressão.
2. Árvore de decisão (cerca de 6 minutos)
O significado da árvore de decisão (cerca de 1 minuto):
Definição: Uma árvore de decisão é uma estrutura em árvore que orienta o processo de tomada de decisão por meio de uma série de questões ou condições.
Explicação visual: Pode ser comparada ao processo de tomada de decisão na nossa vida quotidiana, onde a decisão é finalmente tomada através de camadas de triagem.
A árvore de decisão é como uma “árvore guia” sábia. Ela fica na floresta de dados e nos ajuda a orientar a direção e encontrar as respostas que desejamos. Imagine que você está em uma encruzilhada desconhecida e deseja ir para um destino específico, mas não sabe para onde ir. Neste momento, se uma “árvore-guia” aparecer na sua frente, o que ela fará?
Componentes de uma árvore de decisão (cerca de 1,5 minutos):
(1) Nó de decisão: O nó que determina a próxima ramificação.
(2) Ramificação do plano: A ramificação do nó de decisão representa diferentes planos de decisão.
(3) Nó de status: Um nó que representa o resultado ou status da decisão, que pode ser um resultado intermediário ou um resultado final.
(4) Ramo de probabilidade: conecta nós de estado e representa a probabilidade de ocorrência de diferentes estados.
Etapas de construção da árvore de decisão (cerca de 1 minuto):
O primeiro passo é desenhar um diagrama em árvore e organizar cada esquema e os vários estados naturais de cada esquema de acordo com as condições conhecidas.
Na segunda etapa, marque a probabilidade e o valor de lucros e perdas de cada estado no ramo de probabilidade.
O terceiro passo é calcular o valor esperado de cada plano e marcá-lo no nó de estado correspondente ao plano.
O quarto passo é realizar a poda (a poda é uma das formas de interromper a ramificação em uma árvore de decisão. Para evitar overfitting, a árvore gerada precisa ser podada para remover alguns nós desnecessários), comparar os valores esperados de cada solução e marque-a no ramo do plano, e o último plano restante com um valor esperado pequeno (ou seja, eliminando planos inferiores) é o melhor plano.
Vantagens e desvantagens das árvores de decisão (cerca de 0,5 minutos):
Vantagens: Intuitivo, fácil de entender, altamente interpretável e pode lidar com dados numéricos e categóricos.
Desvantagens: propenso a overfitting, sensível a outliers, falta de suavidade e tendência à seleção de recursos com mais autovalores.
Em aplicações práticas, é necessário escolher se deseja utilizar árvores de decisão e como otimizá-las com base em cenários e necessidades específicas.
O escopo de aplicação e métodos comuns de árvores de decisão (cerca de 2 minutos):
Âmbito de aplicação: Adequado para problemas de classificação e previsão, especialmente quando a seleção de recursos é clara e o tamanho dos dados é moderado.
Métodos comumente usados:
1. Árvore C&R (Árvore de Classificação e Regressão): O processo de raciocínio é totalmente baseado nas características de valor das variáveis de atributos. É fácil de entender e pode ser usado tanto para classificação quanto para regressão.
2.Árvore de decisão QUEST: Uma árvore estatística rápida, imparcial e eficaz que usa uma tecnologia chamada "segmentação rápida" para acelerar o processo de construção da árvore de decisão e é especialmente adequada para processar grandes conjuntos de dados.
3. Árvore de decisão CHAID: O algoritmo de árvore de decisão baseado no teste do qui-quadrado é adequado para problemas de classificação, especialmente quando a variável alvo é uma variável categórica. É amplamente utilizado em marketing, segmentação de clientes e outras áreas.
4. Árvore de decisão C5.0: Uma versão aprimorada do C4.5, com eficiência de execução e uso de memória otimizados, maior eficiência e maior capacidade de processar grandes conjuntos de dados. É amplamente utilizada em avaliação de crédito, diagnóstico de doenças e outros campos.
Expandir
No gerenciamento de projetos e na análise de riscos, as árvores de decisão e o EMV são frequentemente usados em conjunto.
As árvores de decisão ajudam os decisores a compreender os problemas de forma mais clara, exibindo graficamente o processo de tomada de decisão e os resultados, enquanto o EMV utiliza a análise quantitativa para ajudar os decisores a avaliar os riscos de forma mais abrangente, objetiva e específica e a tomar decisões ideais;
3. Análise de regressão (cerca de 6 minutos)
O significado da análise de regressão (cerca de 1 minuto):
A análise de regressão é um método de análise estatística de dados. Ela estuda principalmente como uma ou mais variáveis independentes (também chamadas de variáveis preditoras, variáveis explicativas ou variáveis independentes) afetam a variável dependente (também chamada de variável de resposta, variável explicada ou mudanças na variável dependente. ).
Simplificando, a análise de regressão tenta encontrar uma relação matemática ou modelo entre a variável independente e a variável dependente, de modo que o valor da variável dependente possa ser previsto com base no valor da variável independente.
A análise de regressão é amplamente utilizada em diversos campos, como economia, sociologia, medicina, engenharia, etc. Por exemplo:
Em economia, a análise de regressão pode ser usada para estudar a relação entre variáveis económicas como rendimento, consumo e investimento;
Na medicina, pode ser usado para estudar o impacto da dosagem do medicamento, peso do paciente, condição e outros fatores no efeito terapêutico;
Na engenharia, pode ser usado para estudar o impacto das propriedades dos materiais, parâmetros do processo e outros fatores na qualidade do produto.
Classificação da análise de regressão (cerca de 2 minutos):
(1) Regressão linear: Existe uma relação linear entre a variável independente e a variável dependente, que é o tipo mais simples e mais utilizado.
(2) Regressão logística: usada principalmente para problemas de classificação, prevendo a probabilidade de um evento e mapeando os resultados da regressão linear entre 0-1 para expressar a probabilidade.
(3) Regressão polinomial: A relação de dados entre a variável independente e a variável dependente não é linear, mas tem uma relação polinomial, e os dados podem ser ajustados por polinômios.
(4) Regressão passo a passo: Ao introduzir ou eliminar gradualmente variáveis independentes, variáveis independentes importantes são selecionadas automaticamente para evitar a multicolinearidade e selecionar o modelo de regressão ideal.
(5) Regressão de Ridge: Um método de regressão linear aprimorado que processa dados de alta dimensão, reduz a complexidade do modelo, evita ajuste excessivo e é usado para resolver problemas de multicolinearidade.
Modelos de regressão comumente usados (cerca de 1,5 minutos):
(1) Modelo de regressão linear: y = ax b, onde a é a inclinação eb é o intercepto.
(2) Modelo de regressão não linear: Existe uma relação não linear entre variáveis independentes e variáveis dependentes, como funções exponenciais, funções logarítmicas, etc.
(3) Modelo de regressão logística: usado para prever a probabilidade de ocorrência de um evento, como prever se um usuário clicará em um anúncio.
(4) Modelo de regressão Ridge: adicione termos de regularização à função de perda para evitar overfitting.
(5) Regressão de componentes principais: Reduzir o número de variáveis independentes e melhorar a eficiência do modelo através da redução da dimensionalidade. Primeiro execute a análise de componentes principais nas variáveis independentes e, em seguida, use os componentes principais para realizar a regressão.
Etapas básicas da análise de regressão (cerca de 1,5 minutos):
(1) Determinar as variáveis independentes e as variáveis dependentes: Esclarecer as questões e objetivos a serem estudados.
(2) Coletar dados: Colete dados relevantes de variáveis independentes e variáveis dependentes.
(3) Selecione o modelo de regressão: Selecione um modelo apropriado com base nas características dos dados e nos objetivos da pesquisa.
(4) Ajuste do modelo: Use dados para estimar os parâmetros do modelo.
(5) Avaliação do modelo: Avalie o efeito de ajuste e a capacidade de previsão do modelo.
(6) Aplicação de modelo: Use modelos para previsão e análise.
4. Resumo (cerca de 1 minuto)
Revise brevemente os principais elementos das árvores de decisão e da análise de regressão. Enfatize a importante função e os cenários de aplicação desses dois métodos na mineração de dados. Os alunos são incentivados a estudar e explorar mais depois da aula.