Galeria de mapas mentais Analista Financeiro Certificado CFA Nível 2 Estrutura de conhecimento de método quantitativo
A disciplina de Analista Financeiro Certificado Nível 2, métodos quantitativos, cobre totalmente o mapa mental do plano de estudos e os principais detalhes dos pontos de teste.
Editado em 2022-03-10 12:05:13A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
Quantitativo Métodos
Quantitativo Método 1)
Regressão linear
Premissas
Linearidade: A relação linear entre Y e b1
Homoscedasticidade --- problema de heterocedasticidade
Independência ------ Questões relacionadas à sequência
Normalidade
Ponto estimado
fórmula b0, b1
Calculadora calcula b0, b1
Estimativa de intervalo de confiança
cálculo do intervalo de confiança
O erro padrão de b1 pode ser obtido de Inferência posterior dos resultados de t.stat na TABELA ANOVA
Teste do coeficiente de regressão
teste significativo sobre coeficiente de regressão
estatísticas t
valor p
método de intervalo de confiança
teste de hipótese sobre coeficiente de regressão ---t-statistics
teste significativo para correlação
Teste F: Ho: b1=b2=…=bk=0
Tabela ANOVA
SS, df, MSS,
VER
Coeficiente de determinação R2, Múltiplo R
Estimativa de Y
ponto estimado
estimativa do intervalo de confiança
Forma funcional diferente: log
Limitações da regressão
relação pode mudar com o tempo
conhecimento público de regressão
suposições de regressão
Regressão múltipla
A diferença entre regressão múltipla vs linear
Coeficiente de regressão parcial: mantendo outro constante
sem relações lineares exatas: multicolinearidade se violada
Teste de hipótese
Parâmetro único bi: teste t com diferentes graus de liberdade
Teste F: k é diferente
Teste F vs T
Unidade: t^2=F
Multivariada: F considera a correlação entre x e afeta os resultados de t e F
R-quadrado ajustado
Fórmula
R2> R2 ajustado
pode ser<0
Variável fictícia:X
n~n-1variável fictícia
Interceptação e coeficiente estimado
Explicação da conclusão do teste t
Violações de suposições
Heterocedasticidade
incondicional vs condicional
Efeito
não afeta
Resultado da estimativa pontual b
Consistência das estimativas dos parâmetros
Influência
Estimativa de intervalo t·Sb
teste
t-stat.--Sb
MSE é muito pequeno, P (erro tipo I) aumenta
MSE é muito grande, P (erro tipo II) aumenta
Estatística F.--MSE
MSE é muito pequeno, P (erro tipo I) aumenta
MSE é muito grande, P (erro tipo II) aumenta
Detecção
gráfico de dispersão
Teste de PA
Ho: sem heterocedasticidade
Teste qui-quadrado: BP=n·R(residual)^2
Distribuição qui-quadrado, df=k, unilateral
Corrigindo
erros padrão robustos (erros padrão corrigidos por branco)
mínimos quadrados generalizados
Correlação serial (autocorrelação)
SC positivo vs negativo
Efeito
não afeta
Resultado da estimativa pontual b
Consistência das estimativas dos parâmetros
Influência
Estimativa de intervalo t·Sb
resultados do teste t/F
SC positivo, MSE é pequeno, P (erro tipo I) aumenta
SC negativo, MSE é muito grande, P (erro tipo II) aumenta
Detecção
gráfico de dispersão
Teste DW
Ho: sem SC/sem SC positivo
DW=2·(1-r)
a, k, n, regra de decisão
Corrigindo
Método Hansen (erros padrão robustos): Observe a diferença do método White
mínimos quadrados generalizados
Multicolinearidade
questão de grau e não de ausência ou presença
Efeito
não afeta
Consistência das estimativas dos parâmetros
Influência
Resultado da estimativa pontual b
Estimativa de intervalo t·Sb
resultados do teste t/F
Multicolinearidade, MSE é muito grande, P (erro tipo II) aumenta
Detecção
Método clássico: insignificante t significativo F alto R-quadrado
Método ocasionalmente sugerido: r>0,7
Correção: excluir uma ou mais variáveis de regressão
Especificações incorretas do modelo --- inconsistentes
incluir
conjunto incorreto de variáveis
forma funcional da equação de regressão incorreta
princípio das especificações do modelo
raciocínio econômico
natureza da variável
parcimonioso
examinado por violações
útil fora da amostra
Classificação
Forma funcional mal especificada
variável omitida
escalonamento variável inadequado
pool de dados inadequado
Especificações incorretas de série temporal
variável dependente defasada como variável independente com erros serialmente correlacionados
função de uma variável dependente como uma variável independente
variáveis independentes são medidas com erros
Outros tipos de especificações incorretas de séries temporais (não estacionárias)
relações entre séries temporais com tendências
relações entre séries temporais que podem ser de passeio aleatório
Variável dependente qualitativa
modelo probit e logit
Modelo de discriminação: pontuação Z
Análise de série temporal
Modelo de tendência
modelo de tendência linear
Yt diferença igual, Y muda em uma quantidade constante: b1
Pontos dispersos aproximam-se de uma linha reta
modelo de tendência log-linear
Yt é igual à razão, Y cresce a uma taxa exponencial: e^b1-1
Tendência de dispersão exponencial
limitação
dados de séries temporais geralmente exibem correlação serial, não é apropriado para o modelo de tendência.
Modelo autorregressivo (AR)
previsão multiperíodo: regra da cadeia
Suposições de AR
covariância estacionária
Estacionaridade forte vs estacionariedade fraca
3 condições para covariância estacionária
valor esperado constante e infinito ao longo do tempo
variação
covariância
natureza
passado estacionário não garante estacionário no futuro
a série temporal estacionária de covariância tem um nível de reversão à média finito Xi=B0/(1-B1)
Efeito violado: raiz unitária/B1=1/caminhada aleatória
Caminhada aleatória
Passeio aleatório com deriva
características
não significa reverter o nível
variação infinita
Detecção
Teste de raiz unitária de não estacionário: teste t comum, Ho: B1=1
Teste Dickey-Fuller
Xt-Xt-1=bo (b1-1)Xt-1 €
g=b1-1, Ho:g=0, Ha:g<0
tabela de pesquisa de tabela t revisada
Correção: primeira diferença
erros são não correlacionados-violação-autocorrelação
Efeito
não afeta
Resultado da estimativa pontual b
Consistência das estimativas dos parâmetros
Influência
Estimativa de intervalo t·Sb: MSE---Sb
resultados do teste t/F
SC positivo, MSE é pequeno, P (erro tipo I) aumenta
SC negativo, MSE é muito grande, P (erro tipo II) aumenta
Detecção
DW não está disponível porque a correlação do termo de erro deve ser 0, que é um teste de significância
Teste T: Sr=1/(número de observações)^0,5 Número de observações = tamanho da amostra - p df=T-k-1 rejeitar Ho, r<>0, existe autocorrelação
Corrigindo
adiciona atraso sazonal
Homoscedasticidade: ARCH
Efeito
não afeta
Resultado da estimativa pontual b
Consistência das estimativas dos parâmetros
Influência
Estimativa de intervalo t·Sb
teste
t-stat.--Sb
MSE é muito pequeno, P (erro tipo I) aumenta
MSE é muito grande, P (erro tipo II) aumenta
Estatística F.--MSE
MSE é muito pequeno, P (erro tipo I) aumenta
MSE é muito grande, P (erro tipo II) aumenta
Detecção
ARCO(1)
teste de significância para a1
distribuição t
Correção: GLS
Mais de uma série temporal
Cointegração
Teste DF-EG: rejeita Ho, Cointegração, pode usar regressão múltipla
Comparando o desempenho do modelo
Quantitativo
erros de previsão na amostra
erros de previsão fora da amostra:RMSE
Qualitativo
instabilidade do coeficiente de regressão
dados anteriores e posteriores
períodos de dados mais curtos e mais longos
Quantitativo Método (2)
Aprendizado de máquina
abordagem estatística de aprendizado de máquina V.S
As estatísticas tradicionais requerem uma distribuição assumida
Tamanho dos dados
linear/não linear
Complexidade dos dados (dimensão)
Nome de X,Y
hiperparâmetros
Tipos
Aprendizagem supervisionada
dados de treinamento rotulados
Classificação
modelo de regressão: variável alvo contínua
modelo de classificação
classificação binária
classificação multicategoria
Aprendizagem não supervisionada
Dados não rotulados
Classificação
Redução de dimensão
agrupamento
Aprendizado profundo e aprendizado por reforço
Aplicável a supervisionados e não supervisionados
baseado em rede neural
aprendizagem profunda: usada para tarefas complexas
reforço: aprenda com seus próprios erros de previsão
sobreajuste
problema com aprendizado de máquina supervisionado
três conjuntos de dados não sobrepostos
amostra de treinamento
amostra de validação - ajuste
amostra de teste - avaliar
três erros
erro de viés: erro na amostra, dados de treinamento não se ajustam bem ao modelo, ajuste insuficiente, alto erro amostral
erro de variância: erro fora da amostra, sobreajuste, alto erro fora da amostra
erro base: erros residuais, não evitáveis
curva de ajuste: complexidade ideal do modelo
método de endereçamento
redução de complexidade: penalidade de overfitting
validação cruzada
em validação cruzada
validação cruzada k-fold
Algoritmos de Aprendizagem Supervisionada
Regressão-regressão penalizada/contínua
Prazo de penalidade: LASSO vs OLS - linear
Regularização: aplicada ao modelo não linear
Máquina de vetores de suporte (SVM) - classificação/distinta
Mecanismo: linear, dicotomia, hiperplano, margem máxima, vetor de suporte, limite discriminante
Classificação
margem rígida: classificador linear
margem suave: não perfeitamente linear, compensação entre margem mais ampla e erro de classificação
Aplicável: tamanho pequeno a médio e dados complexos de alta dimensão
K-vizinho mais próximo (KNN)-classificação/distinta
Mecanismo: linear, classifica uma nova observação encontrando semelhanças, a minoria obedece à maioria
duas preocupações
hiperparâmetros k
k muito pequeno, alta taxa de erro
k muito grande, dilua o resultado calculando a média
k é par, talvez não haja um vencedor claro
difícil definir claramente "semelhante"
Aplicável: dicotomia/policotomia
Árvore de classificação e regressão (CART) - regressão e classificação
mecanismo
linear e não linear
variável de destino categórica da árvore de classificação variável de destino contínua em árvore de regressão
sem caixa preta
árvore de decisão
recursos, ramificações, valor de corte
nó raiz inicial: separação mais ampla, minimiza o erro de classificação
nó de decisão: menor erro dentro do grupo
nó terminal: erro de classificação não diminui muito mais de outra divisão if Classificação ----maioria dos pontos de dados se regressão ---- média dos valores rotulados
Vantagens e desvantagens
Vantagens: fornecer explicação visual
Desvantagens: overfitting para evitar;
regularização
podar seção de baixo poder explicativo
Algoritmo de conjunto e combinação aleatória de floresta
aprendizagem em conjunto
agregação de alunos heterogêneos
agregação de alunos homogêneos: dados de treinamento diferentes --- agregação de bootstrap (ensacamento) amostragem repetida
floresta aleatória
variante de dados da árvore de classificação coletados do mesmo conjunto de dados
subconjunto de recursos usados na criação de cada árvore --- mitigar o overfitting
determinar a classificação final: sabedoria da multidão
vantagem
proteger contra overfitting
reduzir a proporção de ruído em relação ao sinal - os erros são cancelados por meio de diferentes árvores
Desvantagens: caixa preta
Algoritmos de Aprendizagem Não Supervisionada
Redução de dimensão: análise de componentes principais
variável composta, vetores próprios, valor próprio (RSS/TSS) - evite multicolinearidade
Vantagens e desvantagens
Vantagens: menos recursos, evita overfitting
Desvantagens: Os vetores próprios são uma combinação de características originais, não são um conceito bem definido, podem ser percebidos como caixa preta
Agrupamento
agrupamento k-means
Mecanismo: hiperparâmetro k, k clusters não sobrepostos, centróide
Seja aplicável
conjuntos de dados muito grandes
dados de alta dimensão
deficiência
a escolha dos hiperparâmetros k afeta os resultados
Solução: usando um intervalo de valores para k para encontrar o número ideal de clusters
agrupamento hierárquico
nenhum número predefinido de clusters
agrupamento aglomerativo (de baixo para cima)
agrupamento divisivo (de cima para baixo)
Redes Neutras
mecanismo
redes neurais artificiais (RNA)
dados de alta dimensão/dados lineares e não lineares
três tipos de camadas
camadas de entrada: recursos
camadas ocultas: formas de transmissão de dados
camada de saída: um resultado de previsão
hiperparâmetros de 4-5-1
cada nó
operador de soma --- entrada líquida total
operador de ativação
transformar a entrada líquida total na saída final do nó
interruptor dimmer de luz --- diminuir ou aumentar a força da entrada
não linear e linear
modelagem de neurônios
entrada, pesos sinápticos, termo de polarização, entrada líquida total, operador de soma, função ativa, saída
cálculo direto de propagação direta
Corrigir depuração
propagação para trás: cálculo para trás, ajuste de pesos sinápticos
revisão de hiperparâmetros com base no desempenho fora da amostra
Formulários
redes neurais profundas (DNNs)
mais de 20 camadas ocultas
útil em geral para reconhecimento de imagens, padrões e fala
aprendizagem por reforço: aprende com base no feedback imediato de (milhões de) tentativas e erros-AlphaGo
Escolha de algoritmos de ML
se os dados forem complexos (muitos recursos)
sim
redução de dimensão
não
se classificação
sim
se supervisionado
sim
linear: KNN, SVM
não linear: CART, floresta aleatória, redes neurais
não
linear: agrupamento k-means ou agrupamento hierárquico
não linear: redes neurais
não
linear: regressão penalizada
não linear: CART, floresta aleatória, redes neurais
Projetos de big data
introdução
personagens: volume, variedade, velocidade, veracidade (validade), valor
etapas de análise de dados: conceituar tarefa de modelo, coleta de dados, preparação e disputa de dados, exploração de dados, treinamento de modelo
dados estruturados
1. conceituar tarefa/projeto/plano modificável
2. coleta de dados
dados externos
acesso através de API (interface de programação de aplicativos)
fornecedor: csv ou outros formatos
dados internos
3. preparação e disputa de dados
preparação de dados (limpeza)
erro de incompletude
erro de invalidez
erro de imprecisão
erro de inconsistência
erro de não uniformidade
erro de duplicação
valores discrepantes
corte (truncamento)
Winsorização: substitua pelo valor máximo ou mínimo
disputa de dados (pré-processamento)
transformação
extração: idade de aniversário
agregação: receita salarial = renda total
filtragem: linhas de dados que não são necessárias
seleção: colunas não são necessárias, por exemplo, nome e ID só precisam de uma
conversão: CAD-USD
dimensionamento
normalização
Fórmula: Normalização
Excelente: usado quando a distribuição de dados é desconhecida
Ausente: sensível a valores discrepantes
estandardização
Fórmula
Excelente: menos sensível a outliers, pois depende da média e do desvio padrão
Ausente: os dados devem ser distribuídos normalmente
4. exploração de dados
análise exploratória de dados (EDA)
estatísticas resumidas
visualização
seleção de recursos
engenharia de recursos
5. treinamento de modelo
método de seleção
avaliação de desempenho
erro de análise
matriz de confusão
precisão, recall, exatidão, pontuação F1
características operacionais do receptor (ROC)
forma da curva ROC
curva mais convexa - melhor
área sob a curva (AUC): 0,5 adivinhação aleatória
raiz do erro quadrático médio (RMSE) - útil para modelo de regressão
ajuste de modelo
minimizar o erro agregado total
parâmetros e hiperparâmetros
alterando os hiperparâmetros
cada hiperparâmetro --- matriz de confusão
vários hiperparâmetros
pesquisa em grade: diferentes combinações de hiperparâmetros
análise de teto: a parte do pipeline pode potencialmente melhorar o desempenho
dados não estruturados
3. preparação e discussão de texto
preparação de texto (limpeza)
remover tags HTML
remover pontuações: algumas precisam ser substituídas por anotações
remover números
remover espaços em branco
disputa de texto (pré-processamento)
normalização
letras minúsculas
remoção de palavras irrelevantes
derivação
lematização
procedimento bag-of-words (BOW): N-gramas
matriz de termos do documento (DTM)
4. exploração de texto
EDA
estatísticas de texto: frequência do termo, coocorrência
visualização
seleção de recursos
redução no tamanho do BOW
métodos
frequência do documento (DF)
Qui-quadrado
informação mútua: MI=1, o token é mais identificável
engenharia de recursos
número
n-grama
reconhecimento de entidade de nome (NER)
classes gramaticais (POS)