Galeria de mapas mentais Tecnologia estatística inteligente
Ele explica detalhadamente o uso das bibliotecas numpy, pandas e plt. A introdução é detalhada e o conhecimento é abrangente. Espero que possa ser útil para todos.
Editado em 2024-02-04 00:48:40이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
Tecnologia estatística inteligente
introdução
livro didático
Pensamento Estatístico: Estatísticas de Probabilidade para Programadores Matemática
análise e aplicação de dados python
analisar dados
objetivo claro
pré-requisitos
direção
coleção de dados
base de dados
outro
processamento de dados
Limpeza (pré-tratamento)
Converter
extrair
calcular
análise de dados
análise de dados
pandas
mineração de dados
Exibição de dados
gráfico
folha
Palavra
contente
teoria da probabilidade
Estatisticas
Implementação de análise quantitativa
biblioteca chamada
NumPy
Operações de array e matriz
Extremamente eficiente
Matplotlib
Gráficos, visualizações
Pandas
origem do nome
dados em painel e análise de dados
Função
Análise e exploração de dados
Estruturas de dados avançadas
Series
Dados unidimensionais
DataFream
Dados 2D
NumPy
introduzir
Poderoso array N-dimensional ndarray
Função de transmissão função ufunc
Ferramentas para integração de código C/C/Fortran
Álgebra linear, transformada de Fourier, geração de números aleatórios e outras funções
ndarray
efeito
Armazena uma matriz multidimensional de um único tipo de dados
criar
Crie matrizes multidimensionais a partir de dados existentes
Criar a partir de uma lista, objetos de tupla - array()
np.array(objeto, dtype=Nenhum, cópia=Verdadeiro, pedido='K', subok=Falso, ndmin=0)
objeto - lista ou objeto tupla, parâmetro obrigatório
dtype — tipo de dados
copy – o objeto é copiado
ordem — organiza a matriz em uma determinada ordem: C - por linha F - por coluna A - por coluna se a entrada for F, caso contrário, por linha;
subok —O array retornado é forçado a um array de classe base
ndmin — dimensão mínima
Lendo de uma string – fromstring()
np.fromstring(string, dtype=float, contagem=-1, set=”)
Crie uma matriz multidimensional de uma forma específica
Crie um array 'todos 1' - uns()
np.ones(forma, dtype=Nenhum, pedido='C')
Crie uma matriz de 'todos os zeros' - zeros()
np.zeros(forma, dtype=float, pedido='C')
Crie um array vazio - vazio()
np.empty(forma, dtype=float, pedido='C')
Preencha o array de forma autônoma - full()
np.full(forma, fill_value, dtype=Nenhum, pedido='C')
Criar matriz identidade - eye()
np.completo(n)
Crie uma matriz multidimensional a partir do intervalo numérico
Crie uma matriz de sequências aritméticas - arange()
np.arange(início=0, parada, passo=1, dtype=Nenhum)
Crie uma matriz de progressões aritméticas - linspace()
np.linspace(iniciar, parar, num=50, endpoint=True, retstep=False, dtype=None)
num é o número de divisões iguais
Atributos
ndim
Dimensões
forma
comprimento de cada dimensão
tamanho
número total de elementos
tipo d
tipo de elemento
tamanho do item
O tamanho de cada elemento na matriz
Indexação e fatiamento
O mesmo que lista
método
remodelar (a,b)
Mude para uma matriz com linha a e coluna b
repetir(4, eixo=1)
Copie 4 vezes e adicione à direita
numpy.random
np.random.rand(2, 3)
O valor numérico é [0,1], 2 linhas e 3 colunas
np.random.randint(5, tamanho = (2, 3))
O valor é menor que 5, 2 linhas e 3 colunas
Matriz NumPy
É uma subclasse de ndarray
Criar matriz
Use ponto e vírgula para separar dados
matr1 = np.mat("1 2 3;4 5 6;7 8 9")
Crie uma matriz usando listas
matr2 = np.matriz([[1,2,3],[4,5,6],[7,8,9]])
Combine matrizes pequenas em matrizes grandes
matr3 = np.bmat("arr1 arr2; arr1 arr2")
propriedades da matriz
Operações de Matriz
função ufunc
efeito
Funções que podem processar matrizes ndarray podem ser usadas diretamente.
Operações comuns
Aritmética
operação de comparação
operação lógica
A função np.all(x) significa usar AND lógico para x
A função np.any(x) significa usar OR lógico para x
mecanismo de transmissão
Refere-se à maneira como as operações aritméticas são realizadas entre matrizes de diferentes formatos.
em princípio
Deixe todas as matrizes de entrada serem alinhadas com a matriz com a forma mais longa, e a parte que falta da forma é compensada adicionando 1 na frente.
A forma da matriz de saída é o valor máximo em cada eixo da forma da matriz de entrada
Se um eixo da matriz de entrada tiver o mesmo comprimento que o eixo correspondente da matriz de saída ou seu comprimento for 1, então esta matriz poderá ser usada para cálculo, caso contrário ocorrerá um erro
Quando o comprimento de um eixo da matriz de entrada é 1, o primeiro conjunto de valores neste eixo é usado ao operar ao longo deste eixo.
Ler e gravar arquivos
arquivo binário
numpy.save(arquivo,arr,allow_pickle=True,fix_imports=True)
Nota: O diretório no caminho de salvamento deve existir! A função salvar não cria diretórios automaticamente.
numpy.load(arquivo, mmap_mode=Nenhum, permitir_pickle=True, fix_imports=True, encoding='ASCII')
arquivo de texto
np.savetxt(fname, X, fmt='%.18e', delimitador=' ', nova linha=' ', cabeçalho='', rodapé='', comentários='# ')
numpy.loadtxt(FILENAME, dtype=int, delimitador=' ')
Análise simples
organizar
classificação direta
Refere-se à classificação direta de valores
numpy.sort(a, eixo, tipo, ordem)
a
matriz para classificar
eixo
O eixo ao longo do qual a matriz é classificada ou ao longo do último eixo, se nenhuma matriz for expandida
tipo
O padrão é 'quicksort' (classificação rápida)
ordem
Se a matriz contiver campos, o campo a ser classificado
classificação indireta
Refere-se à classificação de um conjunto de dados com base em uma ou mais chaves
numpy.argsort(a)
A função executa uma classificação indireta da matriz de entrada ao longo de um determinado eixo e retorna uma matriz de índices (subscritos) dos dados usando o tipo de classificação especificado.
numpy.lexsort(a,b)
A função executa uma classificação indireta usando uma sequência de chaves, que pode ser considerada como uma coluna em uma planilha, e retorna uma matriz de índices (subscritos)
Remover duplicatas
numpy.unique
função estatística
matplotlib
introduzir
Fornece uma variedade de funções de desenho matemático, que podem facilmente desenhar gráficos de dados.
Outras ferramentas estatísticas visuais
gráfico eletrônico
palavra nuvem
método padrão
Processo básico
Criar tela
<Se deve criar um subgráfico>
Subtrama selecionada
Definir eixo X, Y
Adicionar legenda (detalhes)
<Se o desenho estiver concluído>
salvar exibição
Análise de etapas
Criar tela
plt.figura(figtamanho=(x,y))
Se você tiver uma tela, poderá criar vários gráficos
plt.subplot(nrows, ncols, índice)
O parâmetro nrows especifica em quantas linhas a área do gráfico de dados é dividida
O parâmetro ncols especifica em quantas colunas a área do gráfico de dados é dividida
O parâmetro index especifica qual área obter
Subtrama selecionada
gráfico de linha
trama
Gráfico de dispersão
espalhar
Gráfico de barras
nível
bar
vertical
barh
Histograma
história
gráfico de pizza
torta
...
Definir eixo X, Y
Eixos
trama
plt.plot(x,y)
x e y são duas matrizes. Se você inserir apenas uma, o eixo x padrão será o subscrito da matriz.
Existem também parâmetros como cor, transparência, estilo, largura, etc.
plt.plot(x, y, color='verde',alfa=0,5,linestyle='-',linewidth=3,marcador='*')
Adicionar legenda (detalhes)
Título, limites superior e inferior de intervalo, legenda, segmentação, layout, eixo, etc.
Definir título
plt.xlabel('Tempo')
plt.ylabel("Temp")
plt.title('Título')
Exibição chinesa
plt.rcParams['font.sans-serif'] = ['SimHei']
Escala personalizada do eixo X
plt.xticks(intervalo(0,len(x),4),x[::4],rotação=45)
Intervalo do eixo X e limites superior e inferior
plt.set_xlim([xmin, xmax]) #Define o intervalo do eixo X
plt.axis([xmin, xmax, ymin, ymax]) #X, intervalo do eixo Y
plt.set_ylim(bottom=-10) # Limite inferior do eixo Y
plt.set_xlim(right=25) #Limite superior do eixo X
método rápido
importar matplotlib.pyplot como plt plt.plot(x,y) plt.show()
Pandas
Características
Ele fornece objetos simples e eficientes com rótulos padrão (você também pode personalizar rótulos).
Capacidade de carregar rapidamente dados de arquivos em diferentes formatos (como arquivos Excel, CSV, SQL) e depois convertê-los em objetos processáveis;
Capaz de agrupar dados por rótulos de linha e coluna e realizar operações de agregação e transformação em objetos agrupados;
Ele pode implementar facilmente operações de normalização de dados e processamento de valores ausentes;
É fácil adicionar, modificar ou excluir colunas de dados do DataFrame;
Capaz de lidar com conjuntos de dados em diferentes formatos, como dados matriciais, tabelas de dados heterogêneos, séries temporais, etc.;
Fornece uma variedade de maneiras de processar conjuntos de dados, como construção de subconjuntos, fatiamento, filtragem, agrupamento e reordenação.
Estruturas de dados integradas
Series
definição
1 dimensão, capaz de armazenar vários tipos de dados, como caracteres, inteiros, números de ponto flutuante, objetos Python, etc. A série usa atributos de nome e índice para descrever valores de dados.
criar
s=pd.Series(dados, índice, dtype, cópia)
dados
Os dados de entrada podem ser escalares, listas, dicionários, matrizes ndarray, etc.
índice
O valor do índice deve ser único; se nenhum índice for passado, o padrão é np.arrange(n).
tipo d
dtype representa o tipo de dados. Se não for fornecido, será determinado automaticamente.
cópia de
Indica cópia de dados, o padrão é False.
Operações básicas
acesso
índice de subscrito
Lista semelhante
índice de tags
Semelhante ao dicionário
Cálculos e operações Numpy são aplicáveis
Pode ser fatiado
Propriedades comuns
tipo d
Retorna o tipo de dados do objeto.
vazio
Retorna um objeto Series vazio.
ndim
Retorna a dimensionalidade dos dados de entrada.
tamanho
Retorna o número de elementos dos dados de entrada.
A diferença entre tamanho e contagem: tamanho inclui valores NaN durante a contagem, mas contagem não inclui valores NaN.
valores
Retorna um objeto Series como um ndarray.
índice
Retorna um objeto RangeIndex usado para descrever o intervalo de valores do índice.
Métodos comuns
descrever()
contagem: estatísticas de quantidade, quantos valores válidos existem nesta coluna? unipue: Quantos valores diferentes existem? std: desvio padrão min: valor mínimo 25%: quartil 50%: meio percentil 75%: três quartos máx: valor máximo significar: significar
head()&tail() para visualizar dados
head(n) retorna as primeiras n linhas de dados e exibe as primeiras 5 linhas de dados por padrão
tail(n) retorna as últimas n linhas de dados, o padrão são as últimas 5 linhas
isnull()&nonull() detecta valores ausentes
isnull(): Retorna True se o valor não existir ou estiver faltando.
notnull(): Retorna False se o valor não existir ou estiver faltando.
valor_contagens
Frequência estatística
Quadro de dados
definição
2 dimensões, índice de linha e índice de coluna. O índice da linha é o índice e o índice da coluna são as colunas. Ao criar a estrutura, você pode especificar o valor do índice correspondente.
O tipo de dados de cada coluna da tabela pode ser diferente, como string, inteiro ou ponto flutuante, etc.
criar
df =pd.DataFrame(dados, índice, colunas, dtype, cópia)
dados
Os dados de entrada podem ser uma lista, uma lista aninhada de dicionário, um dicionário aninhado de lista, uma série na forma de um dicionário, etc.
Operações de índice de coluna
O índice da coluna seleciona colunas de dados
imprimir(df ['um'])
print(df[['palavra', 'caractere chinês', 'significado']])
Índice de coluna adiciona coluna de dados
df['três']=pd.Series([10,20,30],index=['a','b','c'])
df['quatro']=df['um'] df['três']
df.insert(1,coluna='pontuação',valor=[91,90,75])
O valor 1 representa a posição do índice inserida na lista de colunas
Coluna de dados de exclusão de índice de coluna
df.pop('dois')
Dividir colunas extraídas
df[df['nome_coluna'] == algum_valor]
Operações de índice de linha
índice de tags
df1.loc["b": "e", "bx": "ex"]
Fila primeiro, depois fila
índice de subscrito
df1.iloc[2: 6, 2: 4]
Fila primeiro, depois fila
índice híbrido
df1.ix[2: 6, "bx": "ex"]
Fila primeiro, depois fila
Seleção multilinha de operação de fatiamento
df[2: 4]
Adicionar linha de dados
df = df.append(df2)
Excluir linha de dados
df = df.drop(0)
Dividir linhas de busca
df.loc[df['nome_coluna'] == str]
Linhas de saída onde uma determinada coluna é NaN
df[df['palavra'].isna()]
Propriedades comuns
T
Transposição de linha e coluna.
eixos
Retorna uma lista com apenas rótulos de eixo de linha e coluna como membros.
dtypes
Retorna o tipo de dados de cada coluna de dados.
vazio
Se não houver dados no DataFrame ou o comprimento de qualquer eixo de coordenadas for 0, True será retornado.
ndim
O número de eixos também se refere à dimensão do array.
forma
Retorna uma tupla (a,b), onde a representa o número de linhas eb representa o número de colunas.
tamanho
Número de elementos no DataFrame
A diferença entre tamanho e contagem: tamanho inclui valores NaN durante a contagem, mas contagem não inclui valores NaN.
valores
Use matrizes numpy para representar valores de elementos em um DataFrame
Métodos comuns
descrever(incluir='todos')
Igual à série
Sem parâmetros, apenas colunas numéricas serão contadas.
cabeça()&cauda()
Igual à série
informação()
Ver informações
mudança()
Mover linhas ou colunas por comprimento de passada especificado
pivô()
Converta as colunas em um quadro de dados para que uma determinada coluna se torne um novo índice de linha e preencha a célula correspondente a esse índice com o valor de outra coluna.
parâmetro
índice: o nome da coluna que se tornará o novo índice de linha
colunas: o nome da coluna que se tornará o novo índice da coluna
valores: os nomes das colunas que preencherão as células entre o novo índice de linha e o novo índice de coluna
sort_values(by='Nome da coluna ou valor de índice para classificação', axis=0, ascendente=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)
sort_index(axis=0, level=None, ascendente=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)
eixo: o eixo é padronizado como 0, o que significa que a classificação de acordo com o índice da linha é definido como 1, o que significa a classificação de acordo com o índice da coluna; nível: o padrão é Nenhum, caso contrário, será organizado na ordem de nível especificada. ascendente: o padrão ascendente é True, que é a ordem crescente, e quando definido como False, é a ordem decrescente. inplace: o padrão é False, caso contrário, os dados classificados substituirão diretamente o quadro de dados original. tipo: método de classificação, {'quicksort', 'mergesort', 'heapsort'}, padrão 'quicksort'. Os usuários podem escolher seus próprios na_position: Os valores ausentes são classificados por último por padrão {"primeiro", "último"}, o parâmetro "primeiro" coloca NaN no início e "último" coloca NaN no final. ignore_index: Booleano, o padrão é False, se for True, então o eixo é o rótulo 0, 1, 2; chave: esta é uma função que pode ser chamada que executa a função chave no valor do índice antes da classificação. Isso é um pouco semelhante à função key na função integrada sorted()
Atravessar
Iterar em cada linha
para índice, linha em df.iterrows():
Iterar em cada coluna
para coluna, valor em df.iteritems():
Limpeza de tabela de dados
Preencha os valores vazios com o número 0
df.fillna(valor=0)
Use a média da coluna Prince para preencher a coluna NA
df['príncipe'].fillna(df['príncipe'].mean())
Limpar espaços de caracteres no campo da cidade
df['cidade']=df['cidade'].map(str.strip)
Conversão de caso
df['cidade']=df['cidade'].str.lower()
Conversão de tipo de dados
df['preço'].astype(int)
Alterar índice de coluna/linha
Modificar tudo
Índice manuscrito
df.columns=['a','b','c']
df.index=['a','b','c']
Índice de referência
df.set_columns("idx",inplace=Falso)
df.set_index("col",inplace=Falso)
Modificação parcial
df.rename(colunas={'categoria': 'tamanho da categoria'},inplace=Falso)
df.rename(index={'categoria': 'tamanho da categoria'},inplace=Falso)
repita
Encontre duplicatas: df.duplicated() pode retornar um array booleano indicando se cada linha é uma duplicata.
Valores duplicados que aparecem após a exclusão
df['cidade'].drop_duplicates()
Remova os valores duplicados que aparecem primeiro
df['cidade'].drop_duplicates(keep='último')
Selecione a chave primária
subset=['número do aluno']
Remover NaN
df2=df.dropna(axis=0,how="all",inplace=False)
how="all" significa que uma determinada linha (coluna) será excluída somente se todos os NaNs estiverem presentes. how="any" significa que enquanto houver um NaN, ele será excluído (padrão)
substituição de dados
df['cidade'].replace('sh', 'xangai')
Mesclagem de tabela de dados
mesclar
pd=pd.merge(df,df1,how='inner') #match, mesclagem, interseção, padrão df_left=pd.merge(df,df1,how='esquerda') df_right=pd.merge(df,df1,how='certo') df_outer=pd.merge(df,df1,how='outer') #Union, o efeito é o mesmo das duas primeiras combinações
acrescentar
Foi descontinuado, é recomendado usar concat
juntar
concat
pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)
Estatisticas
var()
variação
cobre()
Covariância
Resumo
Amostra 1
df = pd.DataFrame({ 'A': ['a', 'b', 'a', 'c', 'a', 'c', 'b', 'c'], 'B': [2, 8, 1, 4, 3, 2, 5, 9], 'C': [102, 98, 107, 104, 115, 87, 92, 123]})
método
Agrupe pela coluna A e obtenha a média das outras colunas
df.groupby('A').mean()
Retire uma determinada coluna
imprimir(df.groupby('chave1')['dados1'].mean())
Agrupar por múltiplas colunas (groupby)
df.groupby(['A','B']).mean()
Amostra 2
df = pd.DataFrame({' A': lista('XYZXYZXYZX'), 'B': [1, 2, 1, 3, 1, 2, 3, 3, 1, 2], 'C': [12, 14, 11, 12, 13, 14, 16, 12, 10, 19]})
método
Execute diferentes operações estatísticas ao usar agg() em uma coluna
df.groupby('A')['B'].agg({'média':np.média, 'desvio padrão': np.std})
operação lambda
Compensação de Pontos Minoritários
df['Pontuação Extra'] = df['Nacionalidade'].aplicar (lambda x: 5 se x! = '汉' senão 0)
passar no exame
df['pass_reading'] = df['pontuação de leitura'].apply (lambda x: 'Aprovado' se x >= 60 senão 'Falha')
Desenhe uma imagem
machado = série1.plot(kind='bar')
fig = ax.get_figure() fig.subplots_adjust(fundo=0,4) fig.savefig('output.png')
pd.plot(kind='dispersão',x="a",y="b",alfa=0,1)
alfa é transparência
pd.hist(bins=50,figsize=(7,7))
Entrada e saída de dados
digitar
leia csv
df = pd.read_csv("mtcars.csv", codificação="utf-8")
Escreva no Excel
df = pd.read_excel("mtcars.csv")
saída
Escreva no Excel
pd.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')
Escreva para CSV
pd.to_csv('excel_to_python.csv')
A diferença entre Pandas e NumPy
data hora
A subclasse 1).date pode criar dados de séries de data e tempo, a subclasse 2).time pode criar dados de hora e minuto e a subclasse 3).datetime pode descrever dados de data, hora e minuto.
importar data e hora cur = datahora.datetime(2018,12,30,15,30,59) imprimir cur, digite (cur) d = datahora.data(2018,12,30) imprimir t = datetime.datetime(2018,12,30).now() imprimir t
30/12/2018 15:30:59 <tipo 'datetime.datetime'> 30/12/2018 16/12/2018 15:35:42.757826
4). Você pode usar o módulo timedelta de datetime para fornecer o intervalo de tempo (diferença).
importar data e hora cur0 = datahora.datahora(2018,12,30,15,30,59) imprimir cur0 cur1 = cur0 datetime.timedelta(dias = 1) imprimir cur1 cur2 = cur0 datetime.timedelta(minutos = 10) imprimir cur2 cur3 = cur0 datetime.timedelta(minutos = 29, segundos = 1) imprimir cur3
30/12/2018 15:30:59 #cur0 31/12/2018 15:30:59 #cur1 30/12/2018 15:40:59 #cur2 30/12/2018 16:00:00 #cur3
Crie dados de série temporal com dados de data e hora. Isso significa usar o horário de criação de data e hora como índice.
de data e hora importar data e hora, timedelta importar numpy como np importar pandas como pd b = datahora(2018,12,16,17,30,55) vi = np.random.randn(60) ind = [] para x no intervalo (60): bi = b timedelta(minutos = x) ind.append(bi) ts = pd.Series(vi, índice = ind) imprimir ts[:5]
16/12/2018 17:30:55 -1.469098 16/12/2018 17:31:55 -0,583046 16/12/2018 17:32:55 -0,775167 16/12/2018 17:33:55 -0,740570 16/12/2018 17:34:55 -0,287118 tipo d: float64
Reabastecimento
tipo
Aula histórica
Mapeia um valor para uma quantidade representada como um número inteiro
Aula de PMF
Mapeia um valor para uma probabilidade expressa como um número de ponto flutuante
O processo acima é chamado de normalização, ou seja, a probabilidade soma 1
Classe CDF
Desvantagens do PMF
Aplicabilidade do PMF: Quando os dados a serem processados são relativamente pequenos
À medida que os dados aumentam, a probabilidade de cada valor diminui e o impacto do ruído aleatório aumenta.
Solução
Agrupamento de dados: determinar o tamanho do intervalo de agrupamento requer habilidades
Quando o intervalo de agrupamento é grande o suficiente para eliminar o ruído, informações úteis podem ser descartadas.
CDF
função de distribuição cumulativa
Pode descrever completamente a distribuição de probabilidade de uma variável aleatória real X, que é a integral da função de densidade de probabilidade.
classificação percentil
Tomemos como exemplo as pontuações dos testes: apresentadas em duas formas 1. Pontuação bruta 2. Classificação percentual: A proporção de pessoas cujas pontuações originais não são superiores às suas entre o número total de participantes do teste é multiplicada por 100. Por exemplo: se alguém está no percentil 90, significa que sua pontuação é melhor que 90% das pessoas ou pelo menos não pior que 90% dos participantes do teste;
Depois de calcular o CDF, o percentil e a classificação percentil podem ser calculados mais facilmente.
função
Classificação Percentil(x)
Para um determinado valor x, calcule sua classificação percentual
100*CDF(x)
Percentil (p): Para uma determinada classificação percentil, calcule o valor x correspondente;
intervalo interquartil
quartis
O intervalo interquartil é um indicador estatístico que descreve a distribuição de dados discretos. Representa as posições percentuais 25, 50 e 75 nos dados, respectivamente.
intervalo interquartil
O quartil superior menos o quartil inferior é o intervalo de quatro quartos.
efeito
O intervalo interquartil representa o grau de dispersão dos dados. Quanto maior o intervalo interquartil, maior o grau de dispersão dos dados.
boxplot
Com o valor mínimo, quartil inferior, mediana, quartil superior e valor máximo, podemos desenhar um box plot.
Valores discrepantes
A propósito, podemos introduzir uma forma de definir valores discrepantes: se um valor for extremamente pequeno, menor que o quartil inferior menos 1,5 vezes o intervalo interquartil, ele pode ser contado como um valor discrepante, correspondentemente, se um valor for extremamente grande, é; menor que o quartil inferior menos 1,5 vezes o intervalo interquartil O quartil superior mais 1,5 vezes o intervalo interquartil é ainda maior e também pode ser contado como um valor atípico.
CCDF(a) = P(X > a)= 1- CDF(a)
conceito
PDF: função de densidade de probabilidade Em matemática, a função de densidade de probabilidade de uma variável aleatória contínua (pode ser simplesmente chamada de função de densidade quando não é confusa) é um valor de saída que descreve a variável aleatória em uma determinada função A da probabilidade. perto de um ponto de valor.
PMF: Função de massa de probabilidade Na teoria da probabilidade, a função de massa de probabilidade é a probabilidade de uma variável aleatória discreta assumir um valor específico.
CDF: Função de distribuição cumulativa (função de distribuição cumulativa), também chamada de função de distribuição, é a integral da função de densidade de probabilidade, que pode descrever completamente a distribuição de probabilidade de uma variável aleatória real X.
Modelagem de distribuição
distribuição de índice
distribuição normal
Função densidade de probabilidade
função de distribuição cumulativa
distribuição lognormal
Se um conjunto de valores segue uma distribuição normal após a transformação logarítmica, diz-se que segue uma distribuição lognormal. Ou seja, use log(x) para substituir x na distribuição normal.
Distribuição de Pareto Pareto
relação entre variáveis
Covariância
A covariância pode ser usada para medir se as tendências de mudança de variáveis relacionadas são as mesmas e também pode ser usada para medir o erro geral de duas variáveis.
Como os valores e as unidades são difíceis de interpretar, geralmente são menos utilizados.
A variância pode ser vista como um caso especial de covariância, quando duas variáveis são idênticas.
Se as tendências de mudança de duas variáveis forem consistentes, isto é, se uma delas for maior que o seu próprio valor esperado e a outra for maior que o seu próprio valor esperado, então a covariância entre as duas variáveis é positiva;
Se as tendências de mudança de duas variáveis forem opostas, ou seja, uma variável for maior que o seu próprio valor esperado e a outra for menor que o seu próprio valor esperado, então a covariância entre as duas variáveis é negativa;
Classificação Pearson Pearson
Âmbito de aplicação
A distribuição das variáveis nos dois conjuntos de dados é normal e existe uma relação linear entre os dois.
Substitua a fração padrão pelo valor original e calcule o produto de duas frações padrão
é chamado de coeficiente de correlação de Pearson, onde -1<=p<=1, p=1: Indica que as duas variáveis estão completamente correlacionadas positivamente; p=-1: Indica que as duas variáveis estão completamente correlacionadas negativamente;
Classificação de lanceiro Lanceiro
Âmbito de aplicação
Existem valores discrepantes e a distribuição das variáveis é muito assimétrica:
Primeiro calcule a classificação do valor na sequência: ou seja, a posição classificada de um determinado valor na sequência e, em seguida, calcule o coeficiente de correlação de Pearson da classificação.
Amostra
Sequência {7, 1, 2, 5} Classifique a sequência de pequena para grande, o resultado é {4, 1, 2, 3} Então a classificação de 5 é 3