Conecte-se
Fazer login

Galeria de mapas mentais Tecnologia estatística inteligente

Tecnologia estatística inteligente

Ele explica detalhadamente o uso das bibliotecas numpy, pandas e plt. A introdução é detalhada e o conhecimento é abrangente. Espero que possa ser útil para todos.

Editado em 2024-02-04 00:48:40

슈퍼직장인

Trabalhos recentes Ver mais trabalhos>>

(III) 저산소 유도 인자 프롤릴 하이드 록 실라 제 억제제
이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
Kuka 산업용 로봇의 개발 및 Kuka 산업 로봇의 모션 제어 명령
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
1.1 컴퓨터 네트워크 요약
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!

Tecnologia estatística inteligente

슈퍼직장인

Trabalhos recentes Ver mais trabalhos>>

Recomendado para você
Descrição

Funções comumente usadas em Python
- 24
WSb6eYgD
linguagem de programação python
- 8
WSysQn6v
Tipos de dados Python
- 13
WSb6eYgD
Noções básicas de Python
- 98
- 1
슈퍼직장인
Ataque Python
- 10
- 1
슈퍼직장인
Lista abrangente de funções do Excel comumente usadas
- 338
- 8
슈퍼직장인
Pontuação estatística de dados variáveis numéricas
- 9
WSysQn6v
Árvore de conhecimento de big data
- 21
슈퍼직장인
PowerBI.DAX
- 27
WSysQn6v
PowerBI.Básico
- 82
WSysQn6v

Tecnologia estatística inteligente

introdução

livro didático

Pensamento Estatístico: Estatísticas de Probabilidade para Programadores Matemática

análise e aplicação de dados python

analisar dados

objetivo claro

pré-requisitos

direção

coleção de dados

base de dados

outro

processamento de dados

Limpeza (pré-tratamento)

Converter

extrair

calcular

análise de dados

pandas

mineração de dados

Exibição de dados

gráfico

folha

Palavra

contente

teoria da probabilidade

Estatisticas

Implementação de análise quantitativa

biblioteca chamada

NumPy

Operações de array e matriz

Extremamente eficiente

Matplotlib

Gráficos, visualizações

Pandas

origem do nome

dados em painel e análise de dados

Função

Análise e exploração de dados

Estruturas de dados avançadas

Series

Dados unidimensionais

DataFream

Dados 2D

NumPy

introduzir

Poderoso array N-dimensional ndarray

Função de transmissão função ufunc

Ferramentas para integração de código C/C/Fortran

Álgebra linear, transformada de Fourier, geração de números aleatórios e outras funções

ndarray

efeito

Armazena uma matriz multidimensional de um único tipo de dados

criar

Crie matrizes multidimensionais a partir de dados existentes

Criar a partir de uma lista, objetos de tupla - array()

np.array(objeto, dtype=Nenhum, cópia=Verdadeiro, pedido='K', subok=Falso, ndmin=0)

objeto - lista ou objeto tupla, parâmetro obrigatório

dtype — tipo de dados

copy – o objeto é copiado

ordem — organiza a matriz em uma determinada ordem: C - por linha F - por coluna A - por coluna se a entrada for F, caso contrário, por linha;

subok —O array retornado é forçado a um array de classe base

ndmin — dimensão mínima

Lendo de uma string – fromstring()

np.fromstring(string, dtype=float, contagem=-1, set=”)

Crie uma matriz multidimensional de uma forma específica

Crie um array 'todos 1' - uns()

np.ones(forma, dtype=Nenhum, pedido='C')

Crie uma matriz de 'todos os zeros' - zeros()

np.zeros(forma, dtype=float, pedido='C')

Crie um array vazio - vazio()

np.empty(forma, dtype=float, pedido='C')

Preencha o array de forma autônoma - full()

np.full(forma, fill_value, dtype=Nenhum, pedido='C')

Criar matriz identidade - eye()

np.completo(n)

Crie uma matriz multidimensional a partir do intervalo numérico

Crie uma matriz de sequências aritméticas - arange()

np.arange(início=0, parada, passo=1, dtype=Nenhum)

Crie uma matriz de progressões aritméticas - linspace()

np.linspace(iniciar, parar, num=50, endpoint=True, retstep=False, dtype=None)

num é o número de divisões iguais

Atributos

ndim

Dimensões

forma

comprimento de cada dimensão

tamanho

número total de elementos

tipo d

tipo de elemento

tamanho do item

O tamanho de cada elemento na matriz

Indexação e fatiamento

O mesmo que lista

método

remodelar (a,b)

Mude para uma matriz com linha a e coluna b

repetir(4, eixo=1)

Copie 4 vezes e adicione à direita

numpy.random

np.random.rand(2, 3)

O valor numérico é [0,1], 2 linhas e 3 colunas

np.random.randint(5, tamanho = (2, 3))

O valor é menor que 5, 2 linhas e 3 colunas

Matriz NumPy

É uma subclasse de ndarray

Criar matriz

Use ponto e vírgula para separar dados

matr1 = np.mat("1 2 3;4 5 6;7 8 9")

Crie uma matriz usando listas

matr2 = np.matriz([[1,2,3],[4,5,6],[7,8,9]])

Combine matrizes pequenas em matrizes grandes

matr3 = np.bmat("arr1 arr2; arr1 arr2")

propriedades da matriz

Operações de Matriz

função ufunc

efeito

Funções que podem processar matrizes ndarray podem ser usadas diretamente.

Operações comuns

Aritmética

operação de comparação

operação lógica

A função np.all(x) significa usar AND lógico para x

A função np.any(x) significa usar OR lógico para x

mecanismo de transmissão

Refere-se à maneira como as operações aritméticas são realizadas entre matrizes de diferentes formatos.

em princípio

Deixe todas as matrizes de entrada serem alinhadas com a matriz com a forma mais longa, e a parte que falta da forma é compensada adicionando 1 na frente.

A forma da matriz de saída é o valor máximo em cada eixo da forma da matriz de entrada

Se um eixo da matriz de entrada tiver o mesmo comprimento que o eixo correspondente da matriz de saída ou seu comprimento for 1, então esta matriz poderá ser usada para cálculo, caso contrário ocorrerá um erro

Quando o comprimento de um eixo da matriz de entrada é 1, o primeiro conjunto de valores neste eixo é usado ao operar ao longo deste eixo.

Ler e gravar arquivos

arquivo binário

numpy.save(arquivo,arr,allow_pickle=True,fix_imports=True)

Nota: O diretório no caminho de salvamento deve existir! A função salvar não cria diretórios automaticamente.

numpy.load(arquivo, mmap_mode=Nenhum, permitir_pickle=True, fix_imports=True, encoding='ASCII')

arquivo de texto

np.savetxt(fname, X, fmt='%.18e', delimitador=' ', nova linha=' ', cabeçalho='', rodapé='', comentários='# ')

numpy.loadtxt(FILENAME, dtype=int, delimitador=' ')

Análise simples

organizar

classificação direta

Refere-se à classificação direta de valores

numpy.sort(a, eixo, tipo, ordem)

matriz para classificar

eixo

O eixo ao longo do qual a matriz é classificada ou ao longo do último eixo, se nenhuma matriz for expandida

tipo

O padrão é 'quicksort' (classificação rápida)

ordem

Se a matriz contiver campos, o campo a ser classificado

classificação indireta

Refere-se à classificação de um conjunto de dados com base em uma ou mais chaves

numpy.argsort(a)

A função executa uma classificação indireta da matriz de entrada ao longo de um determinado eixo e retorna uma matriz de índices (subscritos) dos dados usando o tipo de classificação especificado.

numpy.lexsort(a,b)

A função executa uma classificação indireta usando uma sequência de chaves, que pode ser considerada como uma coluna em uma planilha, e retorna uma matriz de índices (subscritos)

Remover duplicatas

numpy.unique

função estatística

matplotlib

introduzir

Fornece uma variedade de funções de desenho matemático, que podem facilmente desenhar gráficos de dados.

Outras ferramentas estatísticas visuais

gráfico eletrônico

palavra nuvem

método padrão

Processo básico

Criar tela

Subtrama selecionada

Definir eixo X, Y

Adicionar legenda (detalhes)

salvar exibição

Análise de etapas

Criar tela

plt.figura(figtamanho=(x,y))

Se você tiver uma tela, poderá criar vários gráficos

plt.subplot(nrows, ncols, índice)

O parâmetro nrows especifica em quantas linhas a área do gráfico de dados é dividida

O parâmetro ncols especifica em quantas colunas a área do gráfico de dados é dividida

O parâmetro index especifica qual área obter

Subtrama selecionada

gráfico de linha

trama

Gráfico de dispersão

espalhar

Gráfico de barras

nível

bar

vertical

barh

Histograma

história

gráfico de pizza

torta

...

Definir eixo X, Y

Eixos

trama

plt.plot(x,y)

x e y são duas matrizes. Se você inserir apenas uma, o eixo x padrão será o subscrito da matriz.

Existem também parâmetros como cor, transparência, estilo, largura, etc.

plt.plot(x, y, color='verde',alfa=0,5,linestyle='-',linewidth=3,marcador='*')

Adicionar legenda (detalhes)

Título, limites superior e inferior de intervalo, legenda, segmentação, layout, eixo, etc.

Definir título

plt.xlabel('Tempo')

plt.ylabel("Temp")

plt.title('Título')

Exibição chinesa

plt.rcParams['font.sans-serif'] = ['SimHei']

Escala personalizada do eixo X

plt.xticks(intervalo(0,len(x),4),x[::4],rotação=45)

Intervalo do eixo X e limites superior e inferior

plt.set_xlim([xmin, xmax]) #Define o intervalo do eixo X

plt.axis([xmin, xmax, ymin, ymax]) #X, intervalo do eixo Y

plt.set_ylim(bottom=-10) # Limite inferior do eixo Y

plt.set_xlim(right=25) #Limite superior do eixo X

método rápido

importar matplotlib.pyplot como plt plt.plot(x,y) plt.show()

Pandas

Características

Ele fornece objetos simples e eficientes com rótulos padrão (você também pode personalizar rótulos).

Capacidade de carregar rapidamente dados de arquivos em diferentes formatos (como arquivos Excel, CSV, SQL) e depois convertê-los em objetos processáveis;

Capaz de agrupar dados por rótulos de linha e coluna e realizar operações de agregação e transformação em objetos agrupados;

Ele pode implementar facilmente operações de normalização de dados e processamento de valores ausentes;

É fácil adicionar, modificar ou excluir colunas de dados do DataFrame;

Capaz de lidar com conjuntos de dados em diferentes formatos, como dados matriciais, tabelas de dados heterogêneos, séries temporais, etc.;

Fornece uma variedade de maneiras de processar conjuntos de dados, como construção de subconjuntos, fatiamento, filtragem, agrupamento e reordenação.

Estruturas de dados integradas

Series

definição

1 dimensão, capaz de armazenar vários tipos de dados, como caracteres, inteiros, números de ponto flutuante, objetos Python, etc. A série usa atributos de nome e índice para descrever valores de dados.

criar

s=pd.Series(dados, índice, dtype, cópia)

dados

Os dados de entrada podem ser escalares, listas, dicionários, matrizes ndarray, etc.

índice

O valor do índice deve ser único; se nenhum índice for passado, o padrão é np.arrange(n).

tipo d

dtype representa o tipo de dados. Se não for fornecido, será determinado automaticamente.

cópia de

Indica cópia de dados, o padrão é False.

Operações básicas

acesso

índice de subscrito

Lista semelhante

índice de tags

Semelhante ao dicionário

Cálculos e operações Numpy são aplicáveis

Pode ser fatiado

Propriedades comuns

tipo d

Retorna o tipo de dados do objeto.

vazio

Retorna um objeto Series vazio.

ndim

Retorna a dimensionalidade dos dados de entrada.

tamanho

Retorna o número de elementos dos dados de entrada.

A diferença entre tamanho e contagem: tamanho inclui valores NaN durante a contagem, mas contagem não inclui valores NaN.

valores

Retorna um objeto Series como um ndarray.

índice

Retorna um objeto RangeIndex usado para descrever o intervalo de valores do índice.

Métodos comuns

descrever()

contagem: estatísticas de quantidade, quantos valores válidos existem nesta coluna? unipue: Quantos valores diferentes existem? std: desvio padrão min: valor mínimo 25%: quartil 50%: meio percentil 75%: três quartos máx: valor máximo significar: significar

head()&tail() para visualizar dados

head(n) retorna as primeiras n linhas de dados e exibe as primeiras 5 linhas de dados por padrão

tail(n) retorna as últimas n linhas de dados, o padrão são as últimas 5 linhas

isnull()&nonull() detecta valores ausentes

isnull(): Retorna True se o valor não existir ou estiver faltando.

notnull(): Retorna False se o valor não existir ou estiver faltando.

valor_contagens

Frequência estatística

Quadro de dados

definição

2 dimensões, índice de linha e índice de coluna. O índice da linha é o índice e o índice da coluna são as colunas. Ao criar a estrutura, você pode especificar o valor do índice correspondente.

O tipo de dados de cada coluna da tabela pode ser diferente, como string, inteiro ou ponto flutuante, etc.

criar

df =pd.DataFrame(dados, índice, colunas, dtype, cópia)

dados

Os dados de entrada podem ser uma lista, uma lista aninhada de dicionário, um dicionário aninhado de lista, uma série na forma de um dicionário, etc.

Operações de índice de coluna

O índice da coluna seleciona colunas de dados

imprimir(df ['um'])

print(df[['palavra', 'caractere chinês', 'significado']])

Índice de coluna adiciona coluna de dados

df['três']=pd.Series([10,20,30],index=['a','b','c'])

df['quatro']=df['um'] df['três']

df.insert(1,coluna='pontuação',valor=[91,90,75])

O valor 1 representa a posição do índice inserida na lista de colunas

Coluna de dados de exclusão de índice de coluna

df.pop('dois')

Dividir colunas extraídas

df[df['nome_coluna'] == algum_valor]

Operações de índice de linha

índice de tags

df1.loc["b": "e", "bx": "ex"]

Fila primeiro, depois fila

índice de subscrito

df1.iloc[2: 6, 2: 4]

Fila primeiro, depois fila

índice híbrido

df1.ix[2: 6, "bx": "ex"]

Fila primeiro, depois fila

Seleção multilinha de operação de fatiamento

df[2: 4]

Adicionar linha de dados

df = df.append(df2)

Excluir linha de dados

df = df.drop(0)

Dividir linhas de busca

df.loc[df['nome_coluna'] == str]

Linhas de saída onde uma determinada coluna é NaN

df[df['palavra'].isna()]

Propriedades comuns

Transposição de linha e coluna.

eixos

Retorna uma lista com apenas rótulos de eixo de linha e coluna como membros.

dtypes

Retorna o tipo de dados de cada coluna de dados.

vazio

Se não houver dados no DataFrame ou o comprimento de qualquer eixo de coordenadas for 0, True será retornado.

ndim

O número de eixos também se refere à dimensão do array.

forma

Retorna uma tupla (a,b), onde a representa o número de linhas eb representa o número de colunas.

tamanho

Número de elementos no DataFrame

A diferença entre tamanho e contagem: tamanho inclui valores NaN durante a contagem, mas contagem não inclui valores NaN.

valores

Use matrizes numpy para representar valores de elementos em um DataFrame

Métodos comuns

descrever(incluir='todos')

Igual à série

Sem parâmetros, apenas colunas numéricas serão contadas.

cabeça()&cauda()

Igual à série

informação()

Ver informações

mudança()

Mover linhas ou colunas por comprimento de passada especificado

pivô()

Converta as colunas em um quadro de dados para que uma determinada coluna se torne um novo índice de linha e preencha a célula correspondente a esse índice com o valor de outra coluna.

parâmetro

índice: o nome da coluna que se tornará o novo índice de linha

colunas: o nome da coluna que se tornará o novo índice da coluna

valores: os nomes das colunas que preencherão as células entre o novo índice de linha e o novo índice de coluna

sort_values(by='Nome da coluna ou valor de índice para classificação', axis=0, ascendente=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)

sort_index(axis=0, level=None, ascendente=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)

eixo: o eixo é padronizado como 0, o que significa que a classificação de acordo com o índice da linha é definido como 1, o que significa a classificação de acordo com o índice da coluna; nível: o padrão é Nenhum, caso contrário, será organizado na ordem de nível especificada. ascendente: o padrão ascendente é True, que é a ordem crescente, e quando definido como False, é a ordem decrescente. inplace: o padrão é False, caso contrário, os dados classificados substituirão diretamente o quadro de dados original. tipo: método de classificação, {'quicksort', 'mergesort', 'heapsort'}, padrão 'quicksort'. Os usuários podem escolher seus próprios na_position: Os valores ausentes são classificados por último por padrão {"primeiro", "último"}, o parâmetro "primeiro" coloca NaN no início e "último" coloca NaN no final. ignore_index: Booleano, o padrão é False, se for True, então o eixo é o rótulo 0, 1, 2; chave: esta é uma função que pode ser chamada que executa a função chave no valor do índice antes da classificação. Isso é um pouco semelhante à função key na função integrada sorted()

Atravessar

Iterar em cada linha

para índice, linha em df.iterrows():

Iterar em cada coluna

para coluna, valor em df.iteritems():

Limpeza de tabela de dados

Preencha os valores vazios com o número 0

df.fillna(valor=0)

Use a média da coluna Prince para preencher a coluna NA

df['príncipe'].fillna(df['príncipe'].mean())

Limpar espaços de caracteres no campo da cidade

df['cidade']=df['cidade'].map(str.strip)

Conversão de caso

df['cidade']=df['cidade'].str.lower()

Conversão de tipo de dados

df['preço'].astype(int)

Alterar índice de coluna/linha

Modificar tudo

Índice manuscrito

df.columns=['a','b','c']

df.index=['a','b','c']

Índice de referência

df.set_columns("idx",inplace=Falso)

df.set_index("col",inplace=Falso)

Modificação parcial

df.rename(colunas={'categoria': 'tamanho da categoria'},inplace=Falso)

df.rename(index={'categoria': 'tamanho da categoria'},inplace=Falso)

repita

Encontre duplicatas: df.duplicated() pode retornar um array booleano indicando se cada linha é uma duplicata.

Valores duplicados que aparecem após a exclusão

df['cidade'].drop_duplicates()

Remova os valores duplicados que aparecem primeiro

df['cidade'].drop_duplicates(keep='último')

Selecione a chave primária

subset=['número do aluno']

Remover NaN

df2=df.dropna(axis=0,how="all",inplace=False)

how="all" significa que uma determinada linha (coluna) será excluída somente se todos os NaNs estiverem presentes. how="any" significa que enquanto houver um NaN, ele será excluído (padrão)

substituição de dados

df['cidade'].replace('sh', 'xangai')

Mesclagem de tabela de dados

mesclar

pd=pd.merge(df,df1,how='inner') #match, mesclagem, interseção, padrão df_left=pd.merge(df,df1,how='esquerda') df_right=pd.merge(df,df1,how='certo') df_outer=pd.merge(df,df1,how='outer') #Union, o efeito é o mesmo das duas primeiras combinações

acrescentar

Foi descontinuado, é recomendado usar concat

juntar

concat

pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)

Estatisticas

var()

variação

cobre()

Covariância

Resumo

Amostra 1

df = pd.DataFrame({ 'A': ['a', 'b', 'a', 'c', 'a', 'c', 'b', 'c'], 'B': [2, 8, 1, 4, 3, 2, 5, 9], 'C': [102, 98, 107, 104, 115, 87, 92, 123]})

método

Agrupe pela coluna A e obtenha a média das outras colunas

df.groupby('A').mean()

Retire uma determinada coluna

imprimir(df.groupby('chave1')['dados1'].mean())

Agrupar por múltiplas colunas (groupby)

df.groupby(['A','B']).mean()

Amostra 2

df = pd.DataFrame({' A': lista('XYZXYZXYZX'), 'B': [1, 2, 1, 3, 1, 2, 3, 3, 1, 2], 'C': [12, 14, 11, 12, 13, 14, 16, 12, 10, 19]})

método

Execute diferentes operações estatísticas ao usar agg() em uma coluna

df.groupby('A')['B'].agg({'média':np.média, 'desvio padrão': np.std})

operação lambda

Compensação de Pontos Minoritários

df['Pontuação Extra'] = df['Nacionalidade'].aplicar (lambda x: 5 se x! = '汉' senão 0)

passar no exame

df['pass_reading'] = df['pontuação de leitura'].apply (lambda x: 'Aprovado' se x >= 60 senão 'Falha')

Desenhe uma imagem

machado = série1.plot(kind='bar')

fig = ax.get_figure() fig.subplots_adjust(fundo=0,4) fig.savefig('output.png')

pd.plot(kind='dispersão',x="a",y="b",alfa=0,1)

alfa é transparência

pd.hist(bins=50,figsize=(7,7))

Entrada e saída de dados

digitar

leia csv

df = pd.read_csv("mtcars.csv", codificação="utf-8")

Escreva no Excel

df = pd.read_excel("mtcars.csv")

saída

Escreva no Excel

pd.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

Escreva para CSV

pd.to_csv('excel_to_python.csv')

A diferença entre Pandas e NumPy

data hora

A subclasse 1).date pode criar dados de séries de data e tempo, a subclasse 2).time pode criar dados de hora e minuto e a subclasse 3).datetime pode descrever dados de data, hora e minuto.

importar data e hora cur = datahora.datetime(2018,12,30,15,30,59) imprimir cur, digite (cur) d = datahora.data(2018,12,30) imprimir t = datetime.datetime(2018,12,30).now() imprimir t

30/12/2018 15:30:59 <tipo 'datetime.datetime'> 30/12/2018 16/12/2018 15:35:42.757826

4). Você pode usar o módulo timedelta de datetime para fornecer o intervalo de tempo (diferença).

importar data e hora cur0 = datahora.datahora(2018,12,30,15,30,59) imprimir cur0 cur1 = cur0 datetime.timedelta(dias = 1) imprimir cur1 cur2 = cur0 datetime.timedelta(minutos = 10) imprimir cur2 cur3 = cur0 datetime.timedelta(minutos = 29, segundos = 1) imprimir cur3

30/12/2018 15:30:59 #cur0 31/12/2018 15:30:59 #cur1 30/12/2018 15:40:59 #cur2 30/12/2018 16:00:00 #cur3

Crie dados de série temporal com dados de data e hora. Isso significa usar o horário de criação de data e hora como índice.

de data e hora importar data e hora, timedelta importar numpy como np importar pandas como pd b = datahora(2018,12,16,17,30,55) vi = np.random.randn(60) ind = [] para x no intervalo (60): bi = b timedelta(minutos = x) ind.append(bi) ts = pd.Series(vi, índice = ind) imprimir ts[:5]

16/12/2018 17:30:55 -1.469098 16/12/2018 17:31:55 -0,583046 16/12/2018 17:32:55 -0,775167 16/12/2018 17:33:55 -0,740570 16/12/2018 17:34:55 -0,287118 tipo d: float64

Reabastecimento

tipo

Aula histórica

Mapeia um valor para uma quantidade representada como um número inteiro

Aula de PMF

Mapeia um valor para uma probabilidade expressa como um número de ponto flutuante

O processo acima é chamado de normalização, ou seja, a probabilidade soma 1

Classe CDF

Desvantagens do PMF

Aplicabilidade do PMF: Quando os dados a serem processados são relativamente pequenos

À medida que os dados aumentam, a probabilidade de cada valor diminui e o impacto do ruído aleatório aumenta.

Solução

Agrupamento de dados: determinar o tamanho do intervalo de agrupamento requer habilidades

Quando o intervalo de agrupamento é grande o suficiente para eliminar o ruído, informações úteis podem ser descartadas.

CDF

função de distribuição cumulativa

Pode descrever completamente a distribuição de probabilidade de uma variável aleatória real X, que é a integral da função de densidade de probabilidade.

classificação percentil

Tomemos como exemplo as pontuações dos testes: apresentadas em duas formas 1. Pontuação bruta 2. Classificação percentual: A proporção de pessoas cujas pontuações originais não são superiores às suas entre o número total de participantes do teste é multiplicada por 100. Por exemplo: se alguém está no percentil 90, significa que sua pontuação é melhor que 90% das pessoas ou pelo menos não pior que 90% dos participantes do teste;

Depois de calcular o CDF, o percentil e a classificação percentil podem ser calculados mais facilmente.

função

Classificação Percentil(x)

Para um determinado valor x, calcule sua classificação percentual

100*CDF(x)

Percentil (p): Para uma determinada classificação percentil, calcule o valor x correspondente;

intervalo interquartil

quartis

O intervalo interquartil é um indicador estatístico que descreve a distribuição de dados discretos. Representa as posições percentuais 25, 50 e 75 nos dados, respectivamente.

intervalo interquartil

O quartil superior menos o quartil inferior é o intervalo de quatro quartos.

efeito

O intervalo interquartil representa o grau de dispersão dos dados. Quanto maior o intervalo interquartil, maior o grau de dispersão dos dados.

boxplot

Com o valor mínimo, quartil inferior, mediana, quartil superior e valor máximo, podemos desenhar um box plot.

Valores discrepantes

A propósito, podemos introduzir uma forma de definir valores discrepantes: se um valor for extremamente pequeno, menor que o quartil inferior menos 1,5 vezes o intervalo interquartil, ele pode ser contado como um valor discrepante, correspondentemente, se um valor for extremamente grande, é; menor que o quartil inferior menos 1,5 vezes o intervalo interquartil O quartil superior mais 1,5 vezes o intervalo interquartil é ainda maior e também pode ser contado como um valor atípico.

CCDF(a) = P(X > a)= 1- CDF(a)

conceito

PDF: função de densidade de probabilidade Em matemática, a função de densidade de probabilidade de uma variável aleatória contínua (pode ser simplesmente chamada de função de densidade quando não é confusa) é um valor de saída que descreve a variável aleatória em uma determinada função A da probabilidade. perto de um ponto de valor.

PMF: Função de massa de probabilidade Na teoria da probabilidade, a função de massa de probabilidade é a probabilidade de uma variável aleatória discreta assumir um valor específico.

CDF: Função de distribuição cumulativa (função de distribuição cumulativa), também chamada de função de distribuição, é a integral da função de densidade de probabilidade, que pode descrever completamente a distribuição de probabilidade de uma variável aleatória real X.

Modelagem de distribuição

distribuição de índice

distribuição normal

Função densidade de probabilidade

função de distribuição cumulativa

distribuição lognormal

Se um conjunto de valores segue uma distribuição normal após a transformação logarítmica, diz-se que segue uma distribuição lognormal. Ou seja, use log(x) para substituir x na distribuição normal.

Distribuição de Pareto Pareto

relação entre variáveis

Covariância

A covariância pode ser usada para medir se as tendências de mudança de variáveis relacionadas são as mesmas e também pode ser usada para medir o erro geral de duas variáveis.

Como os valores e as unidades são difíceis de interpretar, geralmente são menos utilizados.

A variância pode ser vista como um caso especial de covariância, quando duas variáveis são idênticas.

Se as tendências de mudança de duas variáveis forem consistentes, isto é, se uma delas for maior que o seu próprio valor esperado e a outra for maior que o seu próprio valor esperado, então a covariância entre as duas variáveis é positiva;

Se as tendências de mudança de duas variáveis forem opostas, ou seja, uma variável for maior que o seu próprio valor esperado e a outra for menor que o seu próprio valor esperado, então a covariância entre as duas variáveis é negativa;

Classificação Pearson Pearson

Âmbito de aplicação

A distribuição das variáveis nos dois conjuntos de dados é normal e existe uma relação linear entre os dois.

Substitua a fração padrão pelo valor original e calcule o produto de duas frações padrão

é chamado de coeficiente de correlação de Pearson, onde -1<=p<=1, p=1: Indica que as duas variáveis estão completamente correlacionadas positivamente; p=-1: Indica que as duas variáveis estão completamente correlacionadas negativamente;

Classificação de lanceiro Lanceiro

Âmbito de aplicação

Existem valores discrepantes e a distribuição das variáveis é muito assimétrica:

Primeiro calcule a classificação do valor na sequência: ou seja, a posição classificada de um determinado valor na sequência e, em seguida, calcule o coeficiente de correlação de Pearson da classificação.

Amostra

Sequência {7, 1, 2, 5} Classifique a sequência de pequena para grande, o resultado é {4, 1, 2, 3} Então a classificação de 5 é 3