마인드 맵 갤러리 지능형 통계 기술
numpy, pandas, plt 라이브러리의 사용법을 자세히 설명하고 있어 모든 사람에게 도움이 되기를 바랍니다.
2024-02-04 00:48:40에 편집됨이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
지능형 통계 기술
소개
교과서
통계적 사고: 프로그래머를 위한 확률 통계 수학
Python 데이터 분석 및 응용
데이터를 분석하다
명확한 목표
전제 조건
방향
데이터 수집
데이터 베이스
다른
데이터 처리
세정(전처리)
전환하다
발췌
계산하다
데이터 분석
데이터 분석
팬더
데이터 수집
데이터 표시
차트
시트
단어
콘텐츠
확률 이론
통계
정량분석 구현
호출된 도서관
넘파이
배열 및 행렬 연산
매우 효율적
Matplotlib
차트, 시각화
팬더
이름의 유래
패널 데이터 및 데이터 분석
기능
데이터 분석 및 탐색
고급 데이터 구조
시리즈
1차원 데이터
데이터프림
2D 데이터
넘파이
소개하다
강력한 N차원 배열 ndarray
방송 기능 기능 ufunc
C/C/Fortran 코드 통합을 위한 도구
선형 대수학, 푸리에 변환, 난수 생성 및 기타 기능
은다레이
효과
단일 데이터 유형의 다차원 배열을 저장합니다.
만들다
기존 데이터에서 다차원 배열 만들기
목록, 튜플 객체에서 생성 - array()
np.array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)
객체 — 목록 또는 튜플 객체, 필수 매개변수
dtype — 데이터 유형
복사 — 객체가 복사됩니다
순서 — 특정 순서로 배열을 정렬합니다. C - 행 기준, A - 입력이 F인 경우 열 기준, 그렇지 않으면 행 기준으로 유지합니다.
subok —반환된 배열은 기본 클래스 배열로 강제 변환됩니다.
ndmin — 최소 차원
문자열에서 읽기 - fromstring()
np.fromstring(string, dtype=float, count=-1, sep=”)
특정 모양의 다차원 배열 만들기
'모두 1' 배열 만들기 - ones()
np.ones(모양, dtype=없음, 순서='C')
'모두 0'으로 구성된 배열 만들기 - zeros()
np.zeros(shape, dtype=float, order='C')
빈 배열 만들기 - 비어 있음()
np.empty(shape, dtype=float, order='C')
배열을 자율적으로 채우기 - full()
np.full(shape, fill_value, dtype=None, order='C')
항등 행렬 생성 - eye()
np.full(n)
숫자 범위에서 다차원 배열 만들기
산술 시퀀스의 배열 만들기 - arange()
np.arange(시작=0, 중지, 단계=1, dtype=없음)
산술 수열 배열 만들기 - linspace()
np.linspace(시작, 중지, num=50, 끝점=True, retstep=False, dtype=None)
num은 동일한 부분의 수입니다.
속성
응딤
치수
모양
각 차원의 길이
크기
총 요소 수
dtype
요소 유형
항목 크기
배열의 각 요소의 크기
인덱싱 및 슬라이싱
목록과 동일
방법
모양을 바꾸다(a,b)
행 a와 열 b가 있는 행렬로 변경
반복(4, 축=1)
4번 복사해서 오른쪽에 추가
numpy.random
np.random.rand(2, 3)
숫자값은 [0,1], 2행 3열
np.random.randint(5, 크기 = (2, 3))
값이 5개 미만, 행 2개, 열 3개입니다.
NumPy 행렬
ndarray의 하위 클래스입니다.
행렬 만들기
세미콜론을 사용하여 데이터 구분
matr1 = np.mat("1 2 3;4 5 6;7 8 9")
목록을 사용하여 행렬 만들기
matr2 = np.matrix([[1,2,3],[4,5,6],[7,8,9]])
작은 행렬을 큰 행렬로 결합
matr3 = np.bmat("arr1 arr2; arr1 arr2")
행렬 속성
매트릭스 연산
ufunc 함수
효과
ndarray 배열을 처리할 수 있는 함수를 직접 사용할 수 있습니다.
일반적인 작업
산수
비교 연산
논리 연산
np.all(x) 함수는 x에 대해 논리 AND를 사용하는 것을 의미합니다.
np.any(x) 함수는 x에 대해 논리적 OR을 사용하는 것을 의미합니다.
방송 메커니즘
서로 다른 모양의 배열 사이에서 산술 연산이 수행되는 방식을 나타냅니다.
원칙적으로
모든 입력 배열을 가장 긴 모양의 배열에 맞춰 정렬하고, 모양의 누락된 부분은 앞에 1을 추가하여 보충합니다.
출력 배열의 모양은 입력 배열 모양의 각 축의 최대값입니다.
입력 배열의 축 길이가 출력 배열의 해당 축과 같거나 길이가 1이면 이 배열을 계산에 사용할 수 있으며, 그렇지 않으면 오류가 발생합니다.
입력 배열의 축 길이가 1인 경우 이 축을 따라 작업할 때 이 축의 첫 번째 값 집합이 사용됩니다.
파일 읽기 및 쓰기
바이너리 파일
numpy.save(파일, arr,allow_pickle=True, fix_imports=True)
참고: 저장 경로에 디렉터리가 존재해야 합니다! 저장 기능은 디렉토리를 자동으로 생성하지 않습니다.
numpy.load(파일, mmap_mode=없음,allow_pickle=True, fix_imports=True, 인코딩='ASCII')
텍스트 파일
np.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline=' ', header='', footer='', comments='# ')
numpy.loadtxt(FILENAME, dtype=int, delimiter=' ')
단순분석
종류
직접 정렬
값을 직접 정렬하는 것을 말합니다.
numpy.sort(a, 축, 종류, 순서)
ㅏ
정렬할 배열
중심선
배열이 정렬되는 축 또는 배열이 확장되지 않는 경우 마지막 축을 따릅니다.
친절한
기본값은 'quicksort'(빠른 정렬)입니다.
주문하다
배열에 필드가 포함된 경우 정렬할 필드
간접 정렬
하나 이상의 키를 기반으로 데이터 세트를 정렬하는 것을 의미합니다.
numpy.argsort(a)
이 함수는 지정된 축을 따라 입력 배열에 대해 간접 정렬을 수행하고 지정된 정렬 유형을 사용하여 데이터의 인덱스(아래 첨자) 배열을 반환합니다.
numpy.lexsort(a,b)
이 함수는 스프레드시트의 열로 간주할 수 있는 일련의 키를 사용하여 간접 정렬을 수행하고 인덱스(아래 첨자) 배열을 반환합니다.
중복 제거
numpy.unique
통계 함수
matplotlib
소개하다
데이터 차트를 쉽게 그릴 수 있는 풍부한 수학적 그리기 기능을 제공합니다.
기타 시각적 통계 도구
전자 차트
단어 구름
표준 방법
기본 프로세스
캔버스 만들기
<하위 그래프 생성 여부>
선택된 서브플롯
X, Y축 설정
범례 추가(세부정보)
<드로잉 완료 여부>
디스플레이 저장
단계 분석
캔버스 만들기
plt.Figure(figsize=(x,y))
캔버스가 있으면 여러 그래픽을 만들 수 있습니다
plt.subplot(nrows, ncols, index)
nrows 매개변수는 데이터 그래프 영역이 몇 개의 행으로 나누어지는지 지정합니다.
ncols 매개변수는 데이터 그래프 영역이 몇 개의 열로 나누어지는지 지정합니다.
index 매개변수는 얻을 영역을 지정합니다.
선택된 서브플롯
꺾은선형 차트
구성
산포도
흩어지게하다
막대 차트
수준
술집
수직의
바
히스토그램
역사
파이 차트
파이
...
X, Y축 설정
축
구성
plt.plot(x,y)
x와 y는 두 개의 배열입니다. 하나만 입력하면 기본 x축은 배열 첨자가 됩니다.
색상, 투명도, 스타일, 너비 등과 같은 매개변수도 있습니다.
plt.plot(x, y, color='green',alpha=0.5,linestyle='-',linewidth=3,marker='*')
범례 추가(세부정보)
제목, 간격 상하한, 범례, 분할, 레이아웃, 축 등
제목 설정
plt.xlabel('시간')
plt.ylabel("온도")
plt.title('제목')
중국 디스플레이
plt.rcParams['font.sans-serif'] = ['심헤이']
사용자 정의 X축 배율
plt.xticks(범위(0,len(x),4),x[::4],회전=45)
X축 간격과 상한 및 하한
plt.set_xlim([xmin, xmax]) #X축 간격 설정
plt.axis([xmin, xmax, ymin, ymax]) #X, Y축 간격
plt.set_ylim(bottom=-10) #Y축 하한
plt.set_xlim(right=25) #X축 상한
빠른 방법
matplotlib.pyplot을 plt로 가져오기 plt.plot(x,y) plt.show()
팬더
특징
기본 레이블이 있는 간단하고 효율적인 객체를 제공합니다(레이블을 사용자 정의할 수도 있음).
다양한 형식(예: Excel, CSV, SQL 파일)의 파일에서 데이터를 빠르게 로드한 다음 처리 가능한 개체로 변환하는 기능
행 및 열 레이블을 기준으로 데이터를 그룹화하고 그룹화된 개체에 대해 집계 및 변환 작업을 수행하는 기능
데이터 정규화 작업과 결측값 처리를 쉽게 구현할 수 있습니다.
DataFrame의 데이터 열을 추가, 수정 또는 삭제하는 것은 쉽습니다.
행렬 데이터, 이종 데이터 테이블, 시계열 등과 같은 다양한 형식의 데이터 세트를 처리할 수 있습니다.
하위 집합 구축, 슬라이싱, 필터링, 그룹화, 재정렬 등 데이터 집합을 처리하는 다양한 방법을 제공합니다.
내장된 데이터 구조
시리즈
정의
문자, 정수, 부동 소수점 숫자, Python 객체 등과 같은 다양한 데이터 유형을 저장할 수 있는 1차원입니다. 시리즈는 이름 및 인덱스 속성을 사용하여 데이터 값을 설명합니다.
만들다
s=pd.Series(데이터, 인덱스, dtype, 복사)
데이터
입력 데이터는 스칼라, 목록, 사전, ndarray 배열 등이 될 수 있습니다.
색인
인덱스 값은 고유해야 하며, 인덱스가 전달되지 않으면 기본값은 np.arrange(n)입니다.
dtype
dtype은 데이터 유형을 나타냅니다. 제공되지 않으면 자동으로 결정됩니다.
복사
데이터 복사를 나타냅니다. 기본값은 False입니다.
기본 조작
입장
아래 첨자 색인
유사한 목록
태그 인덱스
사전과 비슷함
Numpy 계산 및 연산이 적용 가능합니다.
슬라이스 가능
공통 속성
dtype
객체의 데이터 유형을 반환합니다.
비어 있는
빈 Series 객체를 반환합니다.
응딤
입력 데이터의 차원을 반환합니다.
크기
입력 데이터의 요소 수를 반환합니다.
크기와 개수의 차이: 크기에는 계산 시 NaN 값이 포함되지만 개수에는 NaN 값이 포함되지 않습니다.
가치
Series 객체를 ndarray로 반환합니다.
색인
인덱스의 값 범위를 설명하는 데 사용되는 RangeIndex 개체를 반환합니다.
일반적인 방법
설명하다()
count: 수량 통계, 이 열에 유효한 값이 몇 개 있습니까? unipue: 얼마나 많은 값이 있나요? std: 표준편차 min: 최소값 25%: 사분위수 50%: 1/2 백분위수 75%: 4분의 3 최대: 최대값 뜻: 뜻
데이터를 보기 위한 head()&tail()
head(n)은 데이터의 처음 n개 행을 반환하고 기본적으로 데이터의 처음 5개 행을 표시합니다.
tail(n)은 데이터의 마지막 n개 행을 반환하며 기본값은 마지막 5개 행입니다.
isnull()&nonull()은 누락된 값을 감지합니다.
isnull(): 값이 존재하지 않거나 누락된 경우 True를 반환합니다.
notnull(): 값이 존재하지 않거나 누락된 경우 False를 반환합니다.
value_counts
통계빈도
데이터프레임
정의
행 인덱스와 열 인덱스 모두 2개의 차원입니다. 행 인덱스는 인덱스이고 열 인덱스는 열입니다. 구조를 생성할 때 해당 인덱스 값을 지정할 수 있습니다.
테이블에 있는 각 열의 데이터 유형은 문자열, 정수 또는 부동 소수점 등과 같이 다를 수 있습니다.
만들다
df =pd.DataFrame(데이터, 인덱스, 열, dtype, 복사)
데이터
입력 데이터는 목록, 사전 중첩 목록, 목록 중첩 사전, 사전 형태의 시리즈 등이 될 수 있습니다.
열 인덱스 작업
열 인덱스는 데이터 열을 선택합니다.
print(df ['1'])
print(df[['단어', '한자', '의미']])
열 인덱스는 데이터 열을 추가합니다.
df['3']=pd.Series([10,20,30],index=['a','b','c'])
df['4']=df['1'] df['3']
df.insert(1,column='score',value=[91,90,75])
값 1은 열 목록에 삽입된 인덱스 위치를 나타냅니다.
열 인덱스 삭제 데이터 열
df.pop('두')
추출된 열 분할
df[df['열_이름'] == 일부_값]
행 인덱스 작업
태그 인덱스
df1.loc["b" : "e", "bx" : "ex"]
먼저 행을 작성한 후 대기열에 넣기
아래 첨자 색인
df1.iloc[2 : 6, 2 : 4]
먼저 행을 작성한 후 대기열에 넣기
하이브리드 지수
df1.ix[2 : 6, "bx" : "ex"]
먼저 행을 작성한 후 대기열에 넣기
슬라이싱 작업 다중 라인 선택
df[2 : 4]
데이터 행 추가
df = df.append(df2)
데이터 행 삭제
df = df.drop(0)
가져오기 행 분할
df.loc[df['열_이름'] == str]
특정 열이 NaN인 출력 행
df[df['단어'].isna()]
공통 속성
티
행과 열의 전치.
축
행 및 열 축 레이블만 멤버로 포함된 목록을 반환합니다.
dtypes
각 데이터 열의 데이터 유형을 반환합니다.
비어 있는
DataFrame에 데이터가 없거나 좌표축의 길이가 0이면 True가 반환됩니다.
응딤
축 수는 배열의 차원을 나타내기도 합니다.
모양
튜플 (a,b)를 반환합니다. 여기서 a는 행 수를 나타내고 b는 열 수를 나타냅니다.
크기
DataFrame의 요소 수
크기와 개수의 차이: 크기에는 계산 시 NaN 값이 포함되지만 개수에는 NaN 값이 포함되지 않습니다.
가치
numpy 배열을 사용하여 DataFrame의 요소 값을 나타냅니다.
일반적인 방법
설명(포함='모두')
시리즈와 동일
매개변수가 없으면 숫자 열만 계산됩니다.
머리()&꼬리()
시리즈와 동일
정보()
정보 보기
옮기다()
지정된 보폭만큼 행 또는 열 이동
피벗()
특정 열이 새로운 행 인덱스가 되도록 데이터 프레임의 열을 변환하고, 이 인덱스에 해당하는 셀을 다른 열의 값으로 채웁니다.
매개변수
index : 새로운 행 인덱스가 될 컬럼 이름
columns: 새 열 인덱스가 될 열 이름
값: 새 행 인덱스와 새 열 인덱스 사이의 셀을 채울 열 이름
sort_values(by='정렬을 위한 열 이름 또는 인덱스 값', 축=0, 오름차순=True, inplace=False, kind='quicksort', na_position='last',ignore_index=False, key=None)
sort_index(축=0, 레벨=없음, 오름차순=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True,ignore_index=False, key=None)
axis: 축의 기본값은 0입니다. 이는 행 인덱스에 따른 정렬을 의미합니다. 축은 1로 설정되며, 이는 열 인덱스에 따른 정렬을 의미합니다. level: 기본값은 None이고, 그렇지 않으면 주어진 레벨 순서대로 정렬됩니다. 오름차순: 오름차순은 기본값인 True로 오름차순이며, False로 설정하면 내림차순입니다. inplace: 기본값은 False입니다. 그렇지 않으면 정렬된 데이터가 원본 데이터 프레임을 직접 대체합니다. 종류: 정렬 방법, {'quicksort', 'mergesort', 'heapsort'}, 기본값은 'quicksort'. 사용자는 선택할 수 있습니다 na_position: 누락된 값은 기본적으로 {"first", "last"}에 의해 마지막으로 순위가 매겨지며, 매개변수 "first"는 NaN을 맨 앞에 두고, "last"는 NaN을 맨 뒤에 둡니다. ignore_index: 부울, 기본값은 False, True인 경우 축은 레이블 0, 1, 2입니다. key: 정렬 전 index 값에 대해 key 함수를 실행하는 호출 가능한 함수입니다. 이는 내장된 sorted() 함수의 key 함수와 다소 유사합니다.
횡단
각 행을 반복합니다.
인덱스의 경우 df.iterrows()의 행:
각 열을 반복합니다.
열의 경우 df.iteritems()의 값:
데이터 테이블 정리
빈 값을 숫자 0으로 채웁니다.
df.fillna(값=0)
컬럼 프린스의 평균을 사용하여 NA 열을 채웁니다.
df['왕자'].fillna(df['왕자'].mean())
도시 필드의 문자 공백 지우기
df['도시']=df['도시'].map(str.strip)
대소문자 변환
df['도시']=df['도시'].str.lower()
데이터 유형 변환
df['가격'].astype(int)
열/행 인덱스 변경
모두 수정
필기 색인
df.columns=['a','b','c']
df.index=['a','b','c']
참조 색인
df.set_columns("idx",inplace=False)
df.set_index("col",inplace=False)
부분 수정
df.rename(columns={'category': 'category-size'},inplace=False)
df.rename(index={'category': 'category-size'},inplace=False)
반복하다
중복 찾기: df.duplicated()는 각 행이 중복인지 여부를 나타내는 부울 배열을 반환할 수 있습니다.
삭제 후 나타나는 중복된 값
df['city'].drop_duplicates()
먼저 나타나는 중복 값 제거
df['city'].drop_duplicates(keep='last')
기본 키 선택
부분 집합=['학생 번호']
NaN 제거
df2=df.dropna(axis=0,how="all",inplace=False)
How="all"은 NaN이 모두 존재하는 경우에만 특정 행(열)이 삭제된다는 의미입니다. How="any"는 NaN이 있는 한 삭제된다는 의미입니다(기본값).
데이터 교체
df['city'].replace('sh', '상하이')
데이터 테이블 병합
병합
pd=pd.merge(df,df1,how='inner') #일치, 병합, 교차점, 기본값 df_left=pd.merge(df,df1,how='왼쪽') df_right=pd.merge(df,df1,how='오른쪽') df_outer=pd.merge(df,df1,how='outer') #Union, 효과는 처음 두 조합과 동일
추가
더 이상 사용되지 않으므로 concat을 사용하는 것이 좋습니다.
가입하다
연결
pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)
통계
변수()
변화
코브()
공분산
요약
샘플 1
df = pd.DataFrame({ 'A': ['a', 'b', 'a', 'c', 'a', 'c', 'b', 'c'], 'B': [2, 8, 1, 4, 3, 2, 5, 9], 'C': [102, 98, 107, 104, 115, 87, 92, 123]})
방법
열 A별로 그룹화하고 다른 열의 평균을 얻습니다.
df.groupby('A').mean()
특정 열을 꺼내십시오.
print(df.groupby('key1')['data1'].mean())
여러 열로 그룹화(groupby)
df.groupby(['A','B']).mean()
샘플 2
df = pd.DataFrame({' A': 목록('XYZXYZXYZX'), 'B': [1, 2, 1, 3, 1, 2, 3, 3, 1, 2], 'C': [12, 14, 11, 12, 13, 14, 16, 12, 10, 19]})
방법
열에서 agg()를 사용할 때 다양한 통계 작업 수행
df.groupby('A')['B'].agg({'mean':np.mean, '표준편차': np.std})
람다 연산
소수 포인트 보상
df['추가점수'] = df['국적'].apply (람다 x : 5 if x != '汉' else 0)
시험에 합격하다
df['pass_reading'] = df['읽기 점수'].apply (람다 x: x >= 60이면 '통과', 그렇지 않으면 '실패')
그림을 그려
도끼 = series1.plot(kind='bar')
무화과 = ax.get_Figure() fig.subplots_adjust(하단=0.4) fig.savefig('output.png')
pd.plot(kind='scatter',x="a",y="b",alpha=0.1)
알파는 투명도입니다
pd.hist(bins=50,figsize=(7,7))
데이터 입력 및 출력
입력하다
CSV 읽기
df = pd.read_csv("mtcars.csv", 인코딩="utf-8")
엑셀에 쓰기
df = pd.read_excel("mtcars.csv")
산출
엑셀에 쓰기
pd.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')
CSV에 쓰기
pd.to_csv('excel_to_python.csv')
팬더와 NumPy의 차이점
날짜 시간
1).date 하위 클래스는 날짜 및 시계열 데이터를 생성할 수 있고, 2).time 하위 클래스는 시 및 분 시간 데이터를 생성할 수 있으며, 3).datetime 하위 클래스는 날짜 및 시, 분 데이터를 설명할 수 있습니다.
날짜/시간 가져오기 현재 = datetime.datetime(2018,12,30, 15,30,59) 현재 인쇄, 유형(현재) d = 날짜시간.날짜(2018,12,30) 인쇄된 t = 날짜시간.날짜시간(2018,12,30).now() t를 인쇄하다
2018-12-30 15:30:59 <'datetime.datetime' 유형> 2018-12-30 2018-12-16 15:35:42.757826
4) datetime의 timedelta 모듈을 사용하여 시간 간격(차이)을 제공할 수 있습니다.
날짜/시간 가져오기 cur0 = 날짜시간.날짜시간(2018,12,30, 15,30,59) 현재0을 인쇄하다 cur1 = cur0 datetime.timedelta(일 = 1) 현재 인쇄1 cur2 = cur0 datetime.timedelta(분 = 10) cur2 인쇄 cur3 = cur0 datetime.timedelta(분 = 29, 초 = 1) cur3 인쇄
2018-12-30 15:30:59 #현재0 2018-12-31 15:30:59 #cur1 2018-12-30 15:40:59 #cur2 2018-12-30 16:00:00 #cur3
날짜/시간 데이터로 시계열 시계열 데이터를 생성합니다. 이는 날짜/시간 생성 시간을 인덱스로 사용하는 것을 의미합니다.
datetime import datetime, timedelta에서 numpy를 np로 가져오기 팬더를 PD로 가져오기 b = 날짜/시간(2018,12,16, 17,30,55) vi = np.random.randn(60) 산업 = [] 범위(60)의 x에 대해: bi = b timedelta(분 = x) ind.append(bi) ts = pd.Series(vi, 인덱스 = ind) ts[:5] 인쇄
2018-12-16 17:30:55 -1.469098 2018-12-16 17:31:55 -0.583046 2018-12-16 17:32:55 -0.775167 2018-12-16 17:33:55 -0.740570 2018-12-16 17:34:55 -0.287118 dtype: float64
다시 채우다
친절한
역사 수업
값을 정수로 표시되는 수량에 매핑합니다.
PMF 수업
부동 소수점 숫자로 표현된 확률에 값을 매핑합니다.
위의 과정을 정규화(Normalization)라고 하는데, 즉 확률의 합이 1이 되는 것입니다.
CDF 클래스
PMF의 단점
PMF의 적용 가능성: 처리할 데이터가 상대적으로 작은 경우
데이터가 증가할수록 각 값의 확률은 감소하고 랜덤 노이즈의 영향은 증가합니다.
해결책
데이터 그룹화: 그룹화 간격의 크기를 결정하려면 기술이 필요합니다.
그룹화 간격이 노이즈를 제거할 만큼 충분히 크면 유용한 정보가 폐기될 수 있습니다.
CDF
누적 분포 함수
이는 확률 밀도 함수의 적분인 실제 확률 변수 X의 확률 분포를 완벽하게 설명할 수 있습니다.
백분위수 순위
시험 점수를 예로 들어보겠습니다. 두 가지 형식으로 표시됩니다. 1. 원점수 2. 백분위수 : 전체 응시자 중 원래 점수가 귀하보다 높지 않은 사람의 비율에 100을 곱합니다. 예를 들어, 누군가가 90번째 백분위수에 속한다는 것은 그 사람의 점수가 전체 응시자의 90%보다 높거나 적어도 응시자의 90%보다 나쁘지 않다는 것을 의미합니다.
CDF를 계산한 후 백분위수 및 백분위수 순위를 더 쉽게 계산할 수 있습니다.
기능
백분위수순위(x)
주어진 값 x에 대해 백분위수 순위를 계산합니다.
100*CDF(x)
백분위수(p): 주어진 백분위수 순위에 대해 해당 값 x를 계산합니다.
사분위간 범위
사분위수
사분위간 범위는 이산형 데이터의 분포를 설명하는 통계 지표입니다. 이는 각각 데이터의 25번째, 50번째, 75번째 백분위수 위치를 나타냅니다.
사분위간 범위
상위 사분위수에서 하위 사분위수를 뺀 값이 4분위수 범위입니다.
효과
사분위간 범위는 데이터의 분산 정도를 나타냅니다. 사분위간 범위가 클수록 데이터의 분산 정도가 높아집니다.
상자 그림
최소값, 하위 사분위수, 중앙값, 상위 사분위수, 최대값을 사용하여 상자 그림을 그릴 수 있습니다.
특이치
그런데 이상치를 정의하는 방법을 소개할 수 있습니다. 값이 하위 사분위수에서 사분위수 범위의 1.5배를 뺀 값보다 작으면 그에 따라 이상치로 계산될 수 있고, 값이 매우 크면 이상치로 간주됩니다. 하위 사분위수에서 사분위수 범위의 1.5배를 뺀 값보다 작습니다. 상위 사분위수에 사분위수 범위의 1.5배를 더한 값은 훨씬 크며 이상치로 간주될 수도 있습니다.
CCDF(a) = P(X > a)= 1- CDF(a)
개념
PDF: 확률밀도함수 수학에서 연속확률변수의 확률밀도함수(혼란스럽지 않으면 간단히 밀도함수라고도 함)는 특정 우도함수에서 확률변수를 설명하는 출력값입니다. 가치 지점 근처.
PMF: 확률 질량 함수 확률 이론에서 확률 질량 함수는 특정 값을 갖는 이산 확률 변수의 확률입니다.
CDF: 분포 함수라고도 불리는 누적 분포 함수(cumulative distribution function)는 확률 밀도 함수의 적분으로, 실제 확률 변수 X의 확률 분포를 완벽하게 설명할 수 있습니다.
분포 모델링
지수 분포
정규 분포
확률밀도함수
누적 분포 함수
대수정규분포
대수 변환 후 값 집합이 정규 분포를 따르는 경우 이를 로그 정규 분포를 따른다고 합니다. 즉, log(x)를 사용하여 정규 분포에서 x를 대체합니다.
파레토 분포 파레토
변수 간의 관계
공분산
공분산은 관련 변수의 변화 추세가 동일한지 여부를 측정하는 데 사용할 수 있으며, 두 변수의 전체 오류를 측정하는 데에도 사용할 수 있습니다.
값과 단위는 해석하기 어렵기 때문에 일반적으로 덜 사용됩니다.
분산은 두 변수가 동일한 공분산의 특별한 경우로 볼 수 있습니다.
두 변수의 변화 추세가 일관된 경우, 즉 변수 중 하나가 자체 기대값보다 크고 다른 하나가 자체 기대값보다 큰 경우 두 변수 간의 공분산은 양수입니다.
두 변수의 변화 추세가 반대인 경우, 즉 한 변수는 자체 기대값보다 크고 다른 변수는 자체 기대값보다 작은 경우 두 변수 간의 공분산은 음수입니다.
피어슨 순위 피어슨
적용 범위
두 데이터 변수의 분포는 정규적이며 둘 사이에는 선형 관계가 있습니다.
원래 값을 표준 분수로 대체하고 두 표준 분수의 곱을 계산합니다.
Pearson 상관 계수라고 하며, 여기서 -1<=p<=1이고, p=1: 두 변수가 완전히 양의 상관관계가 있음을 나타냅니다. p=-1: 두 변수가 완전히 음의 상관관계가 있음을 나타냅니다.
창병 계급 창병
적용 범위
이상치가 있고 변수 분포가 매우 비대칭적입니다.
먼저 시퀀스에 있는 값의 순위, 즉 시퀀스에 있는 특정 값의 정렬된 위치를 계산한 다음 순위의 피어슨 상관 계수를 계산합니다.
견본
시퀀스 {7, 1, 2, 5} 시퀀스를 작은 것부터 큰 것 순으로 정렬하면 결과는 {4, 1, 2, 3}입니다. 따라서 5위는 3위이다.