마인드 맵 갤러리 데이터 마이닝 및 분석 기술 마인드 맵
인공 지능, 기계 학습, 통계 등의 방법을 사용하여 방대한 양의 데이터에서 이전에 알려지지 않은 유용한 패턴이나 지식을 추출하는 컴퓨팅 프로세스입니다.
2021-12-27 22:46:49에 편집됨이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
데이터 마이닝 및 분석 기술
1장 데이터 마이닝 개요
수업 전 이해하기
요약
기계 학습
운영 절차
데이터 가져오기
데이터 전처리
기능 엔지니어링
나뉘다
훈련 모델
평가모델
새로운 데이터 예측
일체 포함
빅데이터의 특징
많이
다양한
고속
값
1.1 데이터 마이닝 소개
정의
인공 지능, 기계 학습, 통계 등의 방법을 사용하여 방대한 양의 데이터에서 이전에 알려지지 않은 유용한 패턴이나 지식을 추출하는 컴퓨팅 프로세스입니다.
배경
데이터의 양이 급격히 증가하면서 데이터베이스 기반의 지식 발굴, 이에 상응하는 데이터 마이닝 이론 및 기술에 대한 연구라는 새로운 연구 방향이 등장했습니다.
인터넷 이후의 차세대 기술 핫스팟
많은 양의 정보는 사람들에게 편리함을 가져다주지만 동시에 많은 문제를 가져오기도 합니다.
정보가 너무 많아 소화하기 어렵다
정보의 진위 여부를 구별하기가 어렵습니다.
정보보안은 보장하기 어렵다
정보는 다양한 형태로 제공되며 통일된 처리가 어렵습니다.
데이터는 폭발적이지만 지식은 부족함
비즈니스 데이터에서 비즈니스 정보로의 진화
데이터 수집 → 데이터 접근 → 데이터 웨어하우스, 의사결정 지원 → 데이터 마이닝(예측 정보 제공)
단계
데이터 전처리
정리, 통합, 선택, 변환
데이터 수집
모델 평가
프로세스
데이터, 정보, 지식
데이터
"8000m", "10000m"
객관적인 사물에 대한 관찰과 측정을 통해 생산된 것을 연구 주체 하의 객관적인 사물이라고 부릅니다.
정보
"8000m는 항공기 비행의 최대 고도", "10000m 높은 산"
지식
"비행기는 이 산 위로 올라갈 수 없습니다"
지혜
메인 콘텐츠
연관 규칙 마이닝
맥주와 기저귀
지도 머신러닝
이산 라벨 예측 - 라벨 분류
연속 라벨 예측 - 수치 예측
비지도 기계 학습 - 클러스터링(유사성 알고리즘)
반품
여러 변수 간의 정량적 관계 설정
알고리즘 분류
지도 학습
주어진 학습 데이터로부터 함수(모델)를 학습하면, 새로운 데이터가 도착하면 이 함수(모델)를 기반으로 결과를 예측할 수 있습니다.
학습 데이터에는 명확한 식별 또는 결과가 있습니다.
회귀 알고리즘, 신경망, SVM 지원 벡터 머신
회귀 알고리즘
선형 회귀
수치 문제를 처리하고 최종 예측 결과는 다음과 같은 숫자입니다.
로지스틱 회귀
이메일이 스팸인지 여부를 판단하는 것과 같은 분류 알고리즘에 속합니다.
신경망
시각인식, 음성인식에 적용
SVM 지원 벡터 머신 알고리즘
로지스틱 회귀 알고리즘 개선
비지도 학습
학습 데이터에는 구체적으로 라벨이 지정되지 않았습니다.
클러스터링 알고리즘, 차원 축소 알고리즘
클러스터링 알고리즘
모집단의 거리를 계산하고 거리에 따라 데이터를 여러 모집단으로 나눕니다.
차원 축소 알고리즘
데이터를 높은 차원에서 낮은 차원으로 줄입니다. 차원은 데이터의 특징 수량의 크기를 나타냅니다. 예를 들어 주택 가격에는 주택의 길이, 너비, 면적, 방 수의 4가지 특성이 포함됩니다. , 차원은 4차원 데이터이며, 길이와 너비 사실 위의 정보는 면적 = 길이 × 너비로 표시되는 정보와 중복됩니다.
데이터 압축 및 머신러닝 효율성 향상
엔터프라이즈 데이터 애플리케이션
준지도 학습
훈련 및 분류 문제에 소수의 레이블이 지정된 샘플과 다수의 레이블이 지정되지 않은 샘플을 사용하는 방법
이미지 식별
강화 학습
학습 주체는 관찰된 주변 환경의 피드백을 기반으로 판단을 내립니다.
로봇 제어
1.2 데이터 마이닝의 기본 프로세스 및 방법
기본 방법
예측 마이닝
예측을 위해 현재 데이터를 추정
설명 마이닝
데이터베이스에 있는 데이터의 일반적인 특성을 특성화합니다(상관 관계, 추세, 클러스터링, 이상 현상...).
데이터 마이닝 흐름도
제6중학교(P6) 주요 데이터 마이닝 방법
데이터 세트의 요약 요약
데이터 연결 규칙
데이터 간의 잠재적인 연결을 설명하는 방법으로 일반적으로 A-B라는 의미로 표시됩니다.
분류 및 예측
클러스터링
이종 검출
시계열 모델
1.3 데이터 마이닝의 응용
사업
의료 및 의학
은행과 보험
소셜 미디어
도구
웨카, MATLAB, 자바
관련 정보
하위 주제
2장 데이터 설명 및 시각화
2.1 개요
데이터 속성 및 데이터 값 분석→데이터 설명 및 시각화
2.2 데이터 객체 및 속성 유형
데이터 세트
데이터 객체로 구성
판매 데이터베이스: 고객, 매장 품목, 판매 의료 데이터베이스: 환자, 치료 정보 대학 데이터베이스: 학생, 교수, 강좌 정보
데이터 객체
데이터 객체는 엔터티를 나타냅니다.
알려진 이름: 샘플, 예제, 인스턴스, 데이터 포인트, 개체, 튜플
속성
데이터 객체의 특성
용어
데이터베이스: 차원
기계 학습: 기능
통계: 변수
데이터 마이닝, 데이터베이스: 속성
분류
공칭 속성
명목상 속성 값은 범주 및 이름을 나타내는 사물의 일부 기호 또는 이름입니다.
명목상 속성: 머리 색깔, 가능한 값: 검은색, 흰색, 갈색 명목 속성: 결혼 상태, 가능한 값: 기혼, 미혼, 이혼, 사별
바이너리 속성(특수 명목 속성)
카테고리와 상태는 두 가지뿐입니다.
대칭 바이너리
데이터 크기의 차이가 작습니다. 예: 성별 - 남성, 여성
비대칭 바이너리
데이터 크기는 매우 다양합니다. 예: 의료 검사 – 음성, 양성
서수 속성
순서가 있지만 그 차이는 알 수 없습니다. 일반적으로 평가에 사용됩니다.
교원 직위, 군 계급, 고객 만족도
수치적 속성
간격 조정 속성
단위 길이로 순차적으로 측정
비율 척도 속성
고정된 영점이 있고 순서가 지정되며 배수를 계산할 수 있습니다.
이산적이고 연속적인 속성
2.3 데이터의 기본 통계 설명
중심 경향의 척도
평균, 중앙값, 모드
측정항목 데이터 확산
범위, 사분위수, 사분위수 범위
5개 숫자 요약, 상자 그림 및 이상값
분산, 표준편차
데이터의 기본 통계를 그래픽으로 표현
분위수 도표
분위수 - 분위수 도표
히스토그램
높이 - 수량, 빈도
산포도
속성 간의 상관관계를 발견하세요
2.4 데이터 시각화
정의
그래픽을 통해 데이터를 효과적으로 표현
세 가지 시각화 방법
상자 그림(상자 그림)
다중 속성 데이터의 분산 차이 분석
데이터 분포 표시 및 이상값 표시 가능(삭제 필요)
히스토그램
다양한 간격으로 단일 속성의 변화 분포를 분석합니다.
산포도
두 데이터 세트 간의 상관 분포 표시
2.4.1 픽셀 기반 시각화
1차원 값을 시각화하는 간단한 방법은 해당 차원의 값을 색상으로 반영하는 픽셀을 사용하는 것입니다.
1차원 값에 적합, 다차원 공간정보 분산에는 적합하지 않음
2.4.2 기하학적 투영 시각화
사용자가 다차원 데이터의 투영을 발견하도록 돕습니다. 기하학적 투영 기술의 주요 과제는 고차원 공간을 2차원으로 시각화하는 방법을 알아내는 것입니다.
2차원 데이터 포인트의 경우 일반적으로 데카르트 좌표계 산점도가 사용됩니다. 산점도에서는 데이터의 세 번째 차원으로 다양한 색상이나 모양을 사용할 수 있습니다.
(3차원 데이터 세트에 사용) 산점도, 산점도 행렬, 평행 좌표 시각화(차원 수가 많은 경우)
2.4.3 아이콘 기반 시각화
적은 수의 아이콘으로 다차원 데이터 값을 표현
일반적으로 사용되는 두 가지 아이콘 방법
체르노프 얼굴 (최대 36차원까지 시각화 가능)
데이터 추세 파악
얼굴의 눈, 입, 코와 같은 요소는 다양한 모양, 크기, 위치 및 방향을 사용하여 치수 값을 나타냅니다.
각 얼굴은 n차원 데이터 포인트(n≤18)를 나타내며, 얼굴의 작은 차이를 식별하여 다양한 얼굴 특징의 의미를 이해합니다.
캐릭터 라인 드로잉
2.4.4 계층적 시각화
모든 차원을 하위 집합(즉, 하위 공간)으로 나누고 이러한 하위 공간을 계층적으로 시각화합니다.
일반적으로 사용되는 두 가지 계층적 시각화 방법
X축 Y축 하위 집합 계층 구조
숫자 차트
2.4.5 복잡한 개체 및 관계 시각화
태그 클라우드
2.5 데이터 유사성 및 비유사성 측정
개념
유사성
두 데이터 개체가 얼마나 유사한지 측정합니다. 값이 클수록 일반적인 값 범위는 [0,1]입니다.
차이점
두 데이터 개체 간의 차이 정도를 측정합니다. 값이 작을수록 데이터가 더 유사합니다. 최소 차이점은 일반적으로 0입니다.
근접성
유사성 또는 차이점을 나타냅니다.
두 가지 데이터 구조 제공
데이터 매트릭스(객체 - 속성 매트릭스)
n개의 데이터 객체를 저장하고, 각 n개의 데이터 객체에는 n개의 행이 있고, p 속성 특성에는 p개의 열이 있습니다.
비유사성 매트릭스(객체 - 객체 매트릭스)
데이터 객체를 저장하는 데 사용되는 비유사성 값
일반적으로 삼각행렬
명목 속성에 대한 근접성 측정
이진 속성에 대한 근접성 측정
수치 속성의 차이점
수치 속성 개체의 차이점에 대한 거리 측정값을 계산하는 몇 가지 일반적인 방법
유클리드 거리
맨해튼 거리
Ou와 Man은 다음 속성을 동시에 만족합니다.
민코프스키 거리
Ouyuman의 프로모션
최고 거리
객체 간 차이의 최대값을 제공합니다.
순서 속성에 대한 근접 측정
혼합 속성의 차이점
각 유형의 속성은 하나의 그룹으로 구분되며, 각 유형에 대해 데이터 마이닝 분석(예: 클러스터 분석)이 수행됩니다. 이러한 분석이 동일한 결과를 얻으면 이 방법은 작동하지만 실제 적용에서는 각 속성 유형 분류에 대해 동일한 결과를 얻기가 어렵습니다.
더 나은 접근 방식: 단일 분석을 수행하고 다양한 속성을 단일 비유사성 행렬로 결합한 다음 속성을 공통 간격 [0.0,0.1]으로 변환합니다.
예
하위 주제
코사인 유사성 (그냥 이해하세요)
텍스트 검색, 생물학적 정보 마이닝
문서 벡터, 단어 빈도 벡터
빈도 벡터는 일반적으로 길고 희박합니다(0 값이 많음).
7장 서포트 벡터 머신
서포트 벡터 머신의 분류
선형 이진 분류 문제
최적의 초평면 찾기
6장 분류와 예측
6.1 데이터 분류
연속변수
키 몸무게
범주형 변수
순서가 지정되지 않은 범주형 변수
순차적 분류
데이터 분류를 위한 일반적인 방법
분류, 순서, 거리, 비율
6.2 의사결정나무 모델
의사결정 트리 생성
결정 트리 정리
6.2.1 의사결정나무의 작동 원리
6.3 베이지안 분류 모델
최대 사후 가설
학습자는 데이터 D가 주어졌을 때 후보 가설 집합 H에서 가장 가능성이 높은 가설 h를 선택합니다. h를 최대 사후 가설이라고 합니다.
공동확률을 요구해야 함
일반적으로 각 속성은 독립적이고 동일하게 분포되어 있다고 가정합니다.
이에 앞서 속성 간의 상관관계를 최소화하기 위해 상관관계 계산 및 병합을 수행해야 합니다.
특징
속성은 불연속적이거나 연속적일 수 있습니다.
탄탄한 수학적 기초와 안정적인 분류 효율성
누락, 시끄러운 데이터, 이상값에 민감하지 않음
속성이 관련성이 없으면 분류 효과가 매우 좋습니다.
6.4 선형 판별 모델
6.5 로지스틱 회귀 모델
6.6 모델 평가 및 선택
5장 연관 규칙 마이닝
5.1 개요
개념
연관 규칙 마이닝은 트랜잭션 데이터베이스의 항목 세트 간의 상관 관계를 마이닝하고 지원 및 신뢰도의 최소 임계값 요구 사항을 충족하는 모든 연관 규칙을 마이닝하는 데 사용됩니다.
연관 규칙은 대량의 데이터에서 데이터 항목 간의 잠재적으로 유용한 종속성을 찾는 데 사용됩니다.
빈번한 항목 집합
최소 지지도, 최소 신뢰도를 만족하는 아이템 세트
지원하다
믿을 수 있음
강력한 규칙
최소한의 지원과 신뢰도를 충족하거나 초과하는 규칙
데이터 마이닝의 주요 단계
빅데이터의 항목 집합에서 발생 횟수 ≥ 빈번 항목 집합을 찾습니다.
위에서 구한 빈발항목집합으로부터 최소한의 지지도와 신뢰도 조건을 만족하는 연관규칙을 수립한다.
5.2 분류
5.3 연구 단계
5.4 Apriori 알고리즘 분석
5.6 협회 규칙의 일반화(GRI)
깊이 우선 탐색
5.7 연관 규칙의 심층 탐구
제4장 데이터 축소(데이터 축소)
4. 1 유지보수 개요
데이터의 원래 모양을 유지하면서 데이터를 최대한 간소화합니다.
4.2 속성 선택 및 수치 감소
속성 평가기준(P58)
일관성 측정
두 속성 간의 일관성 정도
교육 수준과 VIP 수준 간의 일관성 정도
상관관계 측정
서로 다른 속성 간의 상관관계는 속성 간의 관계를 나타냅니다.
교육 수준과 VIP 수준의 상관 관계
두 속성 간의 상관 관계가 높을수록 다른 속성 값에서 한 속성 값을 유추하는 정확도가 높아집니다.
식별능력 측정
데이터베이스의 레코드를 구별하는 특정 속성의 기능
정보 측정
속성에 포함된 정보의 양이 많을수록 그 중요성도 커집니다.
정보의 양은 일반적으로 '정보 엔트로피'로 측정됩니다.
속성 하위 집합 선택 방법
단계별로 앞으로 선택
대상 속성을 공백으로 설정
각 반복에서는 원본 데이터 세트의 나머지 속성 중에서 가장 적합한 속성을 선택하여 대상 속성 세트에 추가합니다.
원본 데이터세트에서 속성을 제거합니다.
목표 세트가 요구 사항을 충족할 때까지 이 프로세스를 반복합니다.
단계별 뒤로 선택
먼저 원본 속성 세트를 비대상 속성 세트에 할당합니다.
각 반복에서 종합 점수가 가장 낮은 속성이 대상 속성 세트에서 제거됩니다.
대상 속성 세트가 요구 사항을 충족할 때까지 이 프로세스를 반복합니다.
수치 감소
속성을 변수로 변환하여 동적 범위를 줄입니다.
간단한 함수 변환
데이터 표준화
속성을 구분하고 정수로 인코딩합니다.
등폭 이산화, 등깊이 이산화
두 개의 값만 갖도록 속성을 이진화합니다.
속성 값이 신호 또는 이미지인 경우 압축 인코딩도 수행할 수 있습니다.
4.3 선형 회귀
정의
단일 종속변수와 하나 이상의 독립변수 사이의 관계를 연구하는 학문입니다.
유용성
예측은 종속변수를 예측하기 위해 관찰된 변수를 사용하는 것을 의미합니다.
인과분석은 독립변수를 종속변수의 원인으로 취급한다.
선형 회귀
다중 회귀
비선형 회귀
선형 종속성이 없는 모델 데이터
다항회귀모델링 방법을 사용한 후 변수변환을 수행하여 비선형 모델을 선형 모델로 변환한 후 최소제곱법을 이용하여 푼다.
4. 4 주성분 분석(PCA Principal Component Analysis)
고차원 데이터의 차원 축소에 일반적으로 사용되는 방법
원래 변수의 선형 결합을 만들고 몇 가지 결합된 변수를 통해 원래 수량의 정보 전체 또는 대부분을 반영합니다.
결합된 변수가 주성분입니다.
3장 데이터 수집 및 전처리(정리, 통합, 축소, 변환)
3.1 개요
빅데이터 수집의 특징
빅데이터 라이프사이클의 첫 번째 단계
기존 데이터에 비해 빅데이터 데이터는 방대하고 다양하며 이질적입니다.
수집부터 처리까지 빅 데이터는 일관성, 가용성 및 파티션 내결함성을 평가해야 합니다.
빅데이터 수집 방법(이해)
분산 시스템의 로그 수집
네트워크 데이터 수집
웹 크롤러, 웹사이트 공개 API(응용 프로그래밍 인터페이스)
DPI 심층 패킷 검사
DFI 깊이/동적 흐름 검사
특정 시스템 인터페이스 데이터 수집
3.2 데이터 전처리의 목적과 업무
목적
데이터 품질 향상
주요 임무
데이터 정리
데이터의 노이즈를 명확하게 하고 불일치를 수정합니다.
데이터 통합
여러 데이터 소스의 데이터를 데이터 웨어하우스와 같은 일관된 데이터 저장소로 통합합니다.
데이터 변환(예: 정규화)
데이터를 더 작은 간격으로 압축
3.3 데이터 정리
본질은 데이터 모델을 수정하는 과정이다
데이터 정리 경로(이해)
1. 결측값 정리
누락된 값 제거
평균 전가
핫 카드 충전 방법
가장 가까운 거리 결정 작성 방법
회귀 대치
다중 대치 방법
k - 최근접 이웃 방법
베이지안 기반 접근 방식
2. 이상값 정리(이상값, 와일드 값)
특이치 정의 및 식별
이상값 처리
3. 형식 콘텐츠 정리
4. 논리 오류 청소
중복 제거
불합리한 값 제거
5. 불필요한 데이터 정리
6.관련성 검증
3.4 데이터 통합
개념
전통적인 의미의 데이터 통합
여러 데이터 저장소의 데이터를 결합하여 데이터 웨어하우스와 같은 단일 데이터 저장소에 저장합니다.
일반적인 의미의 데이터 통합
ETL - 추출, 변환, 로드(대상으로) 데이터 웨어하우스 구축에 있어 중요한 부분입니다.
사용자는 미리 정의된 데이터 웨어하우스 모델에 따라 데이터 소스에서 필요한 데이터를 추출하고, 데이터를 정리한 후 최종적으로 데이터 웨어하우스에 데이터를 로드합니다.
모델의 중요성
통일된 코딩, 분류 및 구성을 달성하기 위해 데이터 정의를 표준화합니다.
여러 데이터베이스를 통합할 때 데이터 중복이 자주 발생합니다.
중복 속성 감지
상관관계 분석
이산변수
카이제곱 검정
값이 클수록 관련성이 높습니다.
연속변수
상관 계수
1, -1과 같음, 완전히 선형적으로 관련됨
0보다 큼, 양의 상관관계
0이면 선형 상관 관계가 없습니다.
0 미만, 음의 상관관계
공분산 분석
0보다 큼, 양의 상관관계
0과 같음, 독립
일부 데이터는 공분산이 0이지만 독립적이지 않습니다.
0 미만, 음의 상관관계
데이터 절감 전략
차원성 감소
차원 축소가 필요한 시나리오
데이터가 희박하고 차원이 높습니다.
고차원 데이터는 규칙 기반 분류 방식을 채택합니다.
복잡한 모델(예: 딥러닝)을 사용하지만 훈련 세트의 수가 적습니다.
시각화가 필요하다
일반적인 차원 축소 방법 - PCA 주성분 분석
소개하다
데이터의 많은 속성 간에는 몇 가지 상관 관계가 있습니다.
여러 관련 속성을 결합하여 하나의 속성만 형성하는 방법을 찾을 수 있습니까?
개념
특정 상관 관계(예: p 속성)가 있는 여러 원래 속성을 관련되지 않은 포괄적 속성 세트로 재결합하여 원래 속성을 대체합니다. 일반적으로 수학적 처리는 p의 원래 속성을 신청인의 포괄적인 속성으로 선형적으로 결합하는 것입니다.
예를 들어, 학생 점수, 언어, 수학, 외교, 역사, 지리 등은 교양과 과학의 두 가지 속성으로 구분됩니다.
데이터 축소 - 샘플링
데이터 압축
픽셀과 같은 품질을 줄여 데이터 크기를 줄입니다.
3.5 데이터 변환
데이터 변환 전략
부드러움, 속성 구성, 집계, 정규화, 이산화, 개념 레이어링
일반적으로 사용되는 데이터 변환 방법
정규화를 통해 데이터 변환
비닝을 통한 이산화
히스토그램 비닝을 통한 이산화
클러스터링, 의사 결정 트리 및 상관 분석을 통한 이산화
명목 데이터의 개념적 계층화
이산화
등폭법
등빈도법
클러스터링 방법