마인드 맵 갤러리 패턴 인식
기계 학습 또는 데이터 마이닝이라고도 합니다. 주로 소개, 데이터 전처리, 군집 분석, 베이지안 분류, 최근접 이웃 방법 등이 포함됩니다.
2024-02-04 00:51:57에 편집됨이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
패턴 인식
소개
패턴 인식의 기본 개념
패턴 인식
컴퓨터를 이용하여 사람의 패턴 인식 능력을 구현하는 것은 컴퓨터를 이용하여 다양한 사물이나 현상에 대한 사람의 분석, 기술, 판단, 식별 등을 실현하고 인식할 사물을 다양한 패턴 범주에 배정하는 기술이다.
패턴 인식은 패턴에서 카테고리로의 매핑으로 볼 수 있습니다.
모델
물질이나 현상에 관한 정보
넓은 의미에서 시간과 공간 속에 존재하는 관찰 가능한 사물이 동일하거나 유사한 것으로 구별할 수 있다면 패턴이라 할 수 있다.
패턴은 정보 수집을 통해 형성된 객체에 대한 설명이며, 이 설명은 표준화되고 이해 가능하며 식별 가능해야 합니다.
설명하다
패턴은 사물 자체가 아니라 사물에서 얻은 정보입니다. 예를 들어, 사람들의 사진이나 개인정보
패턴이 유사한지 구별할 수 있음(질문과 관련됨)
패턴은 일반적으로 벡터로 표현되며 아래 첨자는 시간 특성, 공간 특성 또는 기타 식별자를 반영할 수 있습니다.
패턴 벡터
특정한 개별 사물을 관찰하여 얻은 시간적, 공간적 분포를 갖는 정보(샘플 또는 샘플 벡터라고 함)
패턴 수업
패턴이 속한 카테고리 또는 동일한 카테고리에 속한 패턴의 모집단(줄여서 카테고리)
패턴 인식 시스템
설계와 구현이라는 두 가지 프로세스로 구성됩니다.
패턴이 속한 카테고리 또는 동일한 카테고리에 속한 패턴의 모집단(줄여서 카테고리)
디자인(훈련, 학습)
분류기를 설계하기 위해 특정 개수의 샘플(훈련 세트 또는 학습 세트라고 함)을 사용하는 것을 의미합니다.
실현(의사결정, 분류, 판단)
식별할 샘플에 대한 분류 결정을 내리기 위해 설계된 분류기를 사용하는 것을 의미합니다.
시스템 구성
데이터 수집(데이터 수집)
방법
각종 센서를 통해 빛, 소리 등의 정보를 전기적 정보로 변환하거나, 텍스트 정보를 컴퓨터에 입력
분류
1차원 파형: 음파, 심전도, 뇌전도 등
2차원 이미지: 텍스트, 이미지 등
3D 이미지: 얼굴 등
물리적 수량: 사람의 키, 몸무게, 제품 무게, 품질 수준 등
논리량(0/1): 유무, 남성과 여성 등
전처리
목적
노이즈를 제거하고 유용한 정보를 향상시킵니다.
일반적으로 사용되는 기술
1차원 신호 필터링 및 노이즈 제거, 이미지 평활화, 향상, 복원, 필터링 등
특징 추출 및 선택
목적
원본 데이터에서 분류의 성격을 가장 잘 반영하는 특징을 얻습니다.
특징 형성
분류 문제를 반영하는 여러 가지 특징을 원본 데이터에서 다양한 방법을 통해 얻습니다(때때로 데이터 표준화가 필요함).
기능 선택
특징 중에서 분류에 가장 유리한 몇 가지 특징을 선택하세요.
특징 추출
특정 수학적 변환을 통해 기능 수를 줄입니다.
분류 결정 또는 모델 일치
특징 공간의 결정 규칙을 사용하여 인식된 개체를 특정 범주에 할당
설명하다
이 시스템 구조는 인공 신경망의 통계적 패턴 인식, 퍼지 패턴 인식 및 지도 방법에 적합합니다.
구조적 패턴 인식 방법의 경우 특징 추출 및 선택을 대체하기 위해 기본 추출만 사용됩니다.
군집분석을 위해서는 분류기 설계와 의사결정이 하나의 단계로 통합됩니다.
이미지 특징
색상
조직
모양
공간 관계
네 개의 공백
세 가지 주요 과제
패턴 컬렉션
특징 추출 및 특징 선택
유형 차별
관련 질문
성과평가
테스트 오류율 또는 오류율
계산 복잡성
나누다
분류기준
질문 또는 샘플 성격
감독된 패턴 인식
먼저 카테고리 라벨이 있는 샘플 배치를 갖고, 샘플 세트를 기반으로 분류기를 설계한 다음, 새로운 샘플 카테고리를 결정합니다.
비지도 패턴 인식
샘플 배치는 하나 뿐이며 샘플 세트는 샘플 간의 유사성을 기반으로 여러 범주로 직접 나뉩니다.
주요 방법
통계적 패턴 인식
분류
비지도 분류
클러스터 분석
감독된 분류
컬렉션 분류
확률적 분류
방법 설명
특징 벡터
모드 결정
조건부 확률 분포 P(X/i)로 표현하면 m개의 범주에 m개의 분포가 있고, 알려지지 않은 패턴이 어느 분포에 속하는지 결정합니다.
이론적 기초
확률 이론
수학적 통계
이점
더욱 성숙한
간섭 소음의 영향을 고려할 수 있습니다.
패턴 프리미티브를 인식하는 강력한 능력
결점
복잡한 구조의 패턴에서는 특징을 추출하기가 어렵습니다.
패턴의 구조적 특성을 반영할 수 없으며, 패턴의 성격을 설명하기 어렵습니다.
전체적인 관점에서 식별 문제를 고려하는 것이 어려움
구조적 패턴 인식
퍼지 패턴 인식
신경망 방법
이론적 기초
신경생리학
심리학
패턴 설명 방법
다양한 활동 수준으로 표시되는 입력 노드 세트
모드 결정
비선형 동적 시스템
주요 방법
BP 모델, HOPField 모델
이점
복잡한 비선형 문제를 효과적으로 해결
샘플에 더 큰 결함과 왜곡이 있도록 허용
결점
효과적인 학습 이론의 부족
장기
적용분야
이미지, 얼굴, 문자, 숫자, 지문, 음성...
근본적인 문제
패턴(샘플) 표현 방법
n차원 열 벡터
x= (x1, x2, …, xn)티
패턴 클래스의 간결성
임계점(샘플)
다중 카테고리 샘플 세트에서 일부 샘플의 특성 값이 약간 변경되면 다른 샘플 카테고리가 됩니다. 이러한 샘플을 임계 샘플(포인트)이라고 합니다.
확고한 세트
정의
동일한 패턴 클래스의 샘플 분포는 상대적으로 집중되어 있으며 중요한 샘플이 없거나 매우 적습니다. 이러한 패턴 클래스를 컴팩트 세트라고 합니다.
자연
중요한 포인트가 거의 없음
집합의 두 점을 연결하는 선입니다. 선 위의 점은 동일한 집합에 속합니다.
세트의 각 포인트에는 충분히 큰 이웃이 있으며, 이웃에는 동일한 세트의 포인트만 포함됩니다.
필요하다
견고함을 만족시킨다
유사성
다양한 거리를 이용하여 유사성을 표현
공통거리
민코프스키 거리
절대값 거리 또는 도시 거리 또는 맨해튼 거리(q=1)
유클리드 거리(q=2)
체커보드 거리 또는 체비쇼프 거리(q=무한대)
마할라노비스 거리
여기서 공분산 행렬과 평균은 다음과 같습니다.
데이터 표준화
목적
알고리즘의 각 구성 요소 사이의 수치 범위가 미치는 영향을 제거합니다.
방법
[0,1] 또는 [-1, 1]로 표준화, 분산 표준화
공식
특징 정규화
분산 정규화
데이터 전처리
데이터 전처리를 왜 하는가?
안좋다
불완전한
데이터 수집 중 적절한 값이 부족함
데이터 수집 및 데이터 분석 중 다양한 고려 사항
인간/하드웨어/소프트웨어 문제
시끄러운
데이터 수집 도구의 문제점
데이터 입력 중 인간/컴퓨터 오류
데이터 전송 오류
일관되지 않은 데이터 유형
다양한 데이터 소스
기능적 종속성을 위반했습니다.
좋은
정확성: 올바른지, 정확한지, 아닌지 등.
완전성: 데이터가 누락되었거나 얻을 수 없는 경우
일관성: 일부 데이터는 수정되었지만 다른 데이터는 수정되지 않은 경우
신뢰성: 데이터가 정확하다는 신뢰도를 나타냅니다.
일
데이터 정리
누락된 값을 채우고, 노이즈가 있는 데이터를 평활화하고, 이상값을 식별 및 제거하고, 불일치를 해결합니다.
데이터 통합
여러 데이터베이스, 데이터 큐브 또는 파일 통합
데이터 변환 및 이산화
표준화하다
개념 계층적 생성
데이터 감소
차원 축소
수량 감소
데이터 압축
특징 추출 및 특징 선택
데이터 정리
❑ 누락된 값을 입력하세요.
이유
❑ 장비 이상
❑ 기존 데이터와의 불일치로 인해 삭제되었습니다.
❑ 오해로 인해 입력되지 않은 데이터
❑ 일부 데이터는 입력 시 심각하게 고려되지 않아 입력되지 않았습니다.
❑ 데이터 변경 사항을 기록하지 않음
다루다
◼ 튜플 무시: 이는 일반적으로 클래스 레이블이 누락된 경우(마이닝 작업이 분류 또는 설명을 위해 설계되었다고 가정), 각 속성에 대한 누락된 값의 비율이 변경될 때(작업이 분류 또는 설명을 위해 설계됨) 수행됩니다. 각 속성에 대한 결측값의 비율이 크게 다를 경우 그 효과는 매우 낮습니다.
"클래스 레이블"(클래스 레이블 또는 대상 레이블)은 일반적으로 데이터 세트에서 "샘플이 속한 클래스 또는 그룹을 나타내는 데 사용되는 레이블"을 나타냅니다.
◼ 누락된 값을 수동으로 입력: 작업량이 많고 실행 가능성이 낮음
◼ 결측값 자동 채우기
❑ 전역 변수를 사용합니다(예: 알 수 없음 또는 -무한대).
❑ 속성 평균 사용
❑ 주어진 튜플과 동일한 클래스에 속하는 모든 샘플의 평균 또는 중앙값을 사용합니다.
❑ 누락된 값을 가장 가능성이 높은 값으로 채웁니다. 베이지안 공식이나 의사결정 트리와 같은 추론 기반 방법을 사용합니다.
❑ 부드러운 노이즈 데이터
이유
❑ 데이터 수집 도구 관련 문제
❑ 데이터 입력 오류
❑ 데이터 전송 오류
❑ 기술적 한계
❑ 명명 규칙의 불일치
다루다
비닝
먼저 데이터를 정렬하고 동일한 깊이의 Bin으로 나눕니다. 그런 다음 Bin의 평균으로 평활화하고, Bin의 중앙값으로 평활화하고, Bin의 경계로 평활화할 수 있습니다.
작동하다
동일 깊이 비닝
경계값 평활화: 모든 값을 최대값 또는 최소값으로 변환
동일 너비 비닝
[110,155), 왼쪽은 닫혀 있고 오른쪽은 열려 있음
클러스터링
클러스터링을 통해 이상값을 감지하고 제거합니다.
반품
회귀 함수에 맞춰 데이터를 매끄럽게 만듭니다.
❑ 이상값 식별 또는 삭제
❑ 데이터 불일치 해결
데이터 통합
◼ 데이터 통합:
❑ 여러 데이터 소스의 데이터를 일관된 저장소로 통합합니다.
◼ 패턴 통합:
❑ 다양한 데이터 소스의 메타데이터 통합
◼ 예: A.cust_id = B.customer_no
◼ 엔터티 인식 문제:
❑ 다양한 데이터 소스의 실제 엔터티 일치
◼ 예: 빌 클린턴 = 윌리엄 클린턴
◼ 데이터 값 충돌 감지 및 해결
❑ 현실 세계의 동일한 개체에 대해 서로 다른 데이터 소스의 속성 값이 다를 수 있습니다.
❑ 가능한 이유: 다양한 데이터 표현, 다양한 측정 등
데이터 감소
목적
◆대규모 데이터베이스 콘텐츠의 복잡한 데이터 분석은 종종 많은 시간이 소요되어 원본 데이터 분석을 비현실적이고 실행 불가능하게 만듭니다.
◆데이터 축소: 데이터 축소 또는 축소란 최종 마이닝 결과에 영향을 주지 않고 마이닝된 데이터의 크기를 줄이는 것입니다.
◆데이터 축소 기술을 사용하면 데이터 세트의 축소된 표현을 얻을 수 있습니다. 이는 훨씬 작지만 여전히 원본 데이터의 무결성을 유지하는 데 가깝습니다.
◆축소된 데이터 세트를 마이닝하면 마이닝의 효율성을 높이고 동일한(또는 거의 동일한) 결과를 얻을 수 있습니다.
기준
◆데이터 축소에 소요되는 시간은 축소된 데이터 세트를 마이닝하는 데 절약된 시간을 초과하거나 "상쇄"해서는 안 됩니다.
◆축소를 통해 얻은 데이터는 원본 데이터에 비해 훨씬 작지만 동일하거나 거의 동일한 분석 결과를 얻을 수 있습니다.
방법
◆데이터 큐브 집계;
n차원 데이터 큐브를 n차원 데이터 큐브로 집계합니다.
◆차원 축소(속성 축소);
새 데이터 세트의 확률 분포가 원본 데이터 세트의 확률 분포에 최대한 가깝도록 최소 속성 세트를 찾습니다.
PCA
◆데이터 압축;
무손실 압축
손실 압축
◆수치적 감소;
더 작은 대체 데이터 표현을 선택하여 데이터 볼륨을 줄입니다.
유형
히스토그램
클러스터링
견본 추출
◆개념의 분리 및 계층적 생성.
표준화하다
최소-최대 정규화
정확해야합니다
z-점수 정규화(0 평균 정규화)
부정적일 수 있음
이산화
목적
데이터 이산화는 원본 데이터 세트의 복잡성을 단순화하기 위해 연속된 데이터의 값을 여러 간격으로 나누는 프로세스입니다.
유형
순서가 지정되지 않은 세트의 값(예: 색상, 직업)
순서가 지정된 세트의 값(예: 군 계급, 직함)
연속 값(예: 실수)
컨셉 레이어링
클러스터 분석
개념
생각
특정 유사성 척도를 기반으로 분류된 각 모델을 분류합니다.
유사한 항목을 하나의 카테고리로 그룹화
연산
유사성 임계값과 최소 거리 원리를 기반으로 한 간단한 클러스터링 방법
최소거리 원리에 따라 두 개의 카테고리를 연속적으로 병합하는 방법
기준함수 기반의 동적 클러스터링 방법
애플리케이션
클러스터 분석은 다른 알고리즘의 전처리 단계로 사용될 수 있습니다.
데이터 분포를 얻기 위한 독립적인 도구로 사용할 수 있습니다.
클러스터 분석은 고립된 지점 마이닝을 완료할 수 있습니다.
파티션 기반 클러스터링 방법
분할 방법은 데이터 개체를 겹치지 않는 하위 집합(클러스터)으로 나누어 각 데이터 개체가 정확히 하나의 하위 집합에 속하도록 하는 것입니다.
분류
거리 유형
유클리드 거리
맨해튼 거리
민코프스키 거리
민의 거리는 거리가 아니라 거리 집합의 정의입니다.
알고리즘 유형
k-평균(K-평균) 알고리즘
입력: 클러스터 수 k와 n개 객체를 포함하는 데이터베이스 D
출력: 제곱 오차 기준을 최소화하는 k개의 클러스터.
알고리즘 단계
1. K개의 초기 군집 중심이 있도록 각 군집에 대한 초기 군집 중심을 결정합니다. 2. 샘플 세트의 샘플은 최소 거리 원칙에 따라 가장 가까운 이웃 클러스터에 할당됩니다. 삼. 각 군집의 표본 평균을 새 군집 중심으로 사용합니다. 4. 클러스터 중심이 더 이상 변경되지 않을 때까지 2단계와 3단계를 반복합니다. 5. 결국 K개의 클러스터가 얻어집니다.
특징
이점
간단하고 빠릅니다.
확장 가능하고 효율적
결과 집합이 조밀할 때 효과가 더 좋습니다.
결점
군집 평균이 정의된 경우에만 사용할 수 있습니다.
k는 미리 주어져야 한다
초기값에 매우 민감하며 반복 횟수에 직접적인 영향을 미칩니다.
볼록하지 않은 모양의 클러스터나 크기가 매우 다양한 클러스터를 찾는 데는 적합하지 않습니다.
"노이즈" 및 이상값 데이터에 민감합니다.
개선하다
k-mode 알고리즘: 이산 데이터의 빠른 클러스터링을 구현하고 k-평균 알고리즘의 효율성을 유지하며 k-평균의 적용 범위를 이산 데이터로 확장합니다.
k-프로토타입 알고리즘: 이산 속성과 수치 속성이 혼합된 데이터를 클러스터링할 수 있습니다. k-프로토타입에서는 수치 속성과 이산 속성을 모두 계산하는 비유사성 측정항목이 정의됩니다.
k-Mediods 알고리즘(K-Mediods): k-평균 알고리즘은 고립된 점에 민감합니다. 이 문제를 해결하기 위해서는 군집 내의 평균값을 기준점으로 사용하는 대신 군집에서 가장 중앙에 있는 객체, 즉 중심점을 기준점으로 선택할 수 있다. 이 분할 방법은 여전히 모든 객체와 해당 기준점 간의 차이의 합을 최소화하는 원칙에 기반을 두고 있습니다.
k-medoids(K-중심점) 알고리즘
입력: 클러스터 수 k와 n개 객체를 포함하는 데이터베이스.
출력: k개 클러스터
알고리즘 단계
1. 각 군집에 대한 초기 군집 중심을 결정하여 k개의 초기 군집 중심이 있도록 합니다. 2. 다른 모든 점에서 k개의 중심점까지의 거리를 계산하고, 각 점에서 k개의 중심점까지의 가장 짧은 군집을 해당 군집으로 간주합니다. 3. 각 클러스터에서 순서대로 포인트를 선택하고, 이 포인트에서 현재 클러스터의 모든 포인트까지의 거리의 합을 계산하고, 최종 거리 합이 가장 작은 포인트를 새로운 중심점으로 간주합니다. 4. 각 클러스터의 중심점이 더 이상 변경되지 않을 때까지 2단계와 3단계를 반복합니다. 5. 종료하면 k개의 클러스터가 획득됩니다.
특징
이점
K-medoids 알고리즘은 특정 지점에서 다른 모든 지점까지의 거리 합이 가장 작은 지점을 계산합니다. 가장 작은 거리 합을 계산하면 일부 격리된 데이터가 클러스터링 프로세스에 미치는 영향을 줄일 수 있습니다. 이렇게 하면 최종 효과가 실제 분할에 더 가까워집니다.
결점
K-means 알고리즘에 비해 계산량이 약 O(n) 정도 늘어나므로 일반적으로 소규모 데이터 연산에는 K-medoids 알고리즘이 더 적합합니다.
계층 기반 클러스터링 알고리즘
정의
데이터 개체의 클러스터링된 트리를 만듭니다. 계층적 분해가 상향식인지 하향식인지에 따라 다시 응집형 계층적 군집화와 분할형 계층적 군집화로 나눌 수 있다.
핵심
각 클러스터가 일반적으로 개체 집합인 두 클러스터 사이의 거리를 측정하는 방법입니다.
분류
거리 유형(클러스터 간 거리 측정 방법)
알고리즘 유형
AGNES(집적 계층적 클러스터링)
정의
AGNES(agglomerative hierarchical Clustering)는 먼저 각 객체를 클러스터로 처리한 다음 특정 최종 조건이 충족될 때까지 이러한 원자 클러스터를 점점 더 큰 클러스터로 병합하는 상향식 전략입니다.
유사성
두 클러스터 간의 유사성은 서로 다른 두 클러스터에서 가장 가까운 데이터 요소 쌍의 유사성에 의해 결정됩니다.
단계
1. 각 개체를 초기 클러스터로 처리합니다. 2. 반복; 3. 두 클러스터에서 가장 가까운 데이터 포인트를 기반으로 가장 가까운 두 클러스터를 찾습니다. 4. 두 개의 클러스터를 병합하여 새 클러스터 세트를 생성합니다. 5. 정의된 클러스터 수에 도달할 때까지;
DIANA(분할 계층적 클러스터링)
BIRCH(계층적 방법을 사용한 균형 있는 반복 축소 및 클러스터링)
밀도 클러스터링 방법
핵심
특정 영역의 포인트 밀도가 특정 임계값보다 크면 유사한 클러스터에 추가됩니다.
분류
DBSCAN
핵심
분할 및 계층적 클러스터링 방법과 달리 클러스터를 밀도가 연결된 지점의 가장 큰 집합으로 정의하고 밀도가 충분히 높은 영역을 클러스터로 나눌 수 있으며 "잡음이 있는" 공간 데이터베이스에서 임의 모양의 클러스터를 찾을 수 있습니다.
정의
ε-객체의 이웃: 주어진 객체의 반경 ε 내의 영역입니다.
코어 객체(core point): 객체의 ε-neighborhood에 최소한 최소 개수의 MinPts 객체가 포함되어 있는 경우 해당 객체를 코어 객체라고 합니다.
직접 밀도 도달 가능성: 객체 세트 D가 주어지면 p가 q의 ε-이웃 내에 있고 q가 핵심 객체인 경우 객체 p는 객체 q에서 시작하여 직접 밀도 도달이 가능하다고 말합니다.
밀도 도달가능성: 코어 포인트 P2, P3,..., Pn이 있고 P1에서 P2까지의 밀도가 직접적이고 P2에서 P3까지의 밀도가 직접적이라면..., P(n-1부터의 밀도 )에서 Pn으로의 밀도는 직접적이고, Pn에서 Q로의 밀도는 직접적이며, 그러면 P1에서 Q로의 밀도에 도달할 수 있습니다. 달성 가능한 밀도에는 대칭도 없습니다.
연결된 밀도: S에서 P 및 Q까지 모두 밀도 도달이 가능한 핵심 지점 S가 있는 경우 P와 Q는 밀도 연결입니다. 밀도 연결에는 대칭이 있습니다. P와 Q가 밀도 연결이면 Q와 P도 밀도 연결이어야 합니다. 촘촘하게 연결된 두 점은 동일한 클러스터에 속합니다.
노이즈: 밀도 기반 클러스터는 밀도 도달 가능성을 기반으로 한 가장 큰 밀도 연결 객체 세트입니다. 클러스터에 포함되지 않은 개체는 "노이즈"로 간주됩니다.
단계
1) 해당 포인트 주변에 MinPts개 이상의 포인트가 포함되어 있으면 핵심 포인트로, 그렇지 않은 포인트는 임시로 노이즈 포인트로 기록됩니다. 2) 이 지점에서 도달할 수 있는 밀도의 모든 객체를 찾아 클러스터를 형성합니다.
특징
이점
클러스터링은 빠르며 노이즈 포인트를 효과적으로 처리하고 임의 모양의 공간 클러스터를 발견할 수 있습니다.
결점
(1) 데이터 양이 증가하면 I/O 소비를 지원하기 위해 더 큰 메모리가 필요하며, 이는 또한 많은 데이터를 소비합니다. (2) 공간 클러스터링의 밀도가 고르지 않고 클러스터 간격이 크게 다르면 클러스터링 품질이 좋지 않습니다. (3) 사용자가 수동으로 입력을 설정해야 하는 두 가지 초기 매개변수 ε(이웃 반경)과 minPts(ε 이웃의 최소 포인트 수)가 있으며, 클러스터링 결과는 이 두 매개변수의 값에 매우 민감합니다. . 값이 다르면 클러스터링 결과도 달라집니다.
광학
덴클루
베이지안 분류
나이브 베이즈
베이즈 방법은 사전 확률과 클래스 조건부 확률을 알고 있는 경우의 패턴 분류 방법으로, 분할할 샘플의 분류 결과는 다양한 분야의 전체 샘플 수에 따라 달라집니다.
Naive Bayes는 모든 기능 속성이 서로 독립적이라고 가정하므로 알고리즘 이름에 "naive"라는 단어가 유래되었습니다.
실제로는 속성 간에 종속성이 있는 경우가 많지만 흥미로운 점은 Naive Bayes 알고리즘의 독립성 가정이 명백히 사실이 아닌 경우에도 매우 좋은 분류 결과를 얻을 수 있다는 것입니다.
베이지안 공식
최소 오류율
특징은 주어진 정보이다
카테고리는 최종 요구사항입니다.
지형지물 속성이 여러 개인 경우
의미
사후 확률 P(cj |x)
즉, 데이터 샘플 x가 주어졌을 때 cj가 참일 확률, 이것이 우리가 관심을 갖는 것입니다(계산 예정).
각 P(xk|Ci)는 사전 지식을 통해 얻을 수 있습니다. 또는 샘플 세트를 통해 통계를 수행합니다.
사전 확률 P(cj)
사전 확률 P(Ci)는 사전 지식을 통해 얻을 수 있습니다. 또는 샘플 세트를 통해 통계를 수행합니다.
P(x)는 제거되거나 공식화될 수 있습니다.
단순화
최소한의 위험
결정 테이블
계산방법
각 결정 α에 대해 별도로 계산
최소한의 조건부 위험으로 결정을 내립니다.
가장 가까운 이웃 방법
최근접 이웃 방법/K 최근접 이웃 방법
목적
포인트의 분류 결정
아이디어
훈련 데이터 세트에서 새로운 인스턴스에 가장 가까운 k개의 훈련 인스턴스를 찾은 다음, 최근 k개의 훈련 인스턴스 중에서 클래스 수가 가장 많은 클래스, 즉 새 인스턴스의 클래스를 계산합니다.
프로세스
훈련 샘플의 각 샘플 포인트와 테스트 샘플 사이의 거리를 계산합니다(일반적인 거리 측정에는 유클리드 거리, 마할라노비스 거리 등이 포함됩니다).
위의 모든 거리 값을 정렬
거리가 가장 작은 처음 k개 샘플을 선택합니다.
최종 분류 카테고리를 얻으려면 이 k개 샘플의 라벨을 기반으로 투표하세요.
k 값 선택
k 값이 작을수록 모델이 복잡해지고 과적합되기 쉽습니다. 그러나 k 값이 클수록 모델이 단순해진다는 것은 어떤 지점이든 클래스라는 의미입니다. 훈련 세트에서 가장 많은 범주를 가지고 있습니다. 따라서 k는 일반적으로 더 작은 값을 취하고 교차 검증을 사용하여 다음을 결정합니다. 여기서 소위 교차 검증이란 샘플의 일부를 95% 훈련과 5% 예측과 같은 예측 샘플로 나눈 다음 k가 각각 1, 2, 3, 4, 5 등을 사용하여 예측하고 최종 분류 오류를 계산합니다. 오류가 가장 작은 k를 선택합니다.
차이점
K-평균
목적은 일련의 포인트 세트를 k개의 카테고리로 나누는 것입니다.
K-Means는 클러스터링 알고리즘입니다.
비지도 학습, 유사한 데이터를 그룹화하여 분류 획득, 외부 분류 없음
훈련 데이터 세트에는 레이블이 없으며 클러스터링 후에는 다소 순서가 정돈되어 있습니다.
최근접 이웃 방법/K 최근접 이웃 방법
목적은 포인트의 분류를 결정하는 것입니다.
KNN은 분류 알고리즘입니다.
지도 학습, 분류 대상을 미리 알고 있음
훈련 데이터 세트에는 레이블이 있으며 이미 완전히 올바른 데이터입니다.
연관 규칙
정의
기본 사상
품목: 예를 들어 콜라, 감자칩, 빵, 맥주, 기저귀 등은 모두 품목이라고 합니다.
I={i1, i2,…,im}을 모든 항목(Item)의 집합이라고 합니다.
거래 T는 구매 기록이고, 각 거래 T에는 Tid로 기록되는 고유 식별자가 있습니다.
D는 모든 트랜잭션의 집합입니다.
Itemset은 우리가 연구하고 싶은 집합입니다.
항목 집합에 포함된 항목 수를 항목 집합의 길이라고 하며, k 항목이 포함된 항목 집합을 K-항목 집합이라고 합니다.
연관 규칙
A와 B 모두 비어 있지 않고 A⸦I, B⸦I 및 (A와 B가 비어 있음) 형식 A->B의 논리적 의미입니다.
지원지원
모든 거래 D에서 항목 집합 A와 B가 동시에 나타날 확률을 설명합니다.
S(A->B)=P(AB)=|AB|/|D|
지원은 연관 규칙의 중요성을 나타내는 척도입니다.
자신감Confidence
아이템세트 A가 등장하는 사물 T에서 아이템세트 B도 동시에 등장할 확률.
C(A->B)=P(B|A)=|AB|/|A|
신뢰도는 연관 규칙의 정확성을 나타내는 척도입니다.
강력한 연관 규칙
D가 I에 대한 최소 지지도와 최소 신뢰도를 충족하는 연관 규칙을 강력한 연관 규칙이라고 합니다.
승강기
리프트 정도는 항목 세트 A의 모양이 항목 세트 B의 모양에 얼마나 많은 영향을 미치는지 나타냅니다.
L(A->B)=P(AB)/(P(A)*P(B))
1보다 큼
양의 상관관계
1과 같음
독립적인
1 미만
음의 상관관계
빈번한 항목 집합
최소지지도를 만족하는 항목 집합을 빈발 항목 집합이라고 합니다. 빈번한 k-항목 집합의 집합은 일반적으로 Lk로 표시됩니다.
목적
사용자가 지정한 최소 지지도와 최소 신뢰도를 기반으로 강력한 연관 규칙 찾기
단계
사용자의 최소 지원을 고려하여 모든 빈발항목집합 또는 가장 큰 빈발항목집합을 찾습니다.
사용자에게 최소한의 신뢰도를 부여하여 빈발항목 집합에서 연관규칙을 찾는다.
연산
Apriori 알고리즘
첫 번째 단계는 반복을 통해 트랜잭션 데이터베이스의 모든 빈발 항목 집합, 즉 지원도가 사용자가 설정한 임계값보다 낮지 않은 항목 집합을 검색하는 것입니다.
자주하는 항목 : count, count S
두 번째 단계에서는 빈번한 항목 집합을 사용하여 사용자의 최소 신뢰 수준을 충족하는 규칙을 구성합니다.
연관 규칙: C 개수
FP-성장