로그인
로그인

마인드 맵 갤러리 분류 수행 기술 마인드 맵을 개선하기 위한 AdaBoost 메타 알고리즘

분류 수행 기술 마인드 맵을 개선하기 위한 AdaBoost 메타 알고리즘

AdaBoost 메타 알고리즘을 사용하여 분류 성능을 향상시키는 기술 요약입니다. 이 내용은 데이터 세트의 다중 샘플링을 기반으로 하는 분류기, 단일 계층 의사결정 트리를 기반으로 하는 약한 분류기 및 불균형 분류 문제를 다룹니다.

2023-02-25 13:03:37에 편집됨

슈퍼직장인

최근 작업 더 많은 작업 보기>>

분류 수행 기술 마인드 맵을 개선하기 위한 AdaBoost 메타 알고리즘

슈퍼직장인

최근 작업 더 많은 작업 보기>>

추천 사항
개요

앙상블 학습
- 7
슈퍼직장인

분류 수행 기술 마인드 맵을 개선하기 위한 AdaBoost 메타 알고리즘

데이터 세트의 다중 샘플링을 기반으로 하는 분류기

앙상블 방법(메타 알고리즘)

다양한 알고리즘의 통합

다른 설정에서 동일한 알고리즘 통합

데이터 세트의 다른 부분을 다른 분류기에 할당한 후 통합

에이다부스트

이점

낮은 일반화 오류율

코딩이 쉽다

대부분의 분류기에 적용 가능

매개변수 조정 없음

결점

특이치에 민감함

적용 가능한 데이터 유형

숫자 유형

공칭 유형

배깅: 데이터의 무작위 리샘플링을 기반으로 한 분류기 구성 방법

부트스트랩 집계 방법

원래 데이터 세트에서 S번을 선택하여 S개의 새로운 데이터 세트를 얻습니다.

새 데이터 세트는 원래 데이터 세트와 크기가 동일합니다.

각 데이터 세트는 원래 데이터 세트에서 샘플을 무작위로 선택하고 이를 다른 무작위 샘플로 대체하여 얻습니다.

종종 교체를 통한 샘플링으로 간주됨

새 데이터 세트에 중복 값이 있도록 허용하고 원본 데이터 세트의 일부 값은 더 이상 표시되지 않습니다.

S개의 데이터 세트가 구성된 후 각 데이터 세트에 특정 학습 알고리즘을 적용하여 S개의 분류기를 얻습니다.

새로운 데이터를 분류할 때 이러한 S 분류기를 적용하고 가장 많은 데이터가 포함된 카테고리를 선택합니다.

랜덤 포레스트

부스팅

배깅과 비슷하다

같은

일관되게 사용되는 여러 분류기

다른

기차

배깅 분류기는 직렬 훈련을 통해 획득되며, 각각의 새로운 분류기는 이미 훈련된 분류기를 기반으로 훈련됩니다.

부스팅은 기존 분류기에 의해 잘못 분류된 데이터에 초점을 맞춰 새로운 분류기를 얻습니다.

분류 결과

각 분류자를 배깅하는 데에는 동일한 가중치가 있습니다.

부스팅에서 각 분류기의 가중치는 이전 반복의 성공을 나타냅니다.

에이다부스트 프로세스

데이터 수집

어떤 방법이든

데이터 준비

사용되는 약한 분류기의 유형에 따라 다름

장: 단일 수준 의사결정 트리

단순 약한 분류기가 더 잘 작동함

데이터를 분석하다

어떤 방법이든

훈련 데이터

대부분의 시간을 훈련에 투자하세요

분류기는 동일한 데이터 세트에 대해 약한 분류기를 여러 번 훈련합니다.

테스트 알고리즘

분류 오류율 계산

알고리즘 사용

SVM과 유사함

훈련 알고리즘: 오류를 기반으로 분류기 성능 향상

에이다부스트

적응형 부스팅

작업 과정

훈련 데이터의 각 샘플에는 벡터 D를 형성하기 위한 가중치가 부여됩니다.

처음에는 가중치가 동일합니다.

먼저 훈련 데이터에 대해 약한 분류기를 훈련시키고 오류율을 계산합니다.

그런 다음 동일한 데이터 세트에서 약한 분류기를 다시 훈련시킵니다.

가중치 재지정

예

줄이다

잘못된

개선하다

각 분류자에는 가중치 값 알파가 할당됩니다.

각 약한 분류기에 따른 오류율 계산

오류율

잘못 분류된 샘플 수/전체 샘플 수

까지 반복을 반복합니다.

오류율 0

약한 분류기의 수가 사용자가 지정한 값에 도달함

단일 계층 의사결정 트리를 기반으로 약한 분류기 구축

단일 수준 의사결정 트리

의사결정 트리 그루터기라고도 함

작동 원리

단일 기능만을 기반으로 결정을 내립니다.

의사코드

최소 오류율 minError를 양의 무한대로 설정합니다.

데이터 세트의 각 기능에 대해

각 단계마다

각 부등호에 대해

단일 수준 의사결정 트리를 구축하고 가중치가 부여된 데이터 세트를 사용하여 테스트합니다.

오류율이 minError보다 낮으면 현재 단일 레이어 의사결정 트리를 최상의 단일 레이어 의사결정 트리로 설정합니다.

최상의 단일 수준 의사결정 트리를 반환합니다.

완전한 AdaBoost 알고리즘 구현

의사코드

각 반복마다

최고의 단일 계층 의사결정 트리를 찾으려면 buildStump() 함수를 사용하십시오.

단일 수준 의사결정 트리 배열에 최상의 단일 수준 의사결정 트리를 추가합니다.

알파 계산

새로운 가중치 벡터 D를 계산합니다.

누적 카테고리 추정 업데이트

오류율이 0.0이면 루프를 종료합니다.

테스트 알고리즘: AdaBoost 기반 분류

예: 어려운 데이터 세트에 AdaBoost 적용

과적합

과적합, 과잉 학습

테스트 오류율이 최소값에 도달한 후 다시 상승하기 시작합니다.

일부 문헌에 따르면 성능이 좋은 데이터 세트의 테스트 오류율은 안정적인 값에 도달합니다.

불균형 분류 문제

기타 분류 성능 지표: 정밀도, 재현율, ROC 곡선

혼동 행렬

사람들이 분류 오류를 더 잘 이해하는 데 도움이 될 수 있습니다.

참양성 TP, 거짓양성 FP, 참음성 TN, 거짓음성 FN

정확성

TP/(TP FP)

상기하다

TP/(TP FN)

ROC 곡선

수신기 작동 특성

수평축

거짓 긍정 비율

FP/(FP 테네시)

수직축

진양비

TP/(TP FN)

사용

분류기 비교

비용 편익 분석

이상적으로는

가장 좋은 분류기는 가능한 한 왼쪽 상단에 있습니다.

곡선 AUC 아래 면적

분류기의 평균 성능 값

비용 함수 기반 분류기 결정 제어

비용에 민감한 학습

0과 1 이외의 값을 갖는 비용 행렬

비용정보 소개

에이다부스트

비용 함수를 기반으로 오류 가중치 벡터 D를 조정합니다.

나이브 베이즈

분류 결과로 최대 확률이 아닌 최소 예상 비용이 있는 항목을 선택

SVM

비용 함수의 다양한 범주에 대해 서로 다른 매개변수 C를 선택합니다.

불균형 문제를 처리하기 위한 데이터 샘플링 방법

언더샘플링

샘플 삭제

결정 경계에서 멀리 떨어진 샘플을 선택하고 삭제합니다.

언더샘플링과 오버샘플링의 혼합

오버샘플링

샘플 복사

기존 샘플 복사

기존 예시와 유사한 점 추가

보간점

과적합이 발생할 수 있음