로그인
로그인

마인드 맵 갤러리 데이터 마이닝 도구——WEKA

데이터 마이닝 도구——WEKA

WEKA는 데이터 전처리, 학습 알고리즘(분류, 회귀, 클러스터링, 상관 분석) 및 평가 방법을 통합하는 포괄적인 데이터 마이닝 도구입니다. WEKA 사용법을 소개한 마인드맵이 모든 분들께 도움이 되었으면 좋겠습니다!

2023-07-07 16:09:18에 편집됨

슈퍼직장인

최근 작업 더 많은 작업 보기>>

데이터 마이닝 도구——WEKA

슈퍼직장인

최근 작업 더 많은 작업 보기>>

추천 사항
개요

패턴 인식
- 10
슈퍼직장인
데이터 마이닝 및 분석 기술 마인드 맵
- 21
슈퍼직장인
데이터 수집
- 12
슈퍼직장인

데이터 마이닝 도구——WEKA

웨카 소개

WEKA의 정식 명칭은 Waikato Environment for Knowledge Analysis입니다.

WEKA는 뉴질랜드의 새 이름이기도 합니다. 뉴질랜드 와이카토 대학의 WEKA 팀이 Java로 개발한 머신러닝/데이터 마이닝 오픈 소스 소프트웨어입니다.

소스 코드 받기

http://www.cs.waikato.ac.nz/ml/weka/

http://prdownloads.sourceforge.net/weka/weka-3-6-6jre.exe

2005년 8월 제11회 ACM SIGKDD 국제 컨퍼런스에서 와이카토 대학의 WEKA 그룹은 데이터 마이닝 및 지식 탐색 분야에서 최고의 서비스상을 수상했습니다. WEKA 시스템은 널리 인정을 받아 데이터 마이닝 분야의 선두주자로 찬사를 받았습니다. 그리고 기계 학습은 역사상 가장 완벽한 데이터 마이닝 도구 중 하나입니다. WEKA는 월간 10,000회 이상 다운로드되었습니다.

주요 특징

데이터 전처리, 학습 알고리즘(분류, 회귀, 클러스터링, 상관 분석) 및 평가 방법을 통합한 포괄적인 데이터 마이닝 도구입니다.

대화형 시각적 인터페이스가 있습니다.

알고리즘 학습 및 비교 환경 제공

인터페이스를 통해 자신만의 데이터 마이닝 알고리즘을 구현할 수 있습니다.

탐색기 환경

영역 1의 여러 탭은 다양한 마이닝 작업 패널 간을 전환하는 데 사용됩니다.

전처리(data preprocessing): 처리할 데이터를 선택하고 수정합니다.

분류: 분류 또는 회귀 모델을 훈련하고 테스트합니다.

클러스터(Cluster): 데이터로부터 클러스터링.

연관(Associate): 데이터로부터 연관 규칙을 학습합니다.

속성 선택: 데이터에서 가장 관련성이 높은 속성을 선택합니다.

시각화: 데이터의 2차원 산점도를 봅니다.

영역 2는 일반적으로 사용되는 버튼입니다. 데이터 열기, 편집, 저장 및 데이터 변환과 같은 기능을 포함합니다. 예를 들어 "bank-data.csv" 파일을 "bank-data.arff"로 저장할 수 있습니다.

영역 3에서는 필터를 선택하여 데이터를 필터링하거나 데이터에 대한 일부 변환을 수행할 수 있습니다. 데이터 전처리는 주로 이를 이용해 구현된다.

4번 영역에는 관계명, 속성 개수, 인스턴스 개수 등 데이터셋의 기본 정보가 표시됩니다.

데이터 세트의 모든 속성은 영역 5에 나열됩니다.

일부 속성을 선택하고 "제거"하여 삭제할 수 있습니다. 삭제 후 영역 2의 "실행 취소" 버튼을 사용하여 검색할 수도 있습니다.

영역 5 위의 버튼 행은 빠르게 확인하는 데 사용됩니다.

영역 6에는 영역 5에서 선택된 현재 속성의 요약이 표시됩니다.

요약에는 속성 이름(Name), 속성 유형(Type), 누락된 값의 수와 비율(Missing), 서로 다른 값의 수(Distinct), 고유 값의 수와 비율(Unique)이 포함됩니다.

요약 방법은 숫자 속성과 명목 속성에 따라 다릅니다. 그림은 숫자 속성 "소득"의 요약을 보여줍니다.

숫자 속성은 최소값(Minimum), 최대값(Maximum), 평균(Mean) 및 표준편차(StdDev)를 표시합니다.

명목상 속성은 각 고유 값의 개수를 표시합니다.

영역 7은 영역 5에서 선택한 속성의 히스토그램입니다.

데이터 세트의 마지막 속성(분류 또는 회귀 작업의 기본 대상 변수)이 클래스 레이블 변수(예: "pep")인 경우 히스토그램의 각 직사각형은 해당 변수에 비례하여 서로 다른 색상의 세그먼트로 나뉩니다.

세분화 기준을 변경하려면 영역 7 위의 드롭다운 상자에서 다른 분류 속성을 선택하면 됩니다.

드롭다운 상자에서 "클래스 없음" 또는 숫자 속성을 선택하면 흑백 히스토그램으로 변합니다.

영역 8 상태 표시줄, 로그 버튼, Weka 새를 포함하는 창의 하단 영역입니다.

상태 표시줄(상태)에는 수행 중인 작업을 알려주는 몇 가지 정보가 표시됩니다. 예를 들어 Explorer가 파일을 로드하는 중이면 상태 표시줄에 알림이 표시됩니다.

상태 표시줄의 아무 곳이나 마우스 오른쪽 버튼으로 클릭하면 작은 메뉴가 나타납니다. 이 메뉴는 두 가지 옵션을 제공합니다.

메모리 정보--WEKA에 사용 가능한 메모리 양을 표시합니다.

가비지 수집기 실행 - Java 가비지 수집기가 더 이상 필요하지 않은 메모리 공간을 검색하고 해제하도록 하여 새 작업에 더 많은 메모리를 할당할 수 있도록 합니다.

로그 버튼을 사용하면 weka 작업 로그를 볼 수 있습니다.

오른쪽의 웨카 새가 움직이고 있다면 WEKA가 발굴 작업을 수행하고 있다는 뜻입니다.

KnowledgeFlow 환경

WEKA 데이터세트

WEKA가 처리하는 데이터 세트는 .arff 파일의 2차원 테이블입니다.

테이블의 행을 인스턴스라고 하며 이는 통계의 샘플이나 데이터베이스의 레코드에 해당합니다.

세로 행을 속성이라고 하며 통계의 변수나 데이터베이스의 필드에 해당합니다.

WEKA의 관점에서 이러한 테이블 또는 데이터 세트는 속성 간의 관계(Relation)를 나타냅니다.

위 그림에는 14개의 인스턴스, 5개의 속성이 있고 관계 이름은 "weather"입니다.

WEKA가 데이터를 저장하는 형식은 ASCII 텍스트 파일인 ARFF(Attribute-Relation File Format) 파일입니다.

위에 표시된 2차원 테이블은 다음 ARFF 파일에 저장됩니다. 이는 WEKA와 함께 제공되는 "weather.arff" 파일로, WEKA 설치 디렉토리의 "data" 하위 디렉토리에 있습니다.

WEKA가 데이터를 저장하는 형식은 ARFF(Attribute-Relation File Format) 파일이다.

ASCII 텍스트 파일입니다(ASCII((American Standard Code for Information Interchange): American Standard Code for Information Interchange))

파일 확장자는 .arff입니다.

워드패드를 사용하여 ARFF 파일을 열고 편집할 수 있습니다.

파일에서 "%"로 시작하는 라인은 주석이며 WEKA는 이 라인을 무시합니다.

주석을 제거한 후 전체 ARFF 파일은 두 부분으로 나눌 수 있습니다.

첫 번째 부분은 관계 선언, 속성 선언을 포함한 헤더 정보(Head 정보)를 제공합니다.

두 번째 부분은 데이터 정보(Data information), 즉 데이터 세트에 주어진 데이터를 제공합니다. "@data" 태그부터 시작해서 데이터 정보가 나옵니다.

관계 진술

관계 이름은 ARFF 파일의 유효한 첫 번째 줄에 @relation <관계 이름> 형식으로 정의됩니다.

<관계 이름>은 문자열입니다. 이 문자열에 공백이 포함되어 있으면 따옴표로 묶어야 합니다(영어 구두점의 경우 작은따옴표 또는 큰따옴표).

재산 선언

속성 선언은 "@attribute"로 시작하는 명령문 목록으로 표시됩니다.

데이터 세트의 각 속성에는 해당 속성 이름과 데이터 유형(데이터 유형)을 정의하는 해당 "@attribute" 문이 있습니다. @attribute <속성 이름> <데이터 유형>

여기서 <속성 이름>은 문자로 시작하는 문자열이어야 합니다. 관계 이름과 마찬가지로 이 문자열에 공백이 포함되어 있으면 따옴표로 묶어야 합니다.

속성 선언문의 순서는 데이터 섹션에서 속성의 위치를 나타내므로 중요합니다.

예를 들어, "습도"는 세 번째로 선언된 속성입니다. 이는 데이터 부분에서 쉼표로 구분된 열 중 2열의 데이터(0열부터 시작) 85 90 86 96 ...이 해당 "습도"임을 의미합니다. 값.

둘째, 마지막으로 선언된 속성을 클래스 속성이라고 하며, 이는 분류 또는 회귀 작업의 기본 대상 변수입니다.

데이터 유형

숫자 숫자 유형

숫자 속성은 정수 또는 실수일 수 있지만 WEKA는 이를 모두 실수로 처리합니다. 예: @attribute 온도 실수

<공칭-사양> 공칭 유형

명목상 속성은 중괄호로 묶인 가능한 범주 이름의 <명목상 사양> 목록으로 구성됩니다: {<명목상 이름1>, <명목상 이름2>, <명목상 이름3>, ...}.

데이터세트에서 이 속성의 값은 카테고리 중 하나만 될 수 있습니다.

예를 들어 속성 선언: @attribute outlook {sunny, overcast, rain}은 "outlook" 속성에 "sunny", "overcast" 및 "rainy"의 세 가지 범주가 있음을 나타냅니다. 데이터 세트의 각 인스턴스에 해당하는 "전망" 값은 다음 세 가지 중 하나여야 합니다.

카테고리 이름에 공백이 있는 경우에도 따옴표로 묶어야 합니다.

문자열 문자열 유형

문자열 속성에는 임의의 텍스트가 포함될 수 있습니다. 예: @attribute LCC 문자열

date [<date-format>] 날짜 및 시간 유형

날짜 및 시간 속성은 "date" 유형으로 균일하게 표시되며 형식은 다음과 같습니다. @attribute <속성 이름> 날짜 [<date-format>]

여기서 <date-format>은 날짜 또는 시간 형식을 구문 분석하고 표시하는 방법을 지정하는 문자열입니다. 기본 문자열은 ISO-8601: "yyyy-MM-dd HH:mm:ss"에서 제공하는 날짜 및 시간 조합 형식입니다.

데이터 정보 부분의 날짜를 표현하는 문자열은 문에 지정된 형식 요구 사항을 준수해야 합니다. 예: @ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss" @DATA "2011-05-03 12: 59:55"

알아채다

사용할 수 있는 두 가지 다른 유형 "정수"와 "실수"가 있지만 WEKA는 두 가지 유형을 모두 "숫자"로 처리합니다.

키워드 "integer", "real", "numeric", "date" 및 "string"은 대소문자를 구분하지만 "relation", "attribute" 및 "data"는 그렇지 않습니다.

데이터 정보

데이터 정보 중 "@data" 태그가 한 줄을 차지하고 나머지는 각 인스턴스의 데이터이다.

각 인스턴스는 한 줄을 차지하며, 인스턴스의 속성 값은 쉼표 ","로 구분됩니다.

속성값이 결측값인 경우에는 물음표 "?"로 표시되며, 이 물음표는 생략할 수 없다.

희소한 데이터

때로는 데이터 세트에 0 값이 많이 포함되는 경우가 있습니다. 이 경우 데이터를 희소 형식으로 저장하는 것이 공간을 더 절약합니다.

스파스 형식은 데이터 정보의 개체를 표현하기 위한 형식으로 ARFF 파일의 다른 부분을 수정할 필요가 없습니다.

데이터 예: @data 0, X, 0, Y, "클래스 A" 0, 0, W, 0, "클래스 B"

Sparse 형식으로 표현하면 @data 입니다. {1 X, 3 Y, 4 "클래스 A"} {2W, 4 "클래스 B"}

참고: ARFF 데이터 세트의 가장 왼쪽 속성 열은 열 0입니다. 따라서 1 X는 X가 열 1의 속성 값임을 의미합니다.

데이터 준비

데이터 수집

ARFF 파일 데이터를 직접 사용합니다.

CSV, C4.5, 바이너리 및 기타 형식 파일에서 가져옵니다.

JDBC를 통해 SQL 데이터베이스에서 데이터를 읽습니다.

URL(Uniform Resource Locator)에서 네트워크 리소스 데이터를 얻습니다.

데이터 형식 변환

ARFF 형식은 WEKA에서 지원하는 최고의 파일 형식입니다.

데이터 마이닝에 WEKA를 사용할 때 직면하는 첫 번째 문제는 데이터가 ARFF 형식이 아니라는 점입니다.

WEKA는 CSV 파일에 대한 지원도 제공하며 이 형식은 다른 많은 소프트웨어(예: Excel)에서 지원됩니다.

WEKA를 사용하여 CSV 파일 형식을 ARFF 파일 형식으로 변환할 수 있습니다.

데이터 리소스

WEKA 자체 데이터 세트 C:\Program Files\Weka-3-6\data

네트워크 데이터 리소스 http://archive.ics.uci.edu/ml/datasets.html

.XLS——> .CSV——> .ARFF

Excel의 XLS 파일을 사용하면 여러 개의 2차원 테이블을 서로 다른 워크시트(시트)에 배치할 수 있으며 각 워크시트는 서로 다른 CSV 파일로만 저장할 수 있습니다.

XLS 파일을 열고 변환해야 하는 워크시트로 전환하고 이를 CSV 유형으로 저장한 다음 "확인", "예"를 클릭하고 메시지를 무시하여 작업을 완료합니다.

WEKA에서 CSV 형식의 파일을 열고 ARFF 형식의 파일로 저장합니다.

데이터 전처리전처리

WEKA의 데이터 전처리 도구를 필터라고 합니다.

필터를 정의하여 다양한 방식으로 데이터를 변환할 수 있습니다.

필터 열은 다양한 필터에 필요한 설정을 지정하는 데 사용됩니다.

선택 버튼: WEKA에서 필터를 선택하려면 이 버튼을 클릭하세요.

필터를 선택하면 해당 이름과 옵션이 선택 버튼 옆의 텍스트 상자에 나타납니다.

데이터 로드

Explorer 사전 프로세스 페이지의 영역 2에 있는 처음 4개의 버튼은 WEKA에 데이터를 로드하는 데 사용됩니다.

파일 열기.... 로컬 파일 시스템에서 데이터 파일을 찾아볼 수 있는 대화 상자를 엽니다.

URL 열기.... 데이터가 포함된 URL 주소를 요청합니다.

Open DB.... 데이터베이스에서 데이터를 읽습니다.

생성.... 일부 DataGenerator에서 인공 데이터를 생성합니다.

쓸모없는 속성 제거

일반적으로 데이터 마이닝 작업의 경우 ID와 같은 정보는 쓸모가 없으며 삭제될 수 있습니다.

영역 5에서 "id" 속성을 확인하고 "제거"를 클릭합니다. 새 데이터 세트를 저장하고 다시 엽니다.

데이터 이산화

상관 분석과 같은 일부 알고리즘은 명목형 속성만 처리할 수 있습니다. 이 경우 숫자 속성을 이산화해야 합니다.

제한된 값을 가진 숫자 속성은 .arff 파일의 속성 데이터 유형을 수정하여 구분할 수 있습니다.

예를 들어 특정 데이터 세트의 'children' 속성에는 숫자 값 4개(0, 1, 2, 3)만 있습니다.

ARFF 파일을 직접 수정하고 @attribute 하위 숫자를 @attribute 하위 {0,1,2,3}로 변경합니다.

"Explorer"에서 "bank-data.arff"를 다시 열고 "children" 속성을 선택한 후 영역 6에 표시된 "Type"이 "Nominal"로 변경되는지 확인합니다.

값이 많은 숫자 속성의 경우 WEKA에서 "Discretize"라는 필터를 사용하여 이산화를 수행할 수 있습니다.

영역 2에서 "선택"을 클릭하면 "필터 트리"가 나타나고 "weka.filters.unsupervised.attribute.Discretize"를 레벨별로 찾아 클릭합니다.

이제 "선택" 옆의 텍스트 상자에 "Discretize -B 10 -M -0.1 -R first-last"라고 표시되어야 합니다.

이 텍스트 상자를 클릭하면 이산화 매개변수를 수정할 수 있는 새 창이 나타납니다.

분류분류

WEKA는 "분류" 탭에 분류와 회귀를 모두 배치합니다.

두 데이터 마이닝 작업에는 대상 속성(범주 속성, 출력 변수)이 있습니다.

우리는 WEKA 인스턴스의 특성 속성(입력 변수) 집합을 기반으로 대상 속성에 대한 분류 예측을 수행하려고 합니다.

이를 달성하려면 각 인스턴스의 입력과 출력이 알려진 훈련 데이터 세트가 필요합니다. 훈련 세트의 인스턴스를 관찰함으로써 예측 분류/회귀 모델을 구축할 수 있습니다.

이 모델을 사용하면 알려지지 않은 새로운 인스턴스에 대한 분류 예측이 가능합니다.

모델의 품질을 측정하는 것은 주로 예측의 정확성에 따라 달라집니다.

WEKA의 일반적인 분류 알고리즘

베이즈: 베이지안 분류기

BayesNet: 베이지안 신념 네트워크

NaiveBayes: Naive Bayes 네트워크

xMultilayerPerceptron: 다층 피드포워드 인공 신경망

SMO: 서포트 벡터 머신(순차 최적화 학습 방법 사용)

Lazy: 인스턴스 기반 분류자

IB1: 1-최근접 이웃 분류기

IBk: k-최근접 이웃 분류기

분류 알고리즘 선택

메타: 조합 방법

AdaBoostM1: AdaBoost M1 방법

자루에 넣기: 자루에 넣기 방법

규칙: 규칙 기반 분류기

JRip: 직접 방식 - 리퍼 알고리즘

부분: 간접 방법 - J48에서 생성된 의사결정 트리에서 규칙 추출

트리: 의사결정 트리 분류기

Id3: ID3 결정 트리 학습 알고리즘(연속 속성은 지원되지 않음)

J48: C4.5 의사결정 트리 학습 알고리즘(버전 8)

REPTree: 오류 감소 가지치기를 사용한 의사결정 트리 학습 알고리즘

RandomTree: 의사결정나무 기반의 조합 방법

모델 평가 방법 선택(4가지 유형)

훈련 세트 사용 훈련 세트 평가 사용

제공되는 테스트 세트 테스트 세트 평가 사용

교차 검증 교차 검증

접기 접기 설정

백분율 분할 보존 방법. 평가를 위해 특정 비율의 훈련 예제를 사용하십시오.

훈련 인스턴스의 백분율 설정

더 많은 테스트 옵션을 설정하려면 추가 옵션 버튼을 클릭하세요.

출력 모델 전체 훈련 세트를 기반으로 분류 모델을 출력하여 모델을 보고 시각화할 수 있습니다. 이 옵션은 기본적으로 선택되어 있습니다.

클래스별 통계를 출력합니다. 각 클래스의 정확도/재현율 및 참/거짓 통계를 출력합니다. 이 옵션은 기본적으로 선택되어 있습니다.

출력 평가 측정 출력 엔트로피 추정 측정. 이 옵션은 기본적으로 선택되어 있지 않습니다.

분류기 예측 결과의 혼동행렬을 출력합니다. 이 옵션은 기본적으로 선택되어 있습니다.

시각화를 위해 예측을 저장합니다. 시각적으로 표현할 수 있도록 분류기의 예측을 기록합니다.

예측을 출력합니다. 테스트 데이터의 예측 결과를 출력합니다. 교차 검증 중에 인스턴스 수는 데이터 세트에서의 위치를 나타내지 않습니다.

비용에 민감한 평가. 오류는 값 매트릭스를 기반으로 추정됩니다. 설정… 버튼은 값 행렬을 지정하는 데 사용됩니다.

xval / % 분할에 대한 무작위 시드입니다. 평가 목적으로 데이터를 분할해야 할 때 데이터를 무작위화하는 데 사용되는 무작위 시드를 지정합니다.

텍스트 결과 분석

시작 버튼을 클릭하면 분류기 출력 창에 텍스트 결과 정보가 표시됩니다.

주행정보 주행정보

분류기 모델(전체 훈련 세트) 모든 훈련 데이터를 사용하여 구성된 분류 모델

요약 훈련/테스트 세트에 대한 예측 효과 요약입니다.

클래스별 세부 정확도 각 클래스의 예측 정확도에 대한 자세한 설명입니다.

혼동 행렬(Confusion Matrix) 행렬의 행은 실제 클래스이고, 행렬의 열은 예측 클래스이며, 행렬 요소는 해당 테스트 샘플의 수인 혼동 행렬입니다.

주요 지표

올바르게 분류된 인스턴스 올바른 분류 비율

잘못 분류된 인스턴스 오류 분류율

카파 통계 카파 통계

평균 절대 오차는 절대 오차를 의미합니다.

제곱 평균 제곱 오차 제곱 평균 제곱 오차

상대절대오차 상대절대오차

루트 상대 제곱근 오류 상대 제곱근 오류

TP 비율(나쁨/좋음) 정확한 비율

FP율(나쁨/양호) 거짓양성률

정밀도(나쁨/좋음) 정확도

리콜(나쁨/좋음) 피드백 비율

F-Measure(나쁨/양호) F-Measure

모델 구축에 소요되는 시간 모델 구축에 소요되는 시간

그래픽 결과 출력

메인 창에서 봅니다. 기본 창에서 출력을 봅니다.

별도의 창에서 봅니다. 결과를 보려면 별도의 새 창을 엽니다.

결과 버퍼 저장(결과 버퍼 저장) 출력 결과를 텍스트 파일로 저장하기 위한 대화 상자가 나타납니다.

모델 로드(다운로드 모드) 바이너리 파일에서 사전 훈련된 모드 객체를 로드합니다.

모델을 저장합니다. 스키마 객체를 바이너리 파일, 즉 JAVA의 직렬 객체 형식으로 저장합니다.

현재 테스트 세트에서 모델을 재평가합니다(현재 테스트 세트를 재평가). 설정된 스키마를 통해 지정된 데이터 세트를 테스트하고 제공된 테스트 세트 옵션 아래의 Set.. 버튼을 사용합니다.

분류기 오류를 시각화합니다. 분류기의 결과 그래프를 보여주는 시각화 창이 팝업됩니다. 그 중 올바르게 분류된 인스턴스는 십자가로 표시되고, 잘못 분류된 인스턴스는 작은 사각형으로 표시됩니다.

실제 클래스와 예측 클래스의 산점도. 올바른 분류 결과는 십자표로 표시되고, 잘못된 분류 결과는 상자로 표시됩니다.

트리 시각화(트리 시각화). 가능하다면 분류기 모델의 구조를 설명하기 위한 그래픽 인터페이스가 나타납니다(일부 분류기에서만 사용 가능). 빈 영역을 마우스 오른쪽 버튼으로 클릭하여 메뉴를 팝업하고, 패널에서 마우스를 드래그한 후 클릭하면 각 노드에 해당하는 훈련 인스턴스를 볼 수 있습니다.

마진 곡선을 시각화합니다. 예측 마진을 나타내는 산점도를 생성합니다. 마진은 참값을 예측할 확률과 참값이 아닌 것을 예측할 최고 확률 간의 차이로 정의됩니다. 예를 들어, 가속화된 알고리즘은 훈련 데이터 세트의 마진을 늘려 테스트 데이터 세트에서 더 잘 작동합니다.

예측된 한계 값을 표시하는 산점도를 만듭니다.

네 가지 변수

마진: 예측된 한계 가치

Instance_number: 검사 인스턴스의 일련번호

현재: 현재 예측 마진 값이 있는 인스턴스 수입니다.

누적: 예측된 한계 값보다 작거나 같은 인스턴스 수(Instance_number와 일치)

8번 테스트 인스턴스를 클릭하면 이 점의 한계값이 0.5임을 알 수 있고, 한계값이 0.5보다 작은 인스턴스가 7개 있습니다.

임계값 곡선을 시각화합니다(임계값 곡선 시각화). 산점도는 예측의 균형 문제를 설명하기 위해 생성되며, 여기서 균형은 클래스 간의 임계값을 변경하여 포착됩니다. 예를 들어 기본 임계값은 0.5이고 인스턴스가 긍정적일 것으로 예측되는 확률은 0.5보다 커야 합니다. 인스턴스가 0.5에서 정확히 긍정적일 것으로 예측되기 때문입니다. 그리고 그래프를 사용하여 ROC 곡선 분석(정확한 양의 비율과 오류의 양의 비율) 및 기타 곡선과 같은 정확도/피드백 비율 균형을 시각화할 수 있습니다.

임계값은 테스트 인스턴스를 현재 클래스로 분류할 수 있는 최소 확률입니다. 점의 색상은 임계값을 나타내는 데 사용됩니다.

곡선의 각 점은 임계값의 크기를 변경하여 생성됩니다.

ROC 분석을 수행할 수 있습니다.

X축은 거짓양성률을 선택합니다.

Y축 선택 실제 비율

ROC 곡선

ROC 곡선(Receiver Operating Characteristic Curve)은 분류 모델의 참양성률과 거짓양성률 사이의 절충점을 그래픽 방식으로 나타낸 것입니다.

표본을 양수 범주와 음수 범주로 나눌 수 있다고 가정하고 ROC 차트의 몇 가지 개념적 정의를 해석하십시오.

참양성(TP), 모델에 의해 양성으로 예측된 양성 샘플

거짓 음성(FN)은 모델에 의해 음성으로 예측된 양성 샘플입니다.

거짓양성(FP)은 모델에 의해 양성으로 예측되는 음성 샘플입니다.

참음성(TN) 모델에 의해 음성으로 예측된 음성 샘플

참양성률(TPR) 또는 민감도 TPR = TP / (TP FN) 양성 샘플 예측 결과 수/실제 양성 샘플 수

거짓양성률(FPR) FPR = FP / (FP TN) 양성으로 예측된 음성 샘플 결과 수/실제 음성 샘플 수

(TPR=1,FPR=0)은 이상적인 모델입니다.

좋은 분류 모델은 그래프의 왼쪽 상단에 최대한 가까워야 합니다.

비용 곡선 시각화(비용 곡선 시각화). Drummond와 Holte가 설명한 대로 예상 비용을 정확하게 나타내는 산점도를 생성합니다.

무리

군집 분석은 동일한 군집에 있는 개체는 유사하고 다른 군집에 있는 개체는 서로 다르도록 각 군집에 개체를 할당합니다.

WEKA는 "Explorer" 인터페이스의 "Cluster"에서 클러스터 분석 도구를 제공합니다.

주요 알고리즘은 다음과 같습니다:

SimpleKMeans — 범주형 속성을 지원하는 K-평균 알고리즘

displayStdDevs: 수치 속성의 표준편차 표시 여부 및 카테고리 속성 개수 표시 여부

distanceFunction: 비교 인스턴스에 대한 거리 함수를 선택합니다.

(기본값: weka.core.EuclideanDistance)

dontReplaceMissingValues: 누락된 값을 대체하기 위해 평균/모드를 사용하지 않을지 여부입니다.

maxIterations: 최대 반복 횟수

numClusters: 클러스터링을 위한 클러스터 수

PreserveInstancesOrder: 인스턴스 순서를 미리 정렬할지 여부

시드: 임의의 시드 값을 설정합니다.

DBScan — 범주형 속성을 지원하는 밀도 기반 알고리즘

EM — 혼합 모델 기반 클러스터링 알고리즘

FathestFirst — K 중심점 알고리즘

OPTICS — 밀도에 기반한 또 다른 알고리즘

거미줄 — 개념 클러스터링 알고리즘

sIB — 정보 이론에 기반한 클러스터링 알고리즘, 범주형 속성을 지원하지 않습니다.

XMeans — 클러스터 수를 자동으로 결정할 수 있는 확장된 K-평균 알고리즘입니다. 이는 범주형 속성을 지원하지 않습니다.

클러스터 모드클러스터 모드

훈련 세트 사용 - 훈련 객체에 대한 클러스터링 및 그룹화 결과를 보고합니다.

제공된 테스트 세트 - 훈련 객체에 대한 클러스터링 결과를 보고하고 추가 테스트 객체에 대한 그룹화 결과를 보고합니다.

백분율 분할 — 모든 개체에 대한 클러스터링 결과, 훈련 개체에 대한 클러스터링 결과, 테스트 개체에 대한 그룹화 결과를 보고합니다.

지도 평가(클래스-클러스터 평가) — 훈련 객체에 대한 클러스터링 및 그룹화 결과, 클래스/클러스터 혼동 행렬 및 잘못된 그룹화 정보를 보고합니다.

클러스터링 알고리즘 실행

클러스터링 알고리즘을 실행하려면 "시작" 버튼을 클릭하세요.

클러스터링 결과 관찰

오른쪽의 "클러스터러 출력"에서 제공되는 클러스터링 결과를 관찰합니다. 이번에 생성된 결과를 왼쪽 하단의 '결과 목록'에서 마우스 오른쪽 버튼을 클릭하고 '별도의 창에서 보기'를 클릭하면 새 창에서 결과를 열람할 수도 있습니다.

참고: 위의 실행 정보는 지도 클러스터링이 사용되는 경우에만 나타납니다(즉, 모델링 데이터 세트의 클래스 레이블이 알려진 경우).

텍스트 분석

SimpleKMeans

비지도 모드: 실행 정보, KMeans 결과(반복 횟수, SSE, 클러스터 중심), 검사 개체의 그룹화 정보

감독 모드: 실행 정보, KMeans 결과(반복 횟수, SSE, 클러스터 중심), 클래스/클러스터 혼동 행렬, 잘못 그룹화된 개체의 수 및 비율

군집 중심: 숫자 속성의 평균 및 범주형 속성의 모드

DBScan

비지도 모드: 실행 정보, DBScan 결과(반복 횟수, 각 훈련 개체의 그룹화 정보), 테스트 개체의 그룹화 정보

감독 모드: 실행 정보, DBScan 결과(반복 횟수, 각 훈련 개체의 그룹화 정보), 클래스/클러스터 혼동 행렬, 잘못 그룹화된 개체 수 및 비율

그래픽 분석

시각화를 위한 매장 클러스터를 확인해야 합니다.

클러스터 할당 시각화: 클래스/클러스터 혼동 행렬을 시각화할 수 있는 2D 산점도

중요한 출력 정보

'클러스터 내 오차 제곱합'은 클러스터링 품질을 평가하는 표준으로, SSE는 오차 제곱합을 의미합니다. SSE 값이 작을수록 클러스터링 결과가 더 좋습니다.

"클러스터 중심:" 뒤에는 각 클러스터 중심의 위치가 표시됩니다. 숫자 속성의 경우 군집 중심은 평균(Mean)이고 범주형 속성의 경우 모드(Mode)입니다.

"클러스터형 인스턴스"는 각 클러스터에 있는 인스턴스의 수와 비율입니다.

시각적 클러스터링 결과 관찰

왼쪽 하단의 "결과 목록"에 나열된 결과를 마우스 오른쪽 버튼으로 클릭하고 "클러스터 할당 시각화"를 클릭합니다.

팝업 창에는 각 인스턴스의 산점도가 표시됩니다.

위쪽 두 개의 상자는 가로좌표와 세로좌표를 선택하는 것입니다.

두 번째 줄의 "색상"은 산점도 색상을 지정하는 기준입니다. 기본값은 "Cluster" 클러스터에 따라 인스턴스를 다른 색상으로 표시하는 것입니다.

연관 규칙

WEKA 연관 규칙 학습은 속성 그룹 간의 종속성을 발견할 수 있습니다.

예를 들어 우유, 버터  빵, 계란(신뢰도 0.9, 지지도 2000)

연관 규칙 L->R의 경우

지지 - 선행 사건과 결과를 모두 관찰할 확률 지지 = Pr(L,R)

신뢰도 - 선행 사건이 발생할 때 후속 사건이 발생할 확률입니다. 신뢰도 = Pr(L,R)/Pr(L)

연관 규칙 마이닝을 위한 주요 알고리즘

WEKA 데이터 마이닝 플랫폼에서 연관 규칙 마이닝을 위한 주요 알고리즘은 다음과 같습니다.

Apriori--최소 지지도와 최소 지지도를 만족하는 모든 연관 규칙을 도출할 수 있습니다.

car: true로 설정하면 전역 연관 규칙 대신 클래스 연관 규칙이 마이닝됩니다.

classindex: 클래스 속성 인덱스. -1로 설정하면 마지막 속성이 클래스 속성으로 처리됩니다.

delta: 이 값을 반복 감소 단위로 사용합니다. 최소 지원에 도달하거나 정량적 요구 사항을 충족하는 규칙이 생성될 때까지 지원이 지속적으로 감소됩니다.

lowerBoundMinSupport: 최소 지원 하한입니다.

metricType: 메트릭 유형, 정렬 규칙에 대한 메트릭 기준을 설정합니다. 그것은 다음과 같습니다: 자신감(클래스 연관 규칙은 자신감을 가지고만 채굴할 수 있음), 상승, 영향력 및 확신.

규칙의 연관성 정도를 측정하기 위해 신뢰도와 유사한 여러 측정값이 Weka에 설정되어 있습니다.

상승도: 결과적 지원에 대한 신뢰도의 비율 리프트 = Pr(L,R) / (Pr(L)Pr(R)) Lift=1이면 L과 R이 독립적이라는 의미입니다. 숫자가 클수록(>1) 동일한 장바구니에 L과 B가 존재하는 것이 우연한 현상이 아니며 강한 상관관계가 있음을 나타냅니다.

레버리지, 균형: 전건과 후건이 통계적으로 독립이라는 가정 하에서 기대값을 초과하고 전건과 후건 모두에 포함되는 사례의 비율입니다. 레버리지 = Pr(L,R) - Pr(L)Pr(R) 레버리지=0일 때 L과 R은 독립적입니다. 레버리지가 클수록 L과 R의 관계가 더 가까워집니다.

확신, 신뢰성: 선행 사건과 결과의 독립성을 측정하는 데에도 사용됩니다. 유죄 판결 = Pr(L)Pr(!R) / Pr(L,!R) (!R은 R이 발생하지 않았음을 의미함) 양력과의 관계(R을 거꾸로 하고 이를 양력 공식에 대입한 후 역수를 구함)에서 이 값이 클수록 L과 R의 관련성이 더 높다는 것을 알 수 있습니다.

minMtric: 측정항목의 최소값입니다.

numRules: 검색할 규칙 수입니다.

outputItemSets: true로 설정하면 항목 집합이 결과에 출력됩니다.

RemoveAllMissingCols: 누락된 값이 있는 모든 열을 제거합니다.

중요 수준: 중요도 수준입니다. 유의성 테스트(신뢰를 위해서만).

upperBoundMinSupport: 최소 지원의 상한입니다. 이 값부터 시작하면 최소 지원이 반복적으로 감소합니다.

verbose: true로 설정하면 알고리즘이 상세 모드로 실행됩니다.

PredictiveApriori - 신뢰도와 지지도를 예측 정확도에 결합하여 단일 측정 방법이 되고 예측 정확도별로 정렬된 연관 규칙을 찾습니다.

Terius - 확인 정도에 따라 규칙을 찾습니다. Apriori와 마찬가지로 결론에 여러 조건이 포함된 규칙을 찾습니다. 그러나 차이점은 이러한 조건이 서로 'and'가 아닌 'or'라는 것입니다.

이 세 가지 알고리즘 중 어느 것도 숫자 데이터를 지원하지 않습니다.

실제로 대부분의 연관 규칙 알고리즘은 숫자 유형을 지원하지 않습니다. 따라서 데이터를 처리하고 세그먼트로 나누고 빈으로 구분해야 합니다.

연관 규칙 마이닝 알고리즘 연산 정보

속성 선택속성 선택

속성 선택은 데이터 세트에서 모든 속성의 가능한 모든 조합을 검색하여 최상의 예측 효과를 갖는 속성 세트를 찾는 것입니다.

이 목표를 달성하려면 속성 평가자와 검색 전략을 설정해야 합니다.

평가자는 속성이 얼마나 좋은지 또는 나쁜지 나타내는 속성 집합에 값을 할당하는 방법을 결정합니다.

검색 전략은 검색 수행 방법을 결정합니다.

옵션

속성 선택 모드 열에는 두 가지 옵션이 있습니다.

전체 훈련 세트를 사용하십시오. 전체 훈련 데이터를 사용하여 속성 세트가 얼마나 좋은지 확인하십시오.

교차 유효성 검사 속성 집합의 품질은 교차 유효성 검사 프로세스를 통해 결정됩니다. Fold와 Seed는 각각 교차 검증의 접기 수와 데이터를 스크램블할 때 무작위 시드를 제공합니다.

분류 섹션과 마찬가지로 클래스 속성을 지정하는 드롭다운 상자가 있습니다.

선택 실행

속성 선택 프로세스를 시작하려면 시작 버튼을 클릭하세요. 완료되면 결과 영역에 결과가 출력되고 결과 목록에 항목이 추가됩니다.

결과 목록을 마우스 오른쪽 버튼으로 클릭하면 몇 가지 옵션이 제공됩니다. 처음 3개(기본 창에서 보기, 별도의 창에서 보기, 결과 버퍼 저장)는 분류 패널과 동일합니다.

축소된 데이터 세트를 시각화할 수도 있습니다(Visualize Reduced Data)

변환된 데이터 세트를 시각화하는 기능(VisualizeTransformed Data)

축소/변형된 데이터는 축소된 데이터 저장... 또는 변환된 데이터 저장... 옵션을 사용하여 저장할 수 있습니다.

데이터 시각화Visualize

WEKA의 시각화 페이지는 2차원 분산형 다이어그램에서 현재 관계를 시각적으로 찾아볼 수 있습니다.

산점도 행렬

시각화 패널을 선택하면 선택한 클래스 속성에 따라 색상이 지정된 모든 속성에 대해 산점도 행렬이 제공됩니다.

여기에서 각 2D 분산형 차트의 크기를 변경하고, 각 점의 크기를 변경하고, 데이터를 무작위로 지터링할 수 있습니다(숨겨진 점 표시).

색상 지정에 사용되는 속성을 변경할 수도 있고, 속성 집합의 하위 집합만 선택하여 산점도 행렬에 넣을 수도 있으며, 데이터의 하위 샘플을 선택할 수도 있습니다.

이러한 변경 사항은 업데이트 버튼을 클릭한 후에만 적용됩니다.

개별 2D 산점도 선택

산점도 행렬의 요소를 클릭하면 선택한 산점도를 시각화할 수 있는 별도의 창이 나타납니다.

데이터 포인트는 창의 주요 영역에 분산되어 있습니다. 위에는 점의 좌표축을 선택하기 위한 두 개의 드롭다운 상자가 있습니다. 왼쪽에는 x축으로 사용되는 속성이 있고, 오른쪽에는 y축으로 사용되는 속성이 있습니다.

x축 선택기 옆에는 색상 구성표를 선택하기 위한 드롭다운 상자가 있습니다. 선택한 속성을 기준으로 포인트에 색상을 지정합니다.

점선 영역 아래에는 각 색상이 나타내는 값을 설명하는 범례가 있습니다. 값이 불연속적인 경우 팝업되는 새 창에서 해당 값을 클릭하여 색상을 수정할 수 있습니다.

도트 영역 오른쪽에 가로 막대가 몇 개 있습니다. 각 막대는 속성을 나타내고 막대 안의 점은 속성 값의 분포를 나타냅니다. 이 점들은 수직 방향으로 무작위로 퍼져 있어 점의 밀도를 볼 수 있습니다.

기본 그래프에 사용되는 축을 변경하려면 이 막대를 클릭하세요. x축 속성을 변경하려면 마우스 왼쪽 버튼을 클릭하고, y축을 변경하려면 마우스 오른쪽 버튼을 클릭하세요. 가로 막대 옆의 "X"와 "Y"는 현재 축에서 사용되는 속성을 나타냅니다("B"는 x축과 y축 모두에 사용됨을 나타냅니다).

속성 표시줄 위에는 Jitter라는 커서가 있습니다. 산점도의 각 점 위치, 즉 지터를 무작위로 이동할 수 있습니다. 오른쪽으로 드래그하면 지터의 진폭이 증가하여 점의 밀도를 식별하는 데 유용합니다.

이러한 디더링을 사용하지 않으면 수만 개의 점이 함께 단일 점처럼 보입니다.

y축 선택 버튼 아래에는 데이터 포인트 선택 방법을 결정하는 드롭다운 버튼이 있습니다.

데이터 포인트는 다음 네 가지 방법으로 선택할 수 있습니다.

인스턴스를 선택하면 해당 속성 값을 나열하는 창이 열립니다. 두 개 이상의 포인트를 클릭하면 더 많은 속성 값 세트도 나열됩니다.

직사각형. 직사각형 안의 점을 끌어서 선택하여 직사각형을 만듭니다.

다각형. 자유형 다각형을 만들고 해당 점을 선택합니다. 마우스 왼쪽 버튼을 클릭하면 다각형의 정점을 추가하고, 마우스 오른쪽 버튼을 클릭하면 정점 설정이 완료됩니다. 시작점과 끝점은 자동으로 연결되므로 다각형은 항상 닫혀 있습니다.

폴리라인 폴리라인을 생성하여 양쪽의 점을 분리할 수 있습니다. 폴리라인 정점을 추가하려면 마우스 왼쪽 버튼을 클릭하고 설정을 종료하려면 마우스 오른쪽 버튼을 클릭하세요. 폴리라인은 항상 열려 있습니다(닫힌 폴리곤과 반대).

직사각형, 다각형 또는 다중선을 사용하여 산점도 영역을 선택하면 해당 영역이 회색으로 변합니다.

이때 제출 버튼을 클릭하면 회색 영역 외부에 있는 모든 인스턴스가 제거됩니다.

지우기 버튼을 클릭하면 그래픽에 영향을 주지 않고 선택한 영역이 지워집니다. 모든 포인트가 그래프에서 제거되면 제출 버튼이 재설정 버튼으로 변경됩니다. 이 버튼을 누르면 이전의 모든 제거를 취소하고 모든 점이 있는 초기 상태로 그래프를 되돌릴 수 있습니다.

마지막으로 저장 버튼을 클릭하여 현재 표시되는 인스턴스를 새 ARFF 파일에 저장합니다.

지식 흐름 인터페이스 KnowledgeFlow

KnowledgeFlow는 Weka에 그래픽 "지식 흐름" 인터페이스를 제공합니다.

사용자는 도구 모음에서 구성 요소를 선택하고 패널에 배치한 다음 특정 순서로 연결하여 데이터를 처리하고 분석하는 "지식 흐름"을 형성할 수 있습니다.

예: "데이터 소스" -> "필터" -> "분류" -> "평가"

Weka 분류자, 필터, 클러스터러, 로더, 보호기 및 기타 일부 기능을 KnowledgeFlow에서 사용할 수 있습니다.

지식 흐름 레이아웃은 저장하고 다시 로드할 수 있습니다.

KnowledgeFlow의 사용 가능한 구성 요소

KnowledgeFlow 창 상단에는 8개의 탭이 있습니다.

데이터 소스--데이터 로더

DataSinks--데이터 보호기

필터--필터

분류자--분류자

클러스터러--클러스터

연관 - 연관자

평가 - 평가자

TrainingSetMaker--데이터 세트를 훈련 세트로 만듭니다.

TestSetMaker--데이터 세트를 테스트 세트로 만듭니다.

CrossValidationFoldMaker--교차 검증을 위해 모든 데이터 세트, 훈련 세트 또는 테스트 세트를 여러 접기로 분할합니다.

TrainTestSplitMaker--모든 데이터 세트, 훈련 세트 또는 테스트 세트를 훈련 세트와 테스트 세트로 분할합니다.

ClassAssigner - 열을 모든 데이터 세트, 학습 세트 또는 테스트 세트의 클래스 속성으로 사용합니다.

ClassValuePicker--특정 범주를 "긍정적" 클래스로 선택합니다. 이는 ROC 양식 곡선에 대한 데이터를 생성할 때 유용할 수 있습니다.

ClassifierPerformanceEvaluator --배치 모드에서 훈련되거나 테스트된 분류기의 성능을 평가합니다.

IncrementalClassi̅erEvaluator--증분 모드에서 훈련된 분류기의 성능을 평가합니다.

ClustererPerformanceEvaluator--배치 모드에서 훈련되거나 테스트된 클러스터러의 성능을 평가합니다.

PredictionAppender--분류자의 예측 값을 테스트 세트에 추가합니다. 이산형 분류 문제의 경우 예측 클래스 플래그 또는 확률 분포를 추가할 수 있습니다.

시각화 - 시각화

DataVisualizer--이 구성 요소는 데이터를 별도의 더 큰 분산형 차트로 시각화할 수 있는 패널을 표시합니다.

ScatterPlotMatrix--이 구성 요소는 작은 분산형 차트로 구성된 행렬이 포함된 패널을 표시할 수 있습니다(각 작은 분산형 차트를 클릭하면 큰 분산형 차트가 팝업됩니다).

AttributeSummarizer -- 이 구성 요소는 히스토그램 매트릭스가 포함된 패널을 표시합니다. 각 히스토그램은 입력 데이터의 속성에 해당합니다.

ModelPerformanceChart - 이 구성 요소는 임계값 곡선(예: ROC 곡선)을 시각화하기 위해 패널을 팝업할 수 있습니다.

TextViewer--이 구성 요소는 텍스트 데이터를 표시하는 데 사용되며, 분류 성능 등을 측정하기 위한 데이터 세트 및 통계를 표시하는 데 사용할 수 있습니다.

GraphViewer - 이 구성 요소는 패널을 팝업하여 트리 기반 모델을 시각화할 수 있습니다.

StripChart - 이 구성 요소는 롤링 데이터 산점도를 표시하는 패널을 팝업할 수 있습니다(증분 분류기의 성능을 즉시 관찰하는 데 사용됨).