Галерея диаграмм связей Инструмент интеллектуального анализа данных —— WEKA
WEKA — это комплексный инструмент интеллектуального анализа данных, который объединяет предварительную обработку данных, алгоритмы обучения (классификация, регрессия, кластеризация, корреляционный анализ) и методы оценки. Эта интеллектуальная карта знакомит вас с тем, как использовать WEKA. Надеюсь, она будет полезна всем!
Отредактировано в 2023-07-07 16:09:18A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
Инструмент интеллектуального анализа данных —— WEKA
Введение в WEKA
Полное название WEKA — Waikato Environment for Knowledge Analysis.
WEKA также является названием птицы в Новой Зеландии. Это программное обеспечение с открытым исходным кодом для машинного обучения и анализа данных, разработанное на Java командой WEKA из Университета Вайкато в Новой Зеландии.
Получите его исходный код
http://www.cs.waikato.ac.nz/ml/weka/
http://prdownloads.sourceforge.net/weka/weka-3-6-6jre.exe
В августе 2005 года на 11-й международной конференции ACM SIGKDD группа WEKA из Университета Вайкато получила высшую награду за услуги в области интеллектуального анализа данных и исследования знаний. Система WEKA получила широкое признание и была признана лидером в области интеллектуального анализа данных. и машинное обучение. Вехи в истории обучения — один из наиболее полных инструментов интеллектуального анализа данных, доступных сегодня. WEKA загружали более 10 000 раз в месяц.
Главная особенность
Это комплексный инструмент интеллектуального анализа данных, который объединяет предварительную обработку данных, алгоритмы обучения (классификация, регрессия, кластеризация, корреляционный анализ) и методы оценки.
Имеет интерактивный визуальный интерфейс
Обеспечить среду обучения и сравнения алгоритмов
Через его интерфейс вы можете реализовать свои собственные алгоритмы интеллектуального анализа данных.
Среда проводника
Несколько вкладок в области 1 используются для переключения между различными панелями задач майнинга.
Предварительная обработка (предварительная обработка данных): выберите и измените данные, подлежащие обработке.
Классификация: обучение и тестирование моделей классификации или регрессии.
Кластер: кластеризация данных.
Associate: изучите правила ассоциации на основе данных.
Выберите атрибуты: выберите наиболее релевантные атрибуты в данных.
Визуализация: просмотр двумерной диаграммы рассеяния данных.
Область 2 – это некоторые часто используемые кнопки. Включая такие функции, как открытие, редактирование, сохранение данных и преобразование данных. Например, мы можем сохранить файл «bank-data.csv» как «bank-data.arff».
В области 3 вы можете выбрать фильтр для фильтрации данных или выполнения некоторых преобразований данных. С его помощью в основном реализуется предварительная обработка данных.
Область 4 показывает основную информацию о наборе данных, такую как имя связи, количество атрибутов и количество экземпляров.
Все свойства набора данных перечислены в области 5.
Вы можете удалить некоторые атрибуты, отметив их и нажав «Удалить». После удаления вы также можете использовать кнопку «Отменить» в области 2, чтобы восстановить их.
Ряд кнопок над областью 5 используется для быстрой проверки.
В области 6 отображается сводная информация о текущем атрибуте, выбранном в области 5.
Сводка включает имя атрибута (Name), тип атрибута (Type), количество и долю отсутствующих значений (Missing), количество различных значений (Distinct), количество и долю уникальных значений (Unique).
Суммарный метод различен для числовых атрибутов и номинальных атрибутов. На рисунке показана сводка числового атрибута «доход».
Числовые атрибуты отображают минимальное значение (Minimum), максимальное значение (Maximum), среднее значение (Mean) и стандартное отклонение (StdDev).
Номинальные свойства показывают количество каждого отдельного значения.
Область 7 — это гистограмма выбранного атрибута в области 5.
Если последний атрибут набора данных (который является целевой переменной по умолчанию для задач классификации или регрессии) является переменной метки класса (например, «pep»), каждый прямоугольник на гистограмме делится на сегменты разного цвета, пропорциональные этой переменной.
Если вы хотите изменить основу сегментации, просто выберите другой атрибут классификации в раскрывающемся списке над областью 7.
Выбор «Нет класса» или числового атрибута в раскрывающемся списке превратится в черно-белую гистограмму.
Область 8. Нижняя область окна, включая строку состояния, кнопку журнала и птицу Weka.
В строке состояния (Status) отображается некоторая информация, позволяющая вам знать, что делается. Например, если Проводник занят загрузкой файла, в строке состояния появится уведомление.
Щелчок правой кнопкой мыши в любом месте строки состояния вызовет небольшое меню. Это меню дает вам два варианта:
Информация о памяти — отображает объем памяти, доступной WEKA.
Запустить сборщик мусора. Заставьте сборщик мусора Java найти пространство памяти, которое больше не требуется, и освободить его, чтобы можно было выделить больше памяти для новых задач.
Кнопка «Журнал» позволяет просматривать журналы работы weka.
Если птица Weka справа движется, это означает, что WEKA выполняет раскопки.
Среда потока знаний
Набор данных WEKA
Набор данных, обрабатываемый WEKA, представляет собой двумерную таблицу файла .arff.
Строка в таблице называется экземпляром, что эквивалентно выборке в статистике или записи в базе данных.
Вертикальная строка называется атрибутом и эквивалентна переменной в статистике или полю в базе данных.
Такая таблица или набор данных, по мнению WEKA, представляет связь (отношения) между атрибутами.
На рисунке выше 14 экземпляров, 5 атрибутов, а имя связи — «погода».
Формат, в котором WEKA хранит данные, — это файл ARFF (формат файла отношений атрибутов), который представляет собой текстовый файл ASCII.
Двумерная таблица, показанная выше, хранится в следующем файле ARFF. Это файл «weather.arff», поставляемый с WEKA, который можно найти в подкаталоге «data» установочного каталога WEKA.
Формат, в котором WEKA хранит данные, — это файл ARFF (формат файла отношений атрибутов).
Это текстовый файл ASCII (ASCII ((Американский стандартный код обмена информацией): Американский стандартный код обмена информацией))
Расширение файла — .arff.
Вы можете использовать WordPad для открытия и редактирования файлов ARFF.
Строки в файле, начинающиеся с «%», являются комментариями, и WEKA будет игнорировать эти строки.
После удаления комментариев весь ARFF-файл можно разделить на две части:
Первая часть предоставляет информацию заголовка (Head information), включая объявление связей и объявление атрибутов.
Вторая часть предоставляет информацию о данных (Информация о данных), то есть данные, указанные в наборе данных. Начиная с тега «@data», следует информация о данных.
Заявление о взаимоотношениях
Имя отношения определяется в первой допустимой строке файла ARFF в формате: @relation <имя отношения>
<имя отношения> — это строка. Если эта строка содержит пробелы, ее необходимо заключить в кавычки (одинарные или двойные кавычки для английской пунктуации).
Декларация о собственности
Объявления атрибутов представлены списком операторов, начинающихся с «@attribute».
Каждый атрибут в наборе данных имеет соответствующий оператор «@attribute», определяющий имя атрибута и тип данных (тип данных): @attribute <имя атрибута> <тип данных>
Где <имя свойства> должно быть строкой, начинающейся с буквы. Как и в случае с именами отношений, если эта строка содержит пробелы, ее необходимо заключить в кавычки.
Порядок операторов объявления атрибута важен, поскольку он указывает расположение атрибута в разделе данных.
Например, «влажность» является третьим объявленным атрибутом, что означает, что среди столбцов, разделенных запятыми в части данных, данные в столбце 2 (начиная со столбца 0) 85 90 86 96 ... являются соответствующим «влажностью» ценить.
Во-вторых, последний объявленный атрибут называется атрибутом класса и является целевой переменной по умолчанию в задачах классификации или регрессии.
тип данных
числовой числовой тип
Числовые атрибуты могут быть целыми или действительными числами, но WEKA рассматривает их все как действительные числа. Например: @attribute температура реальная
<номинальная спецификация> Номинальный тип
Номинальные атрибуты состоят из списка <номинальная-спецификация> возможных названий категорий, заключенных в фигурные скобки: {<номинальное-имя1>, <номинальное-имя2>, <номинальное-имя3>, ...}.
Значение этого атрибута в наборе данных может относиться только к одной из категорий.
Например, объявление атрибута: @attribute Outlook {солнечно, пасмурно, дождливо} указывает, что атрибут «прогноз» имеет три категории: «солнечно», «пасмурно» и «дождливо». Значение «прогноз», соответствующее каждому экземпляру в наборе данных, должно быть одним из этих трех.
Если в названии категории есть пробелы, его все равно необходимо заключить в кавычки.
строка тип строки
Строковые свойства могут содержать произвольный текст. Например: строка @attribute LCC.
date [<формат-даты>] тип даты и времени
Атрибуты даты и времени единообразно представлены типом «дата» и имеют следующий формат: @attribute <имя атрибута> date [<формат-даты>]
Где <date-format> — это строка, которая определяет, как анализировать и отображать формат даты или времени. Строка по умолчанию — это формат комбинации даты и времени, заданный ISO-8601: «гггг-ММ-дд ЧЧ: мм: сс».
Строка, выражающая дату в информационной части данных, должна соответствовать требованиям к формату, указанным в операторе, например: @ATTRIBUTE timestamp DATE "гггг-ММ-дд ЧЧ:мм:сс" @DATA "2011-05-03 12: 59:55"
Уведомление
Можно использовать еще два типа: «целое» и «действительное», но WEKA рассматривает их оба как «числовые».
Ключевые слова «целое», «действительное», «числовое», «дата» и «строка» чувствительны к регистру, а «отношение», «атрибут» и «данные» — нет.
Информация о данных
В информации о данных тег «@data» занимает отдельную строку, а остальная часть — это данные каждого экземпляра.
Каждый экземпляр занимает одну строку, а значения атрибутов экземпляра разделяются запятыми ",".
Если значение атрибута является отсутствующим значением, оно обозначается вопросительным знаком «?», и этот вопросительный знак не может быть опущен.
скудные данные
Иногда набор данных содержит большое количество нулевых значений. В этом случае более экономно хранить данные в разреженном формате.
Разреженный формат предназначен для представления объекта в информации данных и не требует изменения других частей файла ARFF.
Например данные: @data 0, X, 0, Y, «класс А» 0, 0, Вт, 0, «класс Б»
Выраженный в разреженном формате, это @data {1 X, 3 Y, 4 «класс А»} {2 Вт, 4 «класс Б»}
Примечание. Крайний левый столбец атрибута набора данных ARFF — это столбец 0. Следовательно, 1 X означает, что X — это значение атрибута в столбце 1.
подготовка данных
Сбор данных
Используйте данные файла ARFF напрямую.
Импорт из файлов CSV, C4.5, двоичных и других форматов.
Чтение данных из базы данных SQL через JDBC.
Получите данные о сетевых ресурсах по URL-адресу (унифицированный указатель ресурсов).
Преобразование формата данных
Формат ARFF — лучший формат файлов, поддерживаемый WEKA.
При использовании WEKA для интеллектуального анализа данных первая проблема, с которой часто приходится сталкиваться, заключается в том, что данные не в формате ARFF.
WEKA также обеспечивает поддержку файлов CSV, и этот формат поддерживается многими другими программами (например, Excel).
WEKA можно использовать для преобразования формата файла CSV в формат файла ARFF.
Ресурсы данных
Собственный набор данных WEKA C:\Program Files\Weka-3-6\data
Ресурсы сетевых данных http://archive.ics.uci.edu/ml/datasets.html
.XLS——> .CSV——> .ARFF
Файл XLS Excel позволяет размещать несколько двумерных таблиц на разных листах (листах), и каждый лист можно сохранить только как отдельный файл CSV.
Откройте файл XLS и переключитесь на лист, который необходимо преобразовать, сохраните его как тип CSV, нажмите «ОК», «Да» и проигнорируйте приглашение завершить операцию.
Откройте файл типа CSV в WEKA и сохраните его как файл типа ARFF.
предварительная обработка данныхпредварительная обработка
Инструменты предварительной обработки данных в WEKA называются фильтрами.
Фильтры могут быть определены для преобразования данных различными способами.
Колонка Фильтр используется для выполнения необходимых настроек различных фильтров.
Кнопка «Выбрать»: нажмите эту кнопку, чтобы выбрать фильтр в WEKA.
Когда фильтр выбран, его имя и параметры отображаются в текстовом поле рядом с кнопкой «Выбрать».
Загрузить данные
Первые четыре кнопки в области 2 страницы предварительной обработки Explorer используются для загрузки данных в WEKA:
Открыть файл.... Открывает диалоговое окно, позволяющее просматривать файлы данных в локальной файловой системе.
Открыть URL.... Запрашивает URL-адрес, содержащий данные.
Открыть БД.... Считать данные из базы данных.
Generate.... Генерирует искусственные данные из некоторых генераторов данных.
Удалить ненужные атрибуты
Обычно для задач интеллектуального анализа данных такая информация, как идентификатор, бесполезна и может быть удалена.
Проверьте атрибут «id» в области 5 и нажмите «Удалить». Сохраните новый набор данных и снова откройте его.
Дискретизация данных
Некоторые алгоритмы (например, корреляционный анализ) могут обрабатывать только номинальные атрибуты. В этом случае числовые атрибуты необходимо дискретизировать.
Числовые атрибуты с ограниченными значениями можно дискретизировать путем изменения типа данных атрибута в файле .arff.
Например, атрибут «дети» в определенном наборе данных имеет только 4 числовых значения: 0, 1, 2 и 3.
Мы напрямую модифицируем файл ARFF и меняем числовые значения @attribute Children на @attribute Children {0,1,2,3}.
Снова откройте «bank-data.arff» в «Проводнике» и увидите, что после выбора атрибута «дети» «Тип», отображаемый в области 6, меняется на «Номинальный».
Для числовых атрибутов со многими значениями дискретизацию можно выполнить с помощью фильтра под названием «Дискретизировать» в WEKA.
Нажмите «Выбрать» в области 2, появится «дерево фильтров», найдите «weka.filters.unsupervised.attribute.Discretize» уровень за уровнем и щелкните.
В текстовом поле рядом с надписью «Выбрать» теперь должно быть написано «Дискретизировать -B 10 -M -0.1 -R первый-последний».
Щелчок по этому текстовому полю откроет новое окно для изменения параметров дискретизации.
КлассифицироватьКлассифицировать
WEKA размещает как классификацию, так и регрессию на вкладке «Классифицировать».
В обеих задачах интеллектуального анализа данных имеется целевой атрибут (атрибут категории, выходная переменная).
Мы надеемся выполнить прогнозирование классификации целевых атрибутов на основе набора характерных атрибутов (входных переменных) экземпляра WEKA.
Чтобы добиться этого, нам нужен набор обучающих данных, в котором известны входные и выходные данные каждого экземпляра. Наблюдая за экземплярами в обучающем наборе, можно построить модель прогнозной классификации/регрессии.
С помощью этой модели можно делать прогнозы классификации для новых неизвестных экземпляров.
Измерение качества модели в основном зависит от точности ее прогнозов.
Типовые алгоритмы классификации в WEKA
Байес: байесовский классификатор
BayesNet: Байесовская сеть убеждений
NaïveBayes: Наивная байесовская сеть
xMultilayerPerceptron: многослойная искусственная нейронная сеть с прямой связью.
SMO: машина опорных векторов (с использованием метода обучения последовательной оптимизации)
Ленивый: классификатор на основе экземпляров
IB1: классификатор 1-ближайшего соседа
IBk: классификатор k-ближайших соседей
Выберите алгоритм классификации
Мета: комбинированный метод
AdaBoostM1: метод AdaBoost M1.
Упаковка: метод упаковки
Правила: классификатор на основе правил.
JRip: Прямой метод — алгоритм Ripper
Часть: Косвенный метод. Извлечение правил из деревьев решений, созданных J48.
Деревья: классификатор дерева решений
Id3: алгоритм обучения дерева решений ID3 (непрерывные атрибуты не поддерживаются)
J48: C4.5 Алгоритм обучения дерева решений (версия 8)
REPTree: алгоритм обучения дерева решений с использованием сокращения ошибок.
RandomTree: метод комбинирования на основе деревьев решений.
Выберите метод оценки модели (четыре типа)
Использование обучающего набора. Использование оценки обучающего набора.
Поставляемый набор тестов Используйте оценку набора тестов
Перекрестная проверка
Установите складку
Метод удержания процентного разделения. Используйте определенную долю обучающих примеров для оценки.
Установите процент обучающих экземпляров
Нажмите кнопку «Дополнительные параметры», чтобы установить дополнительные параметры теста:
Выходная модель. Выводит модель классификации на основе всего обучающего набора, чтобы модель можно было просмотреть, визуализировать и т. д. Эта опция выбрана по умолчанию.
Выведите статистику по классам. Выведите статистику точности/отзыва и истинности/ложности каждого класса. Эта опция выбрана по умолчанию.
Меры оценки выходных данных. Меры оценки выходной энтропии. Этот параметр не выбран по умолчанию.
Выходная матрица путаницы. Выводит матрицу путаницы результатов прогнозирования классификатора. Эта опция выбрана по умолчанию.
Сохраняйте прогнозы для визуализации. Записывайте прогнозы классификатора, чтобы их можно было представить визуально.
Вывод прогнозов. Вывод результатов прогнозирования тестовых данных. Обратите внимание, что во время перекрестной проверки номер экземпляра не отражает его положение в наборе данных.
Оценка с учетом затрат. Ошибка будет оцениваться на основе матрицы значений. Кнопка Установить… используется для задания матрицы значений.
Случайное начальное значение для xval / % разделения. Указывает случайное начальное значение, которое используется для рандомизации данных, когда их необходимо разделить в целях оценки.
Анализ текстового результата
Нажмите кнопку «Пуск», и текстовая информация о результате отобразится в окне вывода классификатора:
Информация о запуске Информация о запуске
Модель классификатора (полный обучающий набор). Модель классификации, построенная с использованием всех обучающих данных.
Сводка Сводка эффектов прогнозирования для обучающего/тестового набора.
Подробная точность по классам Подробное описание точности прогноза для каждого класса.
Матрица неточностей Матрица путаницы, где строки матрицы представляют собой фактические классы, столбцы матрицы — прогнозируемые классы, а элементы матрицы — количество соответствующих тестовых выборок.
основные показатели
Правильно классифицированные экземпляры Правильный коэффициент классификации
Неправильно классифицированные случаи Коэффициент классификации ошибок
Статистика Каппы Статистика Каппы
Средняя абсолютная ошибка означает абсолютную ошибку
Среднеквадратическая ошибка Среднеквадратическая ошибка
Относительная абсолютная ошибка Относительная абсолютная ошибка
Корневая относительная квадратичная ошибка Относительная квадратичная ошибка
TP Rate(плохой/хороший) правильный курс
Уровень ложных срабатываний (плохой/хороший)
Прецизионная (плохая/хорошая) точность.
Уровень отзыва (плохой/хороший)
F-мера (плохая/хорошая) F-мера
Время, затраченное на построение модели Время, затраченное на построение модели
Вывод графических результатов
Просмотр в главном окне. Просмотрите результат в главном окне.
Посмотреть в отдельном окне. Откройте отдельное новое окно, чтобы просмотреть результаты.
Save result buffer (сохранить буфер результатов). Появится диалоговое окно для сохранения результатов вывода в текстовый файл.
Загрузить модель (режим загрузки). Загрузите объект предварительно обученного режима из двоичного файла.
Сохранить модель. Сохраните объект схемы в двоичный файл, то есть в формате последовательного объекта JAVA.
Переоценить модель на текущем наборе тестов (переоценить текущий набор тестов). Протестируйте указанный набор данных с помощью установленной схемы и используйте кнопку «Задать..» под опцией «Поставленный набор тестов».
Визуализируйте ошибки классификатора. Появится окно визуализации для отображения графика результатов классификатора. Среди них правильно классифицированные экземпляры обозначаются крестиками, а неправильно классифицированные — маленькими квадратиками.
Диаграмма рассеяния фактических и прогнозируемых классов. Результаты правильной классификации обозначены крестиками, а результаты неправильной классификации — прямоугольниками.
Визуализировать дерево (визуализация дерева). По возможности всплывает графический интерфейс для описания структуры модели классификатора (это доступно не для всех классификаторов). Щелкните правой кнопкой мыши пустую область, чтобы открыть всплывающее меню, перетащите мышь на панель и щелкните, чтобы просмотреть экземпляры обучения, соответствующие каждому узлу.
Визуализируйте кривую маржи. Создайте диаграмму рассеяния, изображающую пределы прогноза. Запас определяется как разница между вероятностью предсказания истинного значения и наибольшей вероятностью предсказания чего-то отличного от истинного значения. Например, ускоренные алгоритмы лучше работают с наборами тестовых данных за счет увеличения полей для набора обучающих данных.
Создайте точечную диаграмму для отображения прогнозируемых предельных значений.
четыре переменные
Маржа: прогнозируемая предельная стоимость
Номер_экземпляра: серийный номер экземпляра проверки.
Текущее: количество экземпляров с текущим прогнозируемым значением маржи.
Совокупное: количество экземпляров, меньшее или равное прогнозируемому предельному значению (согласно Instance_number).
Нажмите на тестовый экземпляр № 8, который показывает, что предельное значение этой точки равно 0,5, и имеется 7 экземпляров с маргинальными значениями менее 0,5.
Визуализация пороговой кривой (визуализация пороговой кривой). Для описания проблемы компромисса при прогнозировании создается диаграмма рассеяния, где компромисс фиксируется путем изменения порога между классами. Например, пороговое значение по умолчанию равно 0,5, а вероятность того, что экземпляр будет предсказан как положительный, должна быть больше 0,5, поскольку экземпляр точно прогнозируется как положительный при значении 0,5. Для визуализации соотношения точности и скорости обратной связи можно использовать графики, например анализ кривой ROC (положительное соотношение правильных и положительное соотношение ошибок) и другие кривые.
Порог — это минимальная вероятность отнесения экземпляра теста к текущему классу. Цвет точки используется для обозначения порога.
Каждая точка на кривой генерируется путем изменения размера порога.
ROC-анализ может быть выполнен
Ось X выбирает частоту ложных срабатываний
Ось Y выбирает истинную скорость
ROC-кривая
Кривая ROC (кривая рабочей характеристики приемника) — это графический метод, который показывает компромисс между истинной положительной частотой и ложноположительной долей модели классификации.
Предполагая, что выборки можно разделить на положительные и отрицательные категории, интерпретируем некоторые концептуальные определения диаграмм ROC:
True Positive (TP), положительный образец, предсказанный моделью как положительный.
Ложноотрицательный результат (FN) — это положительный образец, прогнозируемый моделью как отрицательный.
Ложноположительный результат (FP) — это отрицательный образец, который, согласно прогнозам модели, будет положительным.
True Negative (TN) Отрицательные образцы, прогнозируемые моделью как отрицательные.
Истинно положительный уровень (TPR) или чувствительность ТПР = ТП / (ТП ФН) Число результатов прогнозирования положительных образцов/фактическое количество положительных образцов
Уровень ложноположительных результатов (FPR) ФПР = ФП / (ФП ТН) Количество отрицательных результатов проб, которые, по прогнозам, будут положительными/фактическое количество отрицательных проб
(TPR=1,FPR=0) — идеальная модель.
Хорошая модель классификации должна располагаться как можно ближе к верхнему левому углу графика.
Визуализация кривой затрат (визуализация кривой затрат). Создайте диаграмму рассеяния, которая точно отображает ожидаемые затраты, как описано Драммондом и Холтом.
КластерКластер
Кластерный анализ распределяет объекты по каждому кластеру так, чтобы объекты в одном кластере были похожими, а объекты в разных кластерах — разными.
WEKA предоставляет инструменты кластерного анализа в разделе «Кластер» интерфейса «Проводник».
К основным алгоритмам относятся:
SimpleKMeans — алгоритм K-средних, поддерживающий категориальные атрибуты
displayStdDevs: отображать ли стандартное отклонение числовых атрибутов и количества категориальных атрибутов.
distanceFunction: выберите функцию расстояния для экземпляров сравнения.
(По умолчанию: weka.core.EuclideanDistance)
dontReplaceMissingValues: следует ли использовать среднее значение/режим для замены пропущенных значений.
maxIterations: максимальное количество итераций
numClusters: количество кластеров для кластеризации.
saveInstancesOrder: следует ли заранее устанавливать порядок экземпляров.
Seed: установить случайное начальное значение
DBScan — Алгоритм на основе плотности, поддерживающий категориальные атрибуты.
EM — Алгоритм кластеризации на основе модели смеси
FathestFirst — алгоритм центральной точки K
ОПТИКА — еще один алгоритм, основанный на плотности
Паутина — алгоритм кластеризации понятий
sIB — алгоритм кластеризации, основанный на теории информации, не поддерживает категориальные атрибуты.
XMeans — расширенный алгоритм K-средних, который может автоматически определять количество кластеров. Он не поддерживает категориальные атрибуты.
Режим кластераРежим кластера
Использовать обучающий набор — сообщает результаты кластеризации и группировки объектов обучения.
Использовать обучающий набор — сообщает результаты кластеризации и группировки объектов обучения.
Поставляемый набор тестов — сообщает результаты кластеризации для объектов обучения и результаты группировки для дополнительных объектов тестирования.
Процентное разделение — сообщает результаты кластеризации для всех объектов, результаты кластеризации для обучающих объектов и результаты группировки для тестовых объектов.
Контролируемая оценка (оценка классов в кластеры) — сообщает результаты кластеризации и группировки, матрицы путаницы классов/кластеров и информацию о неправильной группировке для объектов обучения.
Выполнить алгоритм кластеризации
Нажмите кнопку «Пуск», чтобы выполнить алгоритм кластеризации.
Наблюдайте за результатами кластеризации
Посмотрите на результаты кластеризации, представленные «Выходными данными кластеризатора» справа. Вы также можете щелкнуть правой кнопкой мыши результат, сгенерированный на этот раз, в «Списке результатов» в левом нижнем углу и «Просмотреть в отдельном окне», чтобы просмотреть результаты в новом окне.
Примечание. Приведенная выше информация о выполнении появится только в том случае, если используется контролируемая кластеризация (т. е. известна метка класса набора данных моделирования).
анализ текста
SimpleKMeans
Неконтролируемый режим: информация о запуске, результаты KMeans (количество итераций, SSE, центры кластеров), группировка информации об объектах проверки
Контролируемый режим: текущая информация, результаты KMeans (количество итераций, SSE, центры кластеров), матрица путаницы классов/кластеров, количество и доля неправильно сгруппированных объектов.
Центр кластера: среднее значение для числовых атрибутов и режим для категориальных атрибутов.
DBScan
Неконтролируемый режим: текущая информация, результаты DBScan (количество итераций, группировка информации каждого объекта обучения), группировка информации тестовых объектов
Режим наблюдения: текущая информация, результаты DBScan (количество итераций, информация о группировке каждого объекта обучения), матрица путаницы классов/кластеров, количество и доля неправильно сгруппированных объектов.
графический анализ
Кластеры магазинов для визуализации должны быть проверены
Визуализация назначений кластеров: двумерная диаграмма рассеяния, которая может визуализировать матрицу путаницы классов/кластеров.
Важная информация о выводе
«Внутрикластерная сумма квадратов ошибок» — это стандарт оценки качества кластеризации — SSE, который представляет собой сумму квадратов ошибок. Чем меньше значение SSE, тем лучше результат кластеризации.
За «Центроидами кластера:» следует местоположение каждого центра кластера. Для числовых атрибутов центром кластера является его среднее значение (Mean), а для категориальных атрибутов — его мода (Mode).
«Кластерные экземпляры» — это количество и процент экземпляров в каждом кластере.
Наблюдайте за результатами визуальной кластеризации
Щелкните правой кнопкой мыши результаты, перечисленные в «Списке результатов» в левом нижнем углу, и выберите «Визуализировать назначения кластера».
Во всплывающем окне отображается точечная диаграмма каждого экземпляра.
Два верхних поля предназначены для выбора абсцисс и ординат.
«Цвет» во второй строке является основой для раскраски диаграммы рассеяния. По умолчанию экземпляры отмечаются разными цветами в соответствии с разными кластерами «Кластер».
Правила ассоциации
Изучение правил ассоциации WEKA позволяет обнаружить зависимости между группами атрибутов:
Например, молоко, масло хлеб, яйца (доверие 0,9 и поддержка 2000 г.)
Для правила ассоциации L->R
Поддержка – вероятность наблюдения как антецедента, так и консеквента. поддержка = Pr(L,R)
Уверенность – вероятность того, что консеквент произойдет тогда, когда произойдет антецедент. уверенность = Pr(L,R)/Pr(L)
Основные алгоритмы анализа ассоциативных правил
Основными алгоритмами интеллектуального анализа правил ассоциации на платформе интеллектуального анализа данных WEKA являются:
Априори — может вывести все правила ассоциации, удовлетворяющие минимальной поддержке и минимальной поддержке.
car: если установлено значение true, вместо правил глобальной ассоциации будут использоваться правила ассоциации классов.
classindex: Индекс атрибута класса. Если установлено значение -1, последний атрибут рассматривается как атрибут класса.
дельта: используйте это значение в качестве единицы декремента итерации. Поддержка постоянно снижается до тех пор, пока не будет достигнута минимальная поддержка или не будут созданы правила, соответствующие количественным требованиям.
LowerBoundMinSupport: нижняя граница минимальной поддержки.
metricType: тип метрики, устанавливает основу метрики для правил сортировки. Это может быть: уверенность (правила ассоциации классов можно выработать только с уверенностью), подъем, рычаги влияния и убежденность.
В Weka установлено несколько показателей, аналогичных доверию, для измерения степени ассоциации правил. Это:
Лифт: отношение уверенности к последующей поддержке. подъем = Pr(L,R) / (Pr(L)Pr(R)) Когда Lift=1, это означает, что L и R независимы. Чем больше число (>1), тем больше оно указывает на то, что наличие L и B в одной корзине покупок не случайное явление и существует сильная корреляция.
Леверидж, баланс: в предположении, что антецедент и консеквент статистически независимы, доля случаев, которые превышают ожидаемое значение и покрываются как антецедентом, так и консеквентом. кредитное плечо = Pr(L,R) - Pr(L)Pr(R) Когда кредитное плечо = 0, L и R независимы. Чем больше кредитное плечо, тем теснее связь между L и R.
Убежденность, достоверность: также используется для измерения независимости антецедента и следствия. убеждение = Pr(L)Pr(!R) / Pr(L,!R) (!R означает, что R не произошло) Из его связи с подъемом (переверните R и найдите обратную величину после подстановки ее в формулу подъема) мы видим, что чем больше это значение, тем более значимы L и R.
minMtric: Минимальное значение метрики.
numRules: количество правил, которые необходимо обнаружить.
outputItemSets: если установлено значение true, в результате будут выведены наборы элементов.
RemoveAllMissingCols: удалить все столбцы с пропущенными значениями.
значениеLevel: уровень важности. Проверка значимости (только для уверенности).
UpperBoundMinSupport: верхняя граница минимальной поддержки. Начиная с этого значения, минимальная поддержка итеративно уменьшается.
подробный: если установлено значение true, алгоритм работает в подробном режиме.
PredictiveApriori — объединяет уверенность и поддержку в точности прогнозирования, образуя единый метод измерения градусов, и находит правила ассоциации, отсортированные по точности прогнозирования.
Териус — ищет правила по степени подтверждения. Как и Априори, он ищет правила, выводы которых содержат несколько условий, но разница в том, что эти условия являются «или» по отношению друг к другу, а не «и».
Ни один из этих трех алгоритмов не поддерживает числовые данные.
Фактически, большинство алгоритмов ассоциативных правил не поддерживают числовые типы. Поэтому данные необходимо обработать, разделить на сегменты и дискретизировать по интервалам.
Информация о работе алгоритма интеллектуального анализа правил ассоциации
Выберите атрибутыВыберите атрибуты
Выбор атрибута заключается в поиске всех возможных комбинаций всех атрибутов в наборе данных, чтобы найти набор атрибутов с наилучшим эффектом прогнозирования.
Для достижения этой цели необходимо установить оценщики атрибутов и стратегии поиска.
Оценщик определяет, как присвоить значение набору атрибутов, которое показывает, насколько они хороши или плохи.
Стратегия поиска определяет, как будет выполняться поиск.
Параметры
В столбце «Режим выбора атрибута» есть две опции.
Используйте полный обучающий набор. Используйте все обучающие данные, чтобы определить, насколько хорош набор атрибутов.
Перекрестная проверка. Качество набора атрибутов определяется посредством процесса перекрестной проверки. Fold и Seed соответственно дают кратность перекрестной проверки и случайное начальное число при скремблировании данных.
Как и в разделе «Классификация», здесь имеется раскрывающийся список для указания атрибута класса.
Выполнить выбор
Нажмите кнопку «Пуск», чтобы начать процесс выбора атрибутов. По завершении результаты выводятся в область результатов, а запись добавляется в список результатов.
Щелчок правой кнопкой мыши по списку результатов предоставит вам несколько вариантов. Первые три («Просмотр в главном окне», «Просмотр в отдельном окне» и «Сохранить буфер результатов») такие же, как и в панели классификации.
Вы также можете визуализировать сокращенные наборы данных (Визуализация сокращенных данных).
Возможность визуализировать преобразованные наборы данных (Visualize Transformed Data)
Уменьшенные/преобразованные данные можно сохранить с помощью опции Сохранить сокращенные данные... или Сохранить преобразованные данные....
Визуализация данныхVisualize
На странице визуализации WEKA можно визуально просмотреть текущие отношения в виде двумерной диаграммы рассеяния.
матрица диаграммы рассеяния
При выборе панели «Визуализация» для всех атрибутов предоставляется матрица диаграммы рассеяния, которая раскрашивается в соответствии с выбранным атрибутом класса.
Здесь вы можете изменить размер каждой двумерной диаграммы рассеяния, изменить размер каждой точки и произвольно изменить данные (что приведет к появлению скрытых точек).
Вы также можете изменить атрибуты, используемые для раскраски, вы можете выбрать только подмножество набора атрибутов для помещения в матрицу точечной диаграммы, а также можете взять подвыборку данных.
Обратите внимание, что эти изменения вступят в силу только после нажатия кнопки «Обновить».
Выберите отдельные 2D-диаграммы рассеяния
После нажатия на элемент матрицы точечной диаграммы всплывает отдельное окно для визуализации выбранной точечной диаграммы.
Точки данных распределены по основной области окна. Выше расположены два раскрывающихся списка для выбора осей координат точек. Слева — свойства, используемые в качестве оси X, справа — свойства, используемые в качестве оси Y;
Рядом с переключателем оси X находится раскрывающийся список для выбора цветовой схемы. Он окрашивает точки на основе выбранных атрибутов.
Под пунктирной областью находится легенда, поясняющая, какое значение представляет каждый цвет. Если значения дискретные, цвета можно изменить, щелкнув по ним в новом всплывающем окне.
Справа от области точек есть несколько горизонтальных полос. Каждая полоса представляет атрибут, а точки на ней представляют распределение значений атрибута. Эти точки случайным образом распределены в вертикальном направлении, чтобы можно было увидеть плотность точек.
Нажмите на эти полосы, чтобы изменить оси, используемые для основного графика. Щелкните левой кнопкой мыши, чтобы изменить свойства оси X, щелкните правой кнопкой мыши, чтобы изменить ось Y; «X» и «Y» рядом с горизонтальной полосой обозначают атрибут, используемый текущей осью («B» означает, что он используется как для оси X, так и для оси Y).
Над панелью свойств находится курсор с надписью «Джиттер». Он может случайным образом смещать положение каждой точки на диаграмме рассеяния, то есть джиттер. Перетаскивание вправо увеличивает амплитуду джиттера, что полезно для определения плотности точек.
Если вы не используете такое сглаживание, десятки тысяч точек вместе будут выглядеть как одна точка.
Под кнопкой выбора оси Y находится раскрывающийся список, определяющий метод выбора точек данных.
Точки данных можно выбрать следующими четырьмя способами:
Выберите экземпляр. При нажатии на каждую точку данных откроется окно со списком значений ее атрибутов. Если щелкнуто более одной точки, также будут перечислены дополнительные наборы значений атрибутов.
Прямоугольник Создайте прямоугольник, перетащив и выбрав точки внутри него.
Многоугольник Создает многоугольник произвольной формы и выбирает его точки. Щелкните левой кнопкой мыши, чтобы добавить вершины многоугольника, и щелкните правой кнопкой мыши, чтобы завершить настройку вершин. Начальная и конечная точки автоматически соединяются, поэтому многоугольник всегда замкнут.
Полилиния. Вы можете создать полилинию, чтобы разделить точки по обе стороны от нее. Щелкните левой кнопкой мыши, чтобы добавить вершины полилинии, и щелкните правой кнопкой мыши, чтобы завершить настройку. Полилинии всегда открыты (в отличие от замкнутых полигонов).
Когда вы выделите область диаграммы рассеяния с помощью прямоугольника, многоугольника или полилинии, эта область станет серой.
Нажатие кнопки «Отправить» в этот момент удалит все экземпляры, выходящие за пределы серой зоны.
Нажатие кнопки «Очистить» очистит выбранную область без какого-либо влияния на графику. Если все точки удалены с графика, кнопка «Отправить» изменится на кнопку «Сбросить». Эта кнопка может отменить все предыдущие удаления и вернуть график в исходное состояние, где есть все точки.
Наконец, нажмите кнопку «Сохранить», чтобы сохранить видимый в данный момент экземпляр в новый файл ARFF.
Интерфейс потока знаний KnowledgeFlow
KnowledgeFlow предоставляет Weka графический интерфейс «потока знаний».
Пользователи могут выбирать компоненты на панели инструментов, размещать их на панели и соединять в определенном порядке, чтобы сформировать «поток знаний» для обработки и анализа данных.
Например: «Источник данных» -> «Фильтр» -> «Классификация» -> «Оценка».
В KnowledgeFlow можно использовать классификаторы, фильтры, кластеризаторы, загрузчики, сохранения и некоторые другие функции Weka.
Макет потока знаний можно сохранить и перезагрузить.
Доступные компоненты KnowledgeFlow
В верхней части окна KnowledgeFlow имеется восемь вкладок:
Источники данных — загрузчик данных.
DataSinks — средство сохранения данных.
Фильтры -- Фильтр
Классификаторы -- Классификаторы
Кластереры – кластеры
Ассоциации — Ассоциаторы
Оценка — оценщик
TrainingSetMaker — сделать набор данных обучающим набором.
TestSetMaker — сделать набор данных тестовым набором.
CrossValidationFoldMaker — разделение любого набора данных, обучающего набора или тестового набора на несколько частей для перекрестной проверки.
TrainTestSplitMaker — разделение любого набора данных, обучающего набора или тестового набора на обучающий набор и тестовый набор.
ClassAssigner — используйте столбец в качестве атрибута класса любого набора данных, обучающего набора или тестового набора.
ClassValuePicker — выберите определенную категорию как «положительный» класс. Это может быть полезно при создании данных для кривых формы ROC.
ClassifierPerformanceEvaluator — оценивает производительность обученного или протестированного классификатора в пакетном режиме.
IncrementalClassi¯erEvaluator — оценивает производительность классификаторов, обученных в инкрементном режиме.
ClustererPerformanceEvaluator — оценивает производительность обученных или протестированных кластеризаторов в пакетном режиме.
PredictionAppender — добавляет значение прогноза классификатора в тестовый набор. Для задач дискретной классификации вы можете добавить прогнозируемые маркеры классов или распределения вероятностей.
Визуализация — визуализация
DataVisualizer — этот компонент открывает панель, которая позволяет визуализировать данные на отдельной диаграмме рассеяния большего размера.
ScatterPlotMatrix — этот компонент может отображать панель с матрицей, состоящей из нескольких небольших точечных диаграмм (при нажатии на каждую маленькую точечную диаграмму появляется большая точечная диаграмма).
AttributeSummarizer — этот компонент отображает панель с матрицей гистограмм. Каждая гистограмма соответствует атрибуту во входных данных.
ModelPerformanceChart — этот компонент может отображать панель для визуализации пороговых кривых (например, кривых ROC).
TextViewer. Этот компонент используется для отображения текстовых данных и может использоваться для отображения наборов данных и статистики для измерения эффективности классификации и т. д.
GraphViewer — этот компонент может открывать панель для визуализации древовидных моделей.
StripChart — этот компонент может отображать панель, отображающую диаграмму разброса скользящих данных (используется для мгновенного наблюдения за производительностью инкрементального классификатора).