Вход
Войти

Галерея диаграмм связей распознавание образов

распознавание образов

Также называется машинным обучением или интеллектуальным анализом данных. В основном это включает в себя введение, предварительную обработку данных, кластерный анализ, байесовскую классификацию, метод ближайшего соседа и т. д.

Отредактировано в 2024-02-04 00:51:57

ArteVeloce

Недавние работы Смотреть другие работы>>

распознавание образов

ArteVeloce

Недавние работы Смотреть другие работы>>

Рекомендовано вам
Структура

Инструмент интеллектуального анализа данных —— WEKA
- 2
WSysQn6v
Карта разума технологии интеллектуального анализа и анализа данных
- 4
WSysQn6v
сбор данных
- 2
WSysQn6v

распознавание образов

введение

Основные понятия распознавания образов

распознавание образов

Использование компьютеров для реализации способности людей распознавать образы — это технология, которая использует компьютеры для реализации человеческого анализа, описания, суждения и идентификации различных вещей или явлений и распределяет распознаваемые вещи по различным категориям шаблонов.

Распознавание образов можно рассматривать как сопоставление шаблонов с категориями.

модель

Информация о веществе или явлении

Вообще говоря, наблюдаемые объекты, существующие во времени и пространстве, можно назвать шаблонами, если их можно отличить как одинаковые или похожие.

Шаблон — это описание объекта, сформированное посредством сбора информации. Это описание должно быть стандартизированным, понятным и идентифицируемым.

иллюстрировать

Закономерность – это не сама вещь, а информация, полученная от вещи. Например, фотографии людей и личная информация.

Может определить, похожи ли шаблоны (имеет отношение к вопросу)

Шаблоны обычно представляются векторами, а индексы могут отражать временные характеристики, пространственные характеристики или другие идентификаторы.

узор вектор

Информация с распределением во времени и пространстве, полученная путем наблюдения за конкретными отдельными объектами (называемыми выборками или векторами выборок).

Класс шаблона

Категория, к которой принадлежит шаблон, или совокупность шаблонов в той же категории (сокращенно категория).

система распознавания образов

Состоит из двух процессов: проектирования и реализации.

Категория, к которой принадлежит шаблон, или совокупность шаблонов в той же категории (сокращенно категория).

Дизайн (обучение, обучение)

Относится к использованию определенного количества выборок (называемых обучающим набором или обучающим набором) для разработки классификатора.

Реализация (принятие решения, классификация, суждение)

Относится к использованию разработанного классификатора для принятия решений о классификации идентифицируемых образцов.

Состав системы

Сбор данных (сбор данных)

Способ

С помощью различных датчиков такая информация, как свет или звук, преобразуется в электрическую информацию или текстовую информацию вводится в компьютер.

Классификация

Одномерные сигналы: звуковые волны, электрокардиограмма, электроэнцефалограмма и т. д.

Двумерные изображения: текст, изображения и т. д.

3D-изображения: лица и т. д.

Физические величины: рост, вес человека, вес продукта, уровень качества и т. д.

Логическое количество (0/1): наличие или отсутствие, мужчина и женщина и т.д.

предварительная обработка

Цель

Удалите шум и улучшите полезную информацию

Часто используемые методы

Одномерная фильтрация и шумоподавление сигнала, сглаживание, улучшение, восстановление, фильтрация изображения и т. д.

Извлечение и выбор функций

Цель

Из исходных данных получить признаки, которые лучше всего отражают характер классификации.

Формирование функций

Некоторые признаки, отражающие проблемы классификации, получаются из исходных данных различными способами (иногда требуется стандартизация данных).

Выбор функции

Из признаков выберите несколько признаков, наиболее выгодных для классификации.

Извлечение признаков

Уменьшите количество функций за счет определенных математических преобразований.

Решение о классификации или сопоставление модели

Используйте правила принятия решений в пространстве признаков, чтобы отнести распознанный объект к определенной категории.

иллюстрировать

Эта структура системы подходит для статистического распознавания образов, нечеткого распознавания образов и контролируемых методов в искусственных нейронных сетях.

Для методов распознавания структурных образов вместо извлечения и выбора признаков используется только извлечение примитивов.

Для кластерного анализа разработка классификатора и принятие решений объединены в один этап.

Особенности изображения

цвет

текстура

форма

Пространственные отношения

четыре пробела

Три основные задачи

Коллекция узоров

Извлечение признаков и выбор признаков

Тип дискриминации

Связанные вопросы

Оценка эффективности

Частота ошибок теста или частота ошибок

вычислительная сложность

разделять

Основа классификации

Вопрос или образец характера

Контролируемое распознавание образов

Сначала подготовьте партию образцов с метками категорий, разработайте классификатор на основе набора образцов, а затем определите новую категорию образцов.

Неконтролируемое распознавание образов

Существует только одна партия образцов, и набор образцов напрямую делится на несколько категорий на основе сходства между образцами.

основной метод

статистическое распознавание образов

Классификация

неконтролируемая классификация

Кластерный анализ

Контролируемая классификация

Классификация коллекций

Вероятностная классификация

Описать метод

Вектор признаков

Определение режима

Выражаясь условным распределением вероятностей P (X/i), существует m распределений в m категориях, а затем определяют, к какому распределению принадлежит неизвестный шаблон.

Теоретические основы

теория вероятности

математическая статистика

преимущество

Более зрелым

Возможность учитывать влияние мешающего шума

Сильная способность распознавать примитивы шаблонов

недостаток

Трудно извлечь признаки из шаблонов со сложной структурой.

Он не может отражать структурные характеристики узора, и его природу сложно описать.

Сложность рассмотрения вопросов идентификации с целостной точки зрения.

Распознавание структурных образов

распознавание нечетких образов

метод нейронной сети

Теоретические основы

Нейрофизиология

психология

Метод описания узора

Набор входных узлов, представленных разными уровнями активности.

Определение режима

нелинейная динамическая система

основной метод

Модель BP, модель HOPField

преимущество

Эффективно решать сложные нелинейные задачи

Разрешить образцам иметь более крупные дефекты и искажения

недостаток

Отсутствие эффективной теории обучения

много времени

Области применения

Изображения, лица, текст, цифры, отпечатки пальцев, голоса...

фундаментальный вопрос

Метод представления шаблона (выборки)

n-мерный вектор-столбец

x= (x1, x2, …, xn)T

Компактность классов шаблонов

критическая точка (образец)

В многокатегорийном наборе выборок, когда характеристические значения некоторых образцов изменяются незначительно, они становятся другой категорией образцов. Такие образцы называются критическими образцами (точками).

фирменный набор

определение

Распределение образцов одного и того же класса шаблонов относительно сконцентрировано, критические образцы отсутствуют или очень малы. Такие классы шаблонов называются компактными наборами.

природа

Очень мало критических моментов

Линия, соединяющая любые две точки множества. Точки на прямой принадлежат одному множеству.

Каждая точка множества имеет достаточно большую окрестность, и окрестность содержит только точки из одного и того же множества.

Требовать

удовлетворяет герметичности

сходство

Выражайте сходство, используя различные расстояния

Общее расстояние

Расстояние Минковского

Расстояние по абсолютному значению, или городское расстояние, или расстояние Манхэттена (q=1)

Евклидово расстояние (q=2)

Расстояние шахматной доски или расстояние Чебышева (q=∞)

Расстояние Махаланобис

где ковариационная матрица и среднее значение равны

Стандартизация данных

Цель

Устранить влияние числового диапазона между каждым компонентом на алгоритм.

метод

Стандартизация до [0,1] или [-1, 1], стандартизация дисперсии

формула

Нормализация функций

Нормализация дисперсии

Предварительная обработка данных

Зачем нужна предварительная обработка данных?

не хорошо

неполный

Отсутствие соответствующих значений при сборе данных

Различные соображения при сборе и анализе данных

Человеческие/аппаратные/программные проблемы

шумный

Проблемы со инструментами сбора данных

Человеческая/компьютерная ошибка во время ввода данных

Ошибки при передаче данных

Несовместимые типы данных

разные источники данных

функциональная зависимость нарушена

хороший

Корректность: например, правильно ли это, точно или нет и т. д.

Полнота: если какие-либо данные отсутствуют или не могут быть получены.

Согласованность: если некоторые данные были изменены, а другие — нет.

Надежность: описывает степень уверенности в том, что данные верны.

Задача

Очистка данных

Заполните пропущенные значения, сгладьте зашумленные данные, выявите и удалите выбросы, а также устраните несоответствия.

интеграция данных

Интегрируйте несколько баз данных, кубов данных или файлов.

Преобразование и дискретизация данных

Стандартизировать

Концепция иерархической генерации

сжатие данных

Уменьшение размеров

Уменьшение количества

Сжатие данных

Извлечение признаков и выбор признаков

Очистка данных

❑ Вставьте пропущенные значения.

причина

❑ Неисправность оборудования.

❑ Удален из-за несоответствия другим существующим данным.

❑ Данные, которые не были введены по недоразумению

❑ Некоторые данные не были введены, поскольку при вводе к ним не отнеслись серьезно.

❑ Отсутствие регистрации изменений данных.

иметь дело с

◼ Игнорировать кортежи: обычно это делается, когда метка класса отсутствует (при условии, что задача интеллектуального анализа данных предназначена для классификации или описания), когда изменяется процент отсутствующих значений для каждого атрибута (задача предназначена для классификации или описания), когда процент пропущенных значений для каждого атрибута сильно варьируется, это оказывает очень плохой эффект.

«Метка класса» (метка класса или целевая метка) обычно относится к «метке, используемой для представления класса или группы, к которой принадлежит образец» в наборе данных.

◼ Заполнение недостающих значений вручную: большая рабочая нагрузка и низкая осуществимость.

◼ Автоматически заполнять пропущенные значения

❑ Используйте глобальную переменную: например, неизвестную или -∞.

❑ Используйте средние значения атрибутов.

❑ Используйте среднее или медиану всех выборок, принадлежащих к тому же классу, что и данный кортеж.

❑ Заполните пропущенные значения наиболее вероятными значениями: используя методы, основанные на выводах, такие как байесовская формула или деревья решений.

❑ Данные сглаженного шума

причина

❑ Проблемы с инструментами сбора данных

❑ Ошибки ввода данных

❑ Ошибка передачи данных.

❑ Технические ограничения

❑ Непоследовательность в правилах именования.

иметь дело с

группирование

Сначала отсортируйте данные и разделите их на интервалы одинаковой глубины. Затем вы можете сгладить по среднему интервалу, сгладить по медиане интервала, сгладить по границе интервала и т. д.

действовать

Биннинг одинаковой глубины

Сглаживание граничных значений: превратите все значения в максимальные или минимальные значения.

Биннинг одинаковой ширины

[110,155), слева закрыто, справа открыто

кластеризация

Обнаружение и удаление выбросов посредством кластеризации

возвращаться

Сгладьте данные, подобрав их к функции регрессии.

❑ Идентифицировать или удалять выбросы

❑ Устранить несоответствия в данных.

интеграция данных

◼ Интеграция данных:

❑ Консолидация данных из нескольких источников данных в единое хранилище.

◼ Интеграция шаблонов:

❑ Интеграция метаданных из разных источников данных.

◼ например, A.cust_id = B.customer_no.

◼ Проблемы с распознаванием объектов:

❑ Сопоставление реальных объектов из разных источников данных.

◼ например, Билл Клинтон = Уильям Клинтон

◼ Обнаружение и разрешение конфликтов значений данных.

❑ Для одной и той же сущности в реальном мире значения атрибутов из разных источников данных могут быть разными.

❑ Возможные причины: другое представление данных, разные измерения и т. д.

сжатие данных

Цель

◆Сложный анализ данных крупномасштабных баз данных часто занимает много времени, что делает анализ исходных данных нереалистичным и невозможным;

◆Сокращение данных: Сокращение или сокращение данных предназначено для уменьшения размера добытых данных, не влияя на окончательные результаты майнинга.

◆Методы сокращения данных можно использовать для получения сокращенного представления набора данных, которое намного меньше, но все же близко к сохранению целостности исходных данных.

◆Обработка сокращенного набора данных может повысить эффективность добычи и дать такие же (или почти такие же) результаты.

стандартный

◆Время, затрачиваемое на сокращение данных, не должно превышать или «компенсировать» время, сэкономленное на анализе сокращенного набора данных.

◆Данные, полученные путем редукции, намного меньше исходных данных, но могут дать такие же или почти такие же результаты анализа.

метод

◆Агрегация кубов данных;

Объедините n-мерные кубы данных в n-1-мерные кубы данных.

◆Уменьшение размеров (уменьшение атрибутов);

Найдите минимальный набор атрибутов, чтобы гарантировать, что распределение вероятностей нового набора данных максимально близко к распределению вероятностей исходного набора данных.

СПС

◆Сжатие данных;

сжатие без потерь

Сжатие с потерями

◆Численное сокращение;

Уменьшите объем данных, выбрав альтернативные, меньшие по размеру представления данных.

тип

Гистограмма

кластеризация

выборка

◆Дискретизация и иерархическая генерация понятий.

Стандартизировать

нормализация мин-макс

Это должно быть правильно

Нормализация z-показателя (нормализация нулевого среднего)

Может быть отрицательным

дискретизация

Цель

Дискретизация данных — это процесс разделения значений непрерывных данных на несколько интервалов для упрощения сложности исходного набора данных.

тип

Значения в неупорядоченном наборе, например цвет, род занятий;

Значения в упорядоченном наборе, например, воинское звание, профессиональное звание;

Непрерывные значения, например действительные числа;

концептуальное многоуровневое представление

Кластерный анализ

концепция

Мысль

Классифицируйте каждую классифицированную модель на основе определенной меры сходства.

Группируйте похожие в одну категорию.

алгоритм

Простой метод кластеризации, основанный на пороге сходства и принципе минимального расстояния.

Метод непрерывного объединения двух категорий по принципу минимального расстояния.

Метод динамической кластеризации на основе целевой функции

приложение

Кластерный анализ можно использовать как этап предварительной обработки для других алгоритмов.

Может использоваться как независимый инструмент для получения распределения данных.

Кластерный анализ может завершить анализ изолированных точек

Методы кластеризации на основе разделов

Метод секционирования заключается в разделении объектов данных на непересекающиеся подмножества (кластеры) так, чтобы каждый объект данных находился ровно в одном подмножестве.

Классификация

тип расстояния

Евклидово расстояние

Манхэттенское расстояние

Расстояние Минковского

Расстояние Мина — это не расстояние, а определение набора расстояний.

Тип алгоритма

Алгоритм k-средних (K-средних)

Входные данные: количество кластеров k и база данных D, содержащая n объектов.

Выход: k кластеров, минимизирующих критерий квадратичной ошибки.

Шаги алгоритма

1. Определите начальный центр кластера для каждого кластера так, чтобы было K начальных центров кластера. 2. Выборки в наборе выборок распределяются по ближайшим соседним кластерам в соответствии с принципом минимального расстояния. 3． Используйте выборочное среднее значение в каждом кластере в качестве нового центра кластера. 4. Повторяйте шаги 2 и 3, пока центр кластера не перестанет меняться. 5. В итоге получаются K кластеров.

Функции

преимущество

Просто и быстро

Масштабируемость и эффективность

Эффект лучше, когда набор результатов плотный

недостаток

Может использоваться только в том случае, если определено среднее значение кластера.

k необходимо указать заранее

Оно очень чувствительно к начальному значению и напрямую влияет на количество итераций.

Не подходит для поиска кластеров невыпуклой формы или кластеров сильно различающихся размеров.

Чувствителен к «шуму» и выбросам данных.

Улучшать

Алгоритм k-режима: реализует быструю кластеризацию дискретных данных, сохраняет эффективность алгоритма k-средних и расширяет область применения k-средних к дискретным данным.

Алгоритм k-прототипа: он может группировать данные, представляющие собой смесь дискретных и числовых атрибутов. В k-прототипе определена метрика несходства, которая рассчитывает как числовые, так и дискретные атрибуты.

Алгоритм k-Mediods (K-Mediods): Алгоритм k-средних чувствителен к изолированным точкам. Чтобы решить эту проблему, вместо использования среднего значения в кластере в качестве контрольной точки вы можете выбрать в качестве контрольной точки самый центральный объект в кластере, то есть центральную точку. Этот метод деления по-прежнему основан на принципе минимизации суммы несходств между всеми объектами и их опорными точками.

Алгоритм k-medoids (K-центральная точка)

Входные данные: количество кластеров k и база данных, содержащая n объектов.

Выход: k кластеров

Шаги алгоритма

1. Определить начальный центр кластеризации для каждого кластера так, чтобы было k начальных центров кластеризации. 2. Вычислите расстояния от всех остальных точек до k центральных точек и считайте кратчайший кластер от каждой точки до k центральных точек кластером, которому он принадлежит. 3. Выбрать точки по порядку в каждом кластере, вычислить сумму расстояний от этой точки до всех точек текущего кластера, при этом точка с наименьшей итоговой суммой расстояний считается новой центральной точкой. 4. Повторяйте шаги 2 и 3, пока центральные точки каждого кластера не перестанут меняться. 5. В итоге получено k кластеров.

Функции

преимущество

Алгоритм K-medoids вычисляет точку с наименьшей суммой расстояний от определенной точки до всех остальных точек. Влияние некоторых изолированных данных на процесс кластеризации можно уменьшить, вычислив наименьшую сумму расстояний. Это делает конечный эффект ближе к реальному разделению.

недостаток

По сравнению с алгоритмом K-средних он увеличивает объем вычислений примерно на O(n), поэтому в целом алгоритм K-medoids больше подходит для небольших операций с данными.

Алгоритм кластеризации на основе иерархии

определение

Создайте кластеризованное дерево объектов данных. В зависимости от того, формируется ли иерархическая декомпозиция снизу вверх или сверху вниз, ее можно разделить на агломеративную иерархическую кластеризацию и дивизионную иерархическую кластеризацию.

основной

Как измерить расстояние между двумя кластерами, где каждый кластер обычно представляет собой набор объектов.

Классификация

Тип расстояния (метод измерения межкластерного расстояния)

Тип алгоритма

AGNES (агломеративная иерархическая кластеризация)

определение

AGNES (агломеративная иерархическая кластеризация) — это восходящая стратегия, которая сначала рассматривает каждый объект как кластер, а затем объединяет эти атомарные кластеры во все более крупные кластеры до тех пор, пока не будет выполнено определенное терминальное условие.

Сходство

Сходство между двумя кластерами определяется сходством ближайших пар точек данных в двух разных кластерах.

шаг

1. Рассматривать каждый объект как исходный кластер; 2. ПОВТОРИТЬ; 3. Найдите два ближайших кластера на основе ближайших точек данных в двух кластерах; 4. Объедините два кластера, чтобы создать новый набор кластеров; 5. ДО тех пор, пока не будет достигнуто количество определенных кластеров;

ДИАНА (разделенная иерархическая кластеризация)

BIRCH (Сбалансированное итеративное сокращение и кластеризация с использованием иерархических методов)

метод кластеризации по плотности

основной

Пока плотность точек в области превышает определенное пороговое значение, она добавляется в аналогичный ей кластер.

Классификация

DBSCAN

основной

В отличие от методов разделения и иерархической кластеризации, он определяет кластеры как самый большой набор точек, связанных по плотности, может делить области с достаточно высокой плотностью на кластеры и может находить кластеры произвольной формы в «зашумленных» пространственных базах данных.

определение

ε-окрестность объекта: Площадь в радиусе ε данного объекта.

Базовый объект (основная точка): если ε-окрестность объекта содержит хотя бы минимальное количество объектов MinPts, объект называется базовым объектом.

Достижимость по прямой плотности: для набора объектов D, если p находится в пределах ε-окрестности q, а q является основным объектом, мы говорим, что объект p достижим напрямую по плотности, начиная с объекта q.

Достижимость плотности: если есть основные точки P2, P3,..., Pn, и плотность от P1 до P2 прямая, а плотность от P2 до P3 прямая,..., плотность от P(n-1 ) в Pn прямая, а плотность от Pn до Q прямая. Тогда плотность от P1 до Q достижима. Достижимая плотность также не имеет симметрии.

Плотность связана: если существует основная точка S, такая что от S до P и Q оба достижимы по плотности, то P и Q связаны по плотности. Связь плотности имеет симметрию. Если P и Q связаны по плотности, то Q и P также должны быть связаны по плотности. Две точки, которые плотно связаны, принадлежат одному кластеру.

Шум. Кластер на основе плотности — это самый большой набор объектов, связанных по плотности, на основе достижимости плотности. Объекты, не включенные ни в один кластер, считаются «шумом».

шаг

1) Если в окрестности точки содержится более точек MinPts, это основная точка, в противном случае точка временно записывается как шумовая точка. 2) Найдите все объекты с достижимой плотностью из этой точки, чтобы сформировать кластер.

Функции

преимущество

Кластеризация выполняется быстро и позволяет эффективно обрабатывать точки шума и обнаруживать пространственные кластеры произвольной формы.

недостаток

(1) Когда объем данных увеличивается, требуется больший объем памяти для поддержки потребления ввода-вывода, что также потребляет много данных; (2) Когда плотность пространственной кластеризации неравномерна и расстояние между кластерами сильно различается, качество кластеризации является плохим. (3) Существует два начальных параметра ε (радиус окрестности) и minPts (минимальное количество точек в окрестности ε), которые требуют от пользователя ручной установки входных данных, и результаты кластеризации очень чувствительны к значениям этих двух параметров. Различные значения значений будут давать разные результаты кластеризации.

ОПТИКА

ДЕНКЛЮ

Байесовская классификация

Наивный Байес

Метод Байеса — это метод классификации по образцу, когда известны априорная вероятность и условная вероятность класса. Результат классификации выборки, подлежащей разделению, зависит от общего количества выборок в различных полях.

Наивный байесовский алгоритм предполагает, что все атрибуты признаков независимы друг от друга, поэтому слово «наивный» в названии алгоритма происходит от

В действительности между атрибутами часто существуют зависимости, но интересно то, что даже когда предположение о независимости алгоритма Наивного Байеса явно неверно, он все равно может получить очень хорошие результаты классификации.

Байесовская формула

минимальная частота ошибок

Характеристики - это информация, предоставленная

Категория — последнее требование.

При наличии нескольких атрибутов объекта

значение

Апостериорная вероятность P(cj |x)

То есть вероятность того, что cj является истинным при наличии выборки данных x, и это то, что нас интересует (подлежит расчету)

Каждый P(xk|Ci) может быть получен с помощью предварительных знаний. Или выполнить статистику с помощью наборов выборок

Априорная вероятность P(cj)

Априорная вероятность P(Ci) может быть получена на основе предварительных знаний. Или выполнить статистику с помощью наборов выборок

P(x) можно исключить или сформулировать

Упрощение

минимальный риск

таблица решений

Метод расчета

Для каждого решения α рассчитайте отдельно

Примите решение с наименьшим условным риском

метод ближайшего соседа

Метод ближайшего соседа/K метод ближайшего соседа

Цель

Определить классификацию точки

Идеи

Найдите k экземпляров обучения, ближайших к новому экземпляру в наборе обучающих данных, а затем посчитайте класс с наибольшим количеством классов среди последних k экземпляров обучения, который является классом нового экземпляра.

процесс

Рассчитайте расстояние между каждой точкой выборки в обучающей выборке и тестовой выборке (обычные меры расстояния включают евклидово расстояние, расстояние Махаланобиса и т. д.).

Отсортируйте все значения расстояния выше

Выберите первые k образцов с наименьшим расстоянием

Проголосуйте на основе меток этих k образцов, чтобы получить окончательную классификационную категорию.

Выбор значения k

Чем меньше значение k, тем сложнее модель и тем легче ее переобучить. Однако, чем больше значение k, тем проще модель. Если k = N, это означает, что независимо от того, какая точка, это класс. с наибольшим количеством категорий в обучающем наборе. Следовательно, k обычно принимает меньшее значение, а затем использует перекрестную проверку для определения. Так называемая перекрестная проверка здесь заключается в разделении части выборки на выборки прогнозирования, например, 95% обучения и 5% прогнозирования, а затем k принимает 1, 2, 3, 4, 5 и т.п. соответственно для прогнозирования и вычислите окончательную ошибку классификации. Выберите k с наименьшей ошибкой.

разница

K-средние

Цель состоит в том, чтобы разделить серию наборов точек на k категорий.

K-Means — алгоритм кластеризации.

Обучение без учителя, группировка схожих данных для получения классификации, без внешней классификации.

Набор обучающих данных не имеет меток и является беспорядочным. После кластеризации он становится несколько упорядоченным. Сначала он становится неупорядоченным, а затем упорядоченным.

Метод ближайшего соседа/K метод ближайшего соседа

Цель – определить классификацию точки.

KNN — алгоритм классификации

Контролируемое обучение, цель классификации известна заранее

Набор обучающих данных имеет метки и уже представляет собой полностью правильные данные.

Правила ассоциации

определение

основная концепция

Предмет: например, кола, картофельные чипсы, хлеб, пиво и подгузники называются предметами.

Пусть I={i1, i2,…,im} — множество всех элементов (Item).

Транзакция T представляет собой запись о покупке, и каждая транзакция T имеет уникальный идентификатор, записанный как Tid.

D — множество всех транзакций.

Itemset — это набор, который мы хотим изучить.

Количество элементов в наборе элементов называется длиной набора элементов, а набор элементов, содержащий k элементов, называется K-набором элементов.

Правила ассоциации

Логическое следствие формы A->B, где ни A, ни B не пусты, и A⸦I, B⸦I и (A пересекает B = пусто).

ПоддержкаПоддержка

Описать вероятность того, что наборы элементов A и B появятся одновременно во всех транзакциях D.

S(A->B)=P(AB)=|AB|/|D|

Поддержка — это мера важности правил ассоциации.

УверенностьУверенность

В вещи T, в которой появляется набор элементов A, вероятность того, что в то же время появится набор элементов B.

C(A->B)=P(B|A)=|AB|/|A|

Доверие — это мера точности ассоциативных правил.

Строгие правила ассоциации

Правила ассоциации, согласно которым D удовлетворяет минимальной поддержке и минимальной достоверности для I, называются правилами сильной ассоциации.

Поднимать

Степень подъема показывает, насколько сильно внешний вид набора элементов A влияет на внешний вид набора элементов B.

L(A->B)=P(AB)/(P(A)*P(B))

Больше 1

Положительная корреляция

равен 1

Независимый

меньше 1

отрицательная корреляция

частые наборы предметов

Наборы элементов, удовлетворяющие минимальной поддержке, называются частыми наборами элементов. Множество часто встречающихся k-множеств обычно обозначается Lk

Цель

Найдите строгие правила ассоциации, основанные на указанной пользователем минимальной поддержке и минимальной достоверности.

шаг

Найдите все часто встречающиеся наборы элементов или самые частые наборы элементов, учитывая минимальную поддержку со стороны пользователя.

Найдите правила ассоциации в часто встречающихся наборах элементов, обеспечив минимальное доверие со стороны пользователя.

алгоритм

Априорный алгоритм

Первым шагом является получение через итерацию всех часто встречающихся наборов элементов в базе данных транзакций, то есть наборов элементов, поддержка которых не ниже порогового значения, установленного пользователем;

Частые предметы: считать, считать S

На втором этапе используются часто встречающиеся наборы элементов для создания правил, удовлетворяющих минимальному уровню доверия пользователя.

Правила ассоциации: Граф C

FP-Рост