Галерея диаграмм связей Карта разума технологии интеллектуального анализа и анализа данных
Вычислительный процесс, в котором используются такие методы, как искусственный интеллект, машинное обучение и статистика, для извлечения полезных, ранее неизвестных закономерностей или знаний из огромных объемов данных.
Отредактировано в 2021-12-27 22:46:49A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
Технология интеллектуального анализа и анализа данных
Глава 1. Обзор интеллектуального анализа данных
Разберитесь перед уроком
краткое содержание
машинное обучение
Операционные процедуры
импорт данных
Предварительная обработка данных
разработка функций
Расколоть
Модель обучения
Модель оценки
Прогнозирование новых данных
ИИ
Характеристики больших данных
Много
Разнообразный
высокоскоростной
ценить
1.1 Введение в интеллектуальный анализ данных
определение
Вычислительный процесс, в котором используются такие методы, как искусственный интеллект, машинное обучение и статистика, для извлечения полезных, ранее неизвестных закономерностей или знаний из огромных объемов данных.
фон
Объем данных резко увеличился, что привело к появлению новых направлений исследований: обнаружение знаний на основе баз данных и исследование соответствующих теорий и технологий интеллектуального анализа данных.
Следующая точка доступа к технологиям после Интернета
Хотя большой объем информации приносит людям удобство, он также приносит и массу проблем.
Слишком много информации и ее трудно переварить
Трудно отличить достоверность информации
Информационную безопасность сложно гарантировать
Информация поступает в разных формах, и ее сложно обрабатывать единообразно.
Взрывоопасные данные, но плохие знания
Эволюция от бизнес-данных к бизнес-информации
Сбор данных → доступ к данным → хранилище данных, поддержка принятия решений → интеллектуальный анализ данных (предоставление прогнозной информации)
этап
Предварительная обработка данных
Очищайте, интегрируйте, выбирайте, трансформируйте
сбор данных
оценка модели
процесс
данные, информация, знания
данные
«8000м», «10000м»
Созданные в результате наблюдения и измерения объективных вещей, мы называем изучаемые объективные вещи сущностями.
информация
«8000 м — максимальная высота полета самолета», «Высота горы 10 000 м».
Знание
«Самолеты не могут подняться над этой горой»
мудрость
основное содержание
Добыча правил ассоциации
пиво и подгузники
контролируемое машинное обучение
Дискретное предсказание меток — классификация меток
Непрерывное прогнозирование меток — числовое прогнозирование
Машинное обучение без учителя — кластеризация (алгоритм подобия)
возвращаться
Установить количественные связи между несколькими переменными
Классификация алгоритмов
контролируемое обучение
Изучите функцию (модель) по заданным обучающим данным. При поступлении новых данных результат можно спрогнозировать на основе этой функции (модели).
Данные обучения имеют четкую идентификацию или результаты.
Алгоритм регрессии, нейронная сеть, машина опорных векторов SVM
Алгоритм регрессии
линейная регрессия
Решите числовые задачи, и конечный результат прогнозирования будет числом, например: цена дома
логистическая регрессия
Принадлежит к алгоритму классификации, например: определение того, является ли электронное письмо спамом.
Нейронные сети
Применяется для визуального распознавания и распознавания речи.
Алгоритм машины опорных векторов SVM
Улучшение алгоритма логистической регрессии
обучение без присмотра
Данные обучения специально не помечены
Алгоритм кластеризации, алгоритм уменьшения размерности
Алгоритм кластеризации
Рассчитайте расстояние в популяции и разделите данные на несколько популяций в зависимости от расстояния.
Алгоритм уменьшения размерности
Уменьшите данные с высокой размерности до низкой размерности. Размерность представляет собой размер признака количества данных. Например: цена дома содержит четыре характеристики: длину, ширину, площадь и количество комнат дома. , размер представляет собой 4-мерные данные, а факты о длине и ширине. Приведенная выше информация перекрывается с информацией, представленной площадью = длина × ширина. Избыточная информация удаляется путем уменьшения размерности.
Сжимайте данные и повышайте эффективность машинного обучения
Приложения для корпоративных данных
полуконтролируемое обучение
Как использовать небольшое количество меченых образцов и большое количество немаркированных образцов для задач обучения и классификации.
Идентификация изображения
обучение с подкреплением
Обучающиеся субъекты выносят суждения на основе обратной связи от наблюдаемого ими окружения.
Управление роботом
1.2 Основные процессы и методы интеллектуального анализа данных
основной метод
Прогнозный майнинг
Экстраполируйте текущие данные, чтобы делать прогнозы
описательный майнинг
Охарактеризуйте общие характеристики данных в базе данных (корреляция, тенденция, кластеризация, аномалия...)
Блок-схема интеллектуального анализа данных
Основные методы интеллектуального анализа данных в шестой средней школе (P6)
Краткое изложение набора данных
Правила ассоциации данных
Способ описания потенциальных связей между данными, обычно представленный импликацией A-B.
Классификация и прогнозирование
кластеризация
Гетерогенное обнаружение
модель временных рядов
1.3 Применение интеллектуального анализа данных
бизнес
Здравоохранение и медицина
банковское дело и страхование
социальные медиа
инструмент
Века, Матлаб, Java
Релевантная информация
подтема
Глава 2 Описание и визуализация данных
2.1 Обзор
Анализ атрибутов данных и значений данных → описание и визуализация данных.
2.2 Объекты данных и типы атрибутов
набор данных
Состоит из объектов данных
База данных продаж: клиенты, товары магазина, продажи Медицинская база данных: пациент, информация о лечении База данных университета: студент, профессор, информация о курсе
объект данных
Объект данных представляет собой сущность
Известны как: образец, пример, экземпляр, точка данных, объект, кортеж.
Атрибуты
характеристика объекта данных
термин
База данных: Измерение
Машинное обучение: особенности
Статистика: переменные
Интеллектуальный анализ данных, Базы данных: Свойства
Классификация
Номинальные характеристики
Номинальные значения атрибутов — это некоторые символы или названия вещей, обозначающие категории и названия.
Номинальный признак: цвет волос, возможные значения: черный, белый, коричневый. Номинальный признак: Семейное положение, возможные значения: женат, холост, разведен, вдовец.
Бинарные атрибуты (специальные номинальные атрибуты)
Есть только две категории и статус
симметричный двоичный файл
Разница в размере данных небольшая Пример: Пол – мужской, женский.
асимметричный двоичный файл
Размер данных сильно варьируется Пример: Медицинский тест – отрицательный, положительный.
порядковые свойства
Порядок есть, но разница между ними неизвестна. Обычно используется для рейтинга.
Звание преподавателя, воинское звание, удовлетворенность клиентов
Числовые свойства
свойства интервального масштабирования
Последовательно измеряется в единицах длины
Свойства шкалы отношений
Имеет фиксированную нулевую точку, упорядочен и может вычислять кратные значения.
Дискретные и непрерывные атрибуты
2.3 Базовое статистическое описание данных
мера центральной тенденции
среднее, медиана, мода
Разброс данных метрик
Диапазон, квартиль, квартильный диапазон
Пятизначная сводка, коробчатые диаграммы и выбросы
Дисперсия, стандартное отклонение
Графическое изображение базовой статистики данных
Квантильный график
Квантиль - Квантильный график
Гистограмма
Высота - количество, частота
График рассеяния
Обнаружение корреляций между атрибутами
2.4 Визуализация данных
определение
Эффективно выражайте данные с помощью графики
Три метода визуализации
Бокс-сюжет (коробчатый сюжет)
Анализируйте различия дисперсии данных нескольких атрибутов.
Может отображать распределение данных и отображать выбросы (необходимо удалить)
Гистограмма
Анализировать распределение изменений одного атрибута в различных интервалах.
График рассеяния
Отображение распределения корреляции между двумя наборами данных
2.4.1 Пиксельная визуализация
Простой способ визуализировать одномерные значения — использовать пиксели, цвет которых отражает значение этого измерения.
Подходит для одномерных значений, не подходит для распределения многомерных пространственных данных.
2.4.2 Визуализация геометрической проекции
Помогите пользователям найти проекции многомерных данных. Основная задача технологии геометрической проекции — выяснить, как визуализировать многомерное пространство в двух измерениях.
Для двумерных точек данных обычно используется диаграмма рассеяния в декартовой системе координат. На диаграмме рассеяния можно использовать различные цвета или формы в качестве третьего измерения данных.
(Используется для наборов трехмерных данных) Диаграммы рассеяния, матрицы диаграмм рассеяния и визуализация параллельных координат (при большом количестве измерений)
2.4.3 Визуализация на основе значков
Представляйте многомерные значения данных с помощью небольшого количества значков.
Два часто используемых метода значков
Чернов лицо (позволяет визуализацию до 36 измерений)
Выявление тенденций в данных
Такие элементы, как глаза, рот и нос лица, используют разные формы, размеры, положения и ориентации для представления значений размеров.
Каждое лицо представляет собой n-мерную точку данных (n≤18), а значение различных черт лица можно понять путем выявления небольших различий в лицах.
рисунок линии персонажа
2.4.4 Иерархическая визуализация
Разделите все измерения на подмножества (т.е. подпространства) и визуализируйте эти подпространства иерархически.
Два часто используемых метода иерархической визуализации
Иерархия подмножеств по оси X и оси Y
числовая диаграмма
2.4.5 Визуализация сложных объектов и отношений
Облако тегов
2.5 Измерение сходства и различия данных
концепция
Сходство
Измеряет, насколько похожи два объекта данных. Чем больше значение, тем более они похожи. Обычный диапазон значений — [0,1].
Непохожесть
Измеряет степень различия между двумя объектами данных. Чем меньше значение, тем более похожи данные. Минимальное различие обычно равно 0.
Близость
Относится к сходству или несходству
Предоставляет две структуры данных
Матрица данных (Объект – Матрица атрибутов)
Храните n объектов данных, каждый n объектов данных имеет n строк, а p характеристик атрибутов имеют p столбцов)
Матрица непохожести (Объект – Матрица объектов)
Значение различия, используемое для хранения объектов данных
Обычно треугольная матрица
Мера близости номинальных атрибутов
Мера близости для двоичных атрибутов
Несходство числовых свойств
Несколько распространенных методов расчета мер расстояния для различия объектов числовых атрибутов
Евклидово расстояние
Манхэттенское расстояние
Ou и Man одновременно удовлетворяют следующим свойствам
Расстояние Минковского
Продвижение Оуюмана
супремум расстояние
дает максимальное значение разницы между объектами
Меры близости для порядковых атрибутов
Несходство смешанных атрибутов
Каждый тип атрибутов разделяется на группы, и для каждого типа выполняется интеллектуальный анализ данных (например, кластерный анализ). Если эти анализы дают одинаковые результаты, метод работает, но в практических приложениях трудно получить одинаковые результаты для каждой классификации типов атрибутов.
Лучший подход: просто проведите один анализ, объедините различные атрибуты в одну матрицу несходства и преобразуйте атрибуты в общий интервал [0,0,0,1].
пример
подтема
Косинусное сходство (просто поймите это)
Поиск текста, интеллектуальный анализ биологической информации
Вектор документа, вектор частоты слов
Векторы частот обычно длинные и разреженные (имеют много нулевых значений).
Глава 7. Машина опорных векторов
Классификация машин опорных векторов
Проблема линейной двоичной классификации
Найдите оптимальную гиперплоскость
Глава 6 Классификация и прогнозирование
6.1 Классификация данных
непрерывная переменная
высота вес
Категориальные переменные
Неупорядоченная категориальная переменная
Упорядоченная классификация
Общие методы классификации данных
Классификация, упорядочение, расстояние, соотношение
6.2 Модель дерева решений
Создать дерево решений
Обрезать дерево решений
6.2.1 Как работают деревья решений
6.3 Модель байесовской классификации
максимальная апостериорная гипотеза
Учащийся выбирает наиболее вероятную гипотезу h из набора гипотез-кандидатов H, когда ему предоставлены данные D. h называется максимальной апостериорной гипотезой.
Необходимо запросить совместную вероятность
Обычно предполагается, что каждый атрибут независимо и одинаково распределен.
Перед этим необходимо выполнить корреляционные вычисления и слияние, чтобы минимизировать корреляцию между атрибутами.
Функции
Атрибуты могут быть дискретными или непрерывными.
Прочная математическая основа и стабильная эффективность классификации.
Не чувствителен к отсутствию, зашумленным данным и выбросам.
Если атрибуты нерелевантны, эффект классификации очень хороший.
6.4 Линейная дискриминантная модель
6.5 Модель логистической регрессии
6.6 Оценка и выбор модели
Глава 5. Анализ ассоциативных правил
5.1 Обзор
концепция
Анализ правил ассоциации используется для анализа корреляции между наборами элементов в базе данных транзакций и анализа всех правил ассоциации, которые соответствуют минимальным пороговым требованиям поддержки и доверия.
Правила ассоциации используются для поиска потенциально полезных зависимостей между элементами данных в больших объемах данных.
частые наборы предметов
Набор элементов, удовлетворяющий минимальной поддержке и минимальному доверию.
Поддерживать
Доверие
Строгие правила
Правила, которые соответствуют или превышают минимальную поддержку и доверие
Основные этапы интеллектуального анализа данных
В наборе элементов больших данных найдите набор часто встречающихся элементов с количеством вхождений ≥
Из полученных выше часто встречающихся наборов элементов установите правила ассоциации, которые удовлетворяют минимальным условиям поддержки и достоверности.
5.2 Классификация
5.3 Этапы исследования
5.4 Априорный анализ алгоритма
5.6 Обобщение правил ассоциации (GRI)
поиск в глубину
5.7 Углубленное изучение правил ассоциации
Глава 4 Сокращение данных (Сокращение данных)
4.1 Обзор технического обслуживания
Максимально оптимизируйте данные, сохраняя при этом первоначальный вид данных.
4.2 Выбор атрибутов и численное сокращение
Критерии оценки атрибутов (P58)
измерение консистенции
Степень согласованности между двумя атрибутами
Степень соответствия между уровнем образования и VIP-уровнем
корреляционное измерение
Корреляция между различными атрибутами относится к взаимосвязи между ними.
Соотношение уровня образования и VIP-уровня
Чем выше корреляция между двумя атрибутами, тем выше точность вывода значения одного атрибута из значения другого атрибута.
Измерение способности к дискриминации
Способность определенного атрибута различать записи в базе данных
измерение информации
Чем больше информации содержит атрибут, тем он важнее.
Количество информации обычно измеряется «информационной энтропией».
Метод выбора подмножества атрибутов
Выбор вперед шаг за шагом
Установить целевое свойство пустым
Каждая итерация выбирает лучший атрибут из оставшихся атрибутов исходного набора данных и добавляет его в целевой набор атрибутов.
Удалить атрибут из исходного набора данных
Повторяйте этот процесс до тех пор, пока целевой набор не будет соответствовать требованиям.
пошаговый обратный выбор
Сначала назначьте исходный набор атрибутов нецелевому набору атрибутов.
На каждой итерации атрибут с наихудшим комплексным баллом исключается из целевого набора атрибутов.
Повторяйте этот процесс до тех пор, пока целевой набор атрибутов не будет соответствовать требованиям.
числовое сокращение
Преобразуйте свойства в переменные, чтобы уменьшить их динамический диапазон.
Простое преобразование функций
Стандартизация данных
Дискретизировать атрибуты и кодировать их целыми числами.
Дискретизация одинаковой ширины, дискретизация одинаковой глубины
Бинаризировать атрибут так, чтобы он имел только два значения.
Если значением атрибута является сигнал или изображение, также можно выполнить кодирование со сжатием.
4.3 Линейная регрессия
определение
Это изучение взаимосвязи между одной зависимой переменной и одной или несколькими независимыми переменными.
полезность
Прогнозирование означает использование наблюдаемых переменных для прогнозирования зависимых переменных.
Причинно-следственный анализ рассматривает независимую переменную как причину зависимой переменной.
линейная регрессия
Множественная регрессия
нелинейная регрессия
Данные модели, не имеющие линейных зависимостей
Используйте метод моделирования полиномиальной регрессии, а затем выполните преобразование переменных, чтобы преобразовать нелинейную модель в линейную модель, а затем решите ее, используя метод наименьших квадратов.
4. 4 анализа главных компонентов (Анализ главных компонентов PCA)
Обычно используемые методы уменьшения размерности многомерных данных
Создайте линейную комбинацию исходных переменных и отразите всю или большую часть информации об исходной величине через несколько объединенных переменных.
Комбинированная переменная является главным компонентом
Глава 3 Сбор и предварительная обработка данных (очистка, интеграция, сокращение, преобразование)
3.1 Обзор
Характеристики сбора больших данных
Первый шаг в жизненном цикле больших данных
По сравнению с традиционными данными, данные больших данных огромны, разнообразны и неоднородны.
От сбора до обработки большие данные должны учитывать согласованность, доступность и отказоустойчивость секций.
Методы сбора больших данных (понимать)
Сбор журналов распределенных систем
Сбор сетевых данных
Веб-сканер, общедоступный API веб-сайта (интерфейс прикладного программирования)
Глубокая проверка пакетов DPI
DFI Проверка глубины/динамического потока
Сбор данных конкретного системного интерфейса
3.2 Цель и задачи предварительной обработки данных
Цель
Улучшите качество данных
основная миссия
Очистка данных
Уточните шум в данных и исправьте несоответствия
интеграция данных
Консолидируйте данные из нескольких источников данных в единое хранилище данных, например хранилище данных.
Преобразование данных (например, нормализация)
Сжатие данных в меньшие интервалы
3.3 Очистка данных
Суть – это процесс модификации модели данных
Путь очистки данных (понятно)
1. Очистка недостающих значений
Удалить пропущенные значения
среднее вменение
метод заполнения горячей карты
метод заполнения решения о ближайшем расстоянии
регрессионное вменение
несколько методов вменения
k — метод ближайшего соседа
Байесовский подход
2. Очистка выбросов (выбросов, диких значений)
Определение и идентификация выбросов
Обработка выбросов
3. Очистка форматированного контента
4. Чистка логических ошибок
Удалить дубликаты
Удалить необоснованные значения
5. Необязательная очистка данных
6. Проверка актуальности
3.4 Интеграция данных
концепция
Интеграция данных в традиционном понимании
Объедините данные из нескольких хранилищ данных и сохраните их в одном хранилище данных, например в хранилище данных.
Интеграция данных в общем смысле
ETL — извлечение, преобразование, загрузка (в пункт назначения). Это важная часть построения хранилища данных.
Пользователь извлекает необходимые данные из источника данных, очищает их и, наконец, загружает данные в хранилище данных в соответствии с предопределенной моделью хранилища данных.
Важность моделей
Стандартизировать определение данных для достижения унифицированного кодирования, классификации и организации.
Избыточность данных часто возникает при интеграции нескольких баз данных.
Обнаружение избыточных атрибутов
корреляционный анализ
дискретная переменная
Тест хи-квадрат
Чем больше значение, тем оно более актуально.
непрерывная переменная
Коэффициент корреляции
Равен 1, -1, полностью линейно связан
Больше 0, положительная корреляция
Равно 0, линейной корреляции нет.
Меньше 0, отрицательная корреляция
ковариационный анализ
Больше 0, положительная корреляция
равно 0, независимость
Некоторые данные имеют ковариацию 0, но не являются независимыми.
Меньше 0, отрицательная корреляция
Стратегия сокращения данных
Уменьшение размерности
Сценарии, требующие уменьшения размерности
Данные разрежены и имеют большие размеры.
В многомерных данных применяется метод классификации на основе правил.
Используйте сложные модели (например, глубокое обучение), но количество обучающих наборов невелико.
Нужно визуализировать
Типичный метод уменьшения размерности — анализ главных компонентов PCA.
представлять
Между многими атрибутами данных существуют некоторые корреляции.
Можете ли вы найти способ объединить несколько связанных атрибутов в один атрибут?
концепция
Объедините несколько исходных атрибутов с определенными корреляциями (например, атрибуты p) в набор несвязанных комплексных атрибутов, чтобы заменить исходные атрибуты. Обычно математическая обработка заключается в линейном объединении исходных атрибутов p как полных атрибутов заявителя.
Например: баллы учащихся, язык, математика, международные отношения, история, география и т. д. делятся на два атрибута: гуманитарные науки и естественные науки.
Сокращение данных – выборка
Сжатие данных
Уменьшите размер данных, уменьшив их качество, например пикселей.
3.5 Преобразование данных
Стратегия преобразования данных
Гладкость, построение атрибутов, агрегирование, нормализация, дискретизация, многоуровневое представление понятий.
Часто используемые методы преобразования данных
Преобразование данных посредством нормализации
дискретизация путем биннинга
Дискретизация путем объединения гистограмм
Дискретизация посредством кластеризации, деревьев решений и корреляционного анализа
Концептуальная стратификация номинальных данных
дискретизация
метод равной ширины
Метод равной частоты
метод кластеризации