Галерея диаграмм связей Процесс и методы
Глава 3 теории и практики науки о данных включает обработку данных, аудит данных, анализ данных, визуализацию данных, рассказывание историй и управление проектами по науке о данных.
Отредактировано в 2023-10-15 10:50:07Процесс и методы
Основной процесс
Оцифровка
Процесс сбора данных о жизни, бизнесе или общественной деятельности людей и их преобразование в данные.
Обработка и регуляризация данных
чистые данные
Организация данных
Две основные проблемы обработки данных
исследовательский анализ данных
метод ЭДА
Сопротивление
остаток
повторно выражать
Анализ данных и идеи
описательный анализ
Прогнозная аналитика
нормативный анализ
Результаты показывают
Предоставление информационных продуктов
обработка данных
Обработка данных относится к серии действий по обработке, которые проверяют, очищают, преобразуют, интегрируют, снижают чувствительность, сокращают и маркируют исходный набор данных в соответствии с потребностями последующих вычислений данных до их формальной обработки.
Требования к качеству данных, требования к расчету данных
Очистка данных
Отсутствует обработка данных
Резервная обработка данных
Шумная обработка данных
В соответствии со стратегией биннинга исходного набора данных
Метод замены на основе данных участника в каждом поле
преобразование данных
Сглаживание
Особенности конструкции
собирать
стандартизация
дискретизация
интеграция данных
Интеграция контента
структурная интеграция
Интеграция шаблонов
Избыточность данных
Обнаружение и устранение конфликтов
Десенсибилизация данных
Однонаправленность
Без остатка
легко выполнить
сжатие данных
Уменьшение размеров
снижение стоимости
Аннотация данных
Грамматическая аннотация
Семантическая аннотация
Аудит данных
В соответствии с общими правилами и методами оценки качества данных проверяйте содержание данных и их элементы для выявления проблем.
Отсутствующие значения, значения шума, противоречивые значения, неполные значения
Предопределенные аудиты
Словарь данных
Пользовательские ограничения целостности
информативная информация о данных
доменное значение атрибута
Данные – самостоятельная связанная информация
Таможенный аудит
Правила определения переменных
Правила определения функций
Общие методы аудита данных
первый закон чисел
принцип малой вероятности
лингвистические правила
теория непрерывности данных
технология аутентификации данных
Визуальный аудит
анализ данных
описательный анализ
Сосредоточьтесь на прошлом и ответьте на то, что произошло.
Первый шаг в анализе данных
Методы описательного статистического анализа
диагностический анализ
Сосредоточьтесь на прошлом и ответьте, почему это произошло
Корреляционный анализ и причинно-следственный анализ
Прогнозная аналитика
Сосредоточьтесь на будущем и ответьте, что произойдет
Используйте классификационный анализ и анализ тенденций.
является основой нормативного анализа
нормативный анализ
Обратите внимание на проблемы моделирования и оптимизации, а также на то, как оптимизировать проблемы, которые могут возникнуть.
Использование методов исследования операций, моделирования и эмуляции.
Может напрямую создавать промышленную ценность
визуализация данных
основной тип
научная визуализация
визуализация информации
визуальная аналитика
визуальная аналитика
визуализация информации
сбор данных
Статистический анализ
аналитическое рассуждение
взаимодействие человека с компьютером
Модель визуальной аналитики
Акцент на процессе преобразования данных в знания.
Акцент на взаимодействии визуальной аналитики и автоматизированного моделирования.
Подчеркните важность картографирования и интеллектуального анализа данных.
Акцент на необходимости обработки данных
Акцент на важности взаимодействия человека и компьютера.
Методология
Методологическая основа
основной метод
методы предметной области
Зрительное восприятие и зрительное познание
визуальное восприятие
Процесс, посредством которого объективные вещи вызывают прямые реакции в мозгу человека через органы зрения.
визуальное познание
Дальнейшая обработка информации зрительного восприятия индивидуумами
Типы данных с визуальной точки зрения
Категоризированные данные
порядковые данные
интервальные данные
Данные о соотношении
Метод визуального выбора канала
Точность
разборчивость
визуальный артефакт
Относится к ложному или неточному визуальному восприятию, создаваемому целевым пользователем, которое не соответствует намерениям визуализатора данных или реальности самих данных.
Визуализация окружающей среды Ямаситы, где находится апостол, может вызвать визуальные артефакты.
Относительное суждение человеческого глаза о яркости и цвете может легко привести к зрительным иллюзиям.
Опыт и опыт целевого пользователя могут вызывать визуальные артефакты.
Шесть известных практик визуализации данных и их исходные коды
Вычислить возраст Вселенной
Изобразите луну в цветах Земли
1,3 миллиарда поездок на такси в Нью-Йорке
Посмотрите мир через 17 000 маршрутов
Форматирование Eclipse
Опыт Джими Хендрикса
Рассказ о данных
Определение: Процесс преобразования данных в истории данных называется рассказыванием историй.
легко вспомнить
Легко узнать
Легко испытать
Модель истории данных
Потребности бизнеса
данные
Аналитическая информация
сюжетная модель
Рассказывание историй
поведение аудитории
Связанные термины для повествования о данных
Повествование на основе данных
визуальное повествование
Аналитическое повествование
Интерактивное повествование
Рассказывайте истории с помощью данных
цифровое повествование
Роль историй данных
привлекать
объяснять
Вдохновлять
Понимание историй данных
Восприятие истории данных
Повествование рассказчика вызывает непосредственный отклик в мозгу человека через органы зрительного восприятия.
Понимание историй данных
Дальнейшая обработка аудиторией сенсорной информации, основанной на сюжете.
Истории данных в действии
Действия аудитории после прослушивания историй с данными
Управление проектами по науке о данных
главный герой
Спонсор проекта
руководитель проекта
клиент
специалист по данным
инженер данных
оператор
Основной процесс
Определение целей проекта
Сбор и управление данными
закономерности, идеи моделей
Шаблоны, проверка и оптимизация моделей
Визуализация и документирование результатов
Выкройки, применение и уход за моделями
Распространенные ошибки в проектах по науке о данных
Анализ данных без их проверки
Анализируйте данные, не понимая их
Ввод модели в эксплуатацию без ее тестирования
Работа по анализу данных имеет только цели и не имеет исследовательских гипотез.
Модель данных не обновляется одновременно с данными и использует устаревшую модель.
Делайте выводы случайно, не обсуждая результаты анализа данных.
Недостаточное участие бизнес-экспертов
Принять или обучить слишком сложные алгоритмы моделей.
Наличие систематической ошибки в данных
Недостаточно внимания уделяется презентационному эффекту результатов проекта анализа данных.
Недостаточное внимание к пользовательскому опыту продуктов для обработки и анализа данных.
Переоценка или недооценка способности целевого пользователя понимать