Галерея диаграмм связей Дерево знаний о больших данных
Структура больших данных, концепции и контент, используемые для сортировки структуры знаний, включая платформу Hadoop, структуру хранилища данных, улей и т. д.
Отредактировано в 2024-04-18 16:59:36Дерево знаний о больших данных
Источники данных
Обзор
внутренний
похоронить точку
Обзор
В сравнении
процесс
Размеры
документ
Случай
внешний
конкуренты
рептилия
Национальное бюро статистики
Предоставлено дружелюбными торговцами
Хранилище данных DW
Введение
Хранилище данных (Data Warehouse), именуемое DW. Как следует из названия, хранилище данных — это большая коллекция данных, созданная для целей корпоративной аналитической отчетности и поддержки принятия решений для фильтрации и интеграции разнообразных бизнес-данных. Он предоставляет предприятиям определенные возможности BI (бизнес-аналитики) и помогает улучшить бизнес-процессы.
эффект
хранилище
извлекать
Межведомственные приложения
особенность
Тематически ориентированный
интегрированный
Стабильный и не легко потерять
отражать исторические изменения
Иллюстрация
Сравнить базы данных
база данных
ОЛТП
Обработка транзакций в режиме онлайн
обработка онлайн-транзакций
база данных
ОЛАП
Обработка транзакций в режиме онлайн
Аналитическая обработка онлайн
Сравнительная таблица
Архитектура
Цели дизайна
многоуровневая архитектура
Управление метаданными
управление данными
грязные данные
принципы управления
Платформа Hadoop
Введение
Распределенная платформа хранения и вычислений для больших данных
преимущество
Высокая надежность
Способность Hadoop хранить и обрабатывать данные побитово заслуживает доверия.
Высокая масштабируемость
Hadoop распределяет данные и выполняет вычислительные задачи среди доступных компьютерных кластеров. Эти кластеры можно легко расширить до тысяч узлов.
Высокая эффективность
Hadoop может динамически перемещать данные между узлами и поддерживать динамический баланс каждого узла, поэтому скорость обработки очень высокая.
Высокая отказоустойчивость
Hadoop может автоматически сохранять несколько копий данных и автоматически перераспределять невыполненные задачи.
бюджетный
Hadoop имеет открытый исходный код, поэтому стоимость программного обеспечения проекта может быть значительно снижена.
Экосфера
Обзор
Классификация
HDFS
полное имя
Распределенная файловая система Hadoop
принцип
Разделите файл на блоки данных фиксированного размера. Фиксированный размер по умолчанию составляет 128 МБ.
Распределенное хранилище
Единый интерфейс доступа
ИмяУзел
преимущество
Распределенное хранилище
Поддержка распределенных и параллельных вычислений
Горизонтальная масштабируемость
основные компоненты
HDFS-клиент
Предоставляет команды для управления HDFS.
ИмяУзел
Управление метаданными всей файловой системы, должностные обязанности: управлять метаданными, поддерживать структуру каталогов, отвечать на запросы клиентов.
узел данных
Копирование и управление блоками файловых данных пользователя. Должностные обязанности: управление предоставленными пользователем данными, механизм контрольного сигнала, отчет о блокировке.
Вторичноеимяузел
Помощник NameNode помогает загружать метаданные и восстанавливать данные в экстренных ситуациях (например, при простое NameNode).
Четыре основных механизма
механизм сердцебиения
Структура «главный/подчиненный»
Владелец
ИмяУзел
Раб
узел данных
Интервал времени по умолчанию для DataNode для отправки запросов в NameNode составляет 3 секунды.
Если NameNoder не получает контрольного сигнала DataNode в течение длительного времени, он также будет отправлять запросы к DataNode каждые 5 минут, всего дважды.
безопасный режим
Когда кластер HDFS нормально запускается при холодном запуске, NameNode остается в состоянии безопасного режима в течение длительного периода времени. Просто подождите, пока он автоматически выйдет из безопасного режима.
Копировать стратегию хранения
Данные каждого файла хранятся в блоках. Каждый блок данных сохраняется в нескольких копиях. Эти копии блоков данных распределяются по разным узлам машины.
Балансировка нагрузки
Разница между значением с наибольшей производительностью машины и значением с наименьшей производительностью не может превышать 10%.
Иллюстрация
Уменьшение карты
эффект
Распределенных вычислений
Стратегия
разделяй и властвуй
идея
Расчет приближается к данным, а не данные приближаются к расчету
принцип
карта
Разбейте задачу на несколько задач
Уменьшать
Обобщить результаты декомпозированной многозадачности для получения окончательных результатов анализа.
Иллюстрация
Стратификация хранилища данных
выгода
четкая структура
Каждый уровень данных имеет свою область применения и обязанности, что упрощает поиск и понимание при использовании таблиц.
Сокращение развития
Стандартизируйте стратификацию данных и разработайте некоторые общие данные среднего уровня, которые могут сократить объем повторяющихся вычислений.
Один голос
Благодаря многоуровневости данных обеспечивается унифицированный экспорт данных, а также унифицированный калибр данных для внешнего вывода.
Упростите проблему
Разбейте сложную задачу на несколько этапов, каждый из которых решает конкретную проблему.
состав
Случай
Хранилище данных сайта электронной коммерции
улей
источник
Hive — это инструмент хранилища данных, основанный на Hadoop, разработанный Facebook для статистического анализа массивных данных журналов (позже открытый исходный код для Apache Software Foundation).
Функция
Может отображать файлы структурированных данных в таблицу базы данных и предоставлять функции запросов, подобные SQL.
Функции
Сам Hive не поддерживает хранение и обработку данных, это всего лишь ориентированный на пользователя интерфейс программирования.
Hive использует распределенную файловую систему HDFS для хранения данных.
Hive использует модель распределенных параллельных вычислений MapReduce для обработки данных.
Разработан новый язык запросов HiveQL на основе языка SQL.
Принцип запроса