Галерея диаграмм связей база данных
Хранилище данных — это стратегическая коллекция, которая обеспечивает все виды поддержки данных для процесса принятия решений на всех уровнях предприятия. Эта карта мозга рассматривает структуру системы хранилища данных, технологию многомерного анализа, технологию предварительной обработки данных. и ключевые моменты построения банковских хранилищ данных. Разберитесь в этом, чтобы понять смысл и значение построения хранилища данных.
Отредактировано в 2024-01-19 15:42:49база данных
Предварительная обработка данных
Критерии оценки качества данных
точность
честность
последовательность
Своевременность
Доверие
Интерпретируемость
Технология предварительной обработки данных
1. Очистка данных
Цель:
Устранение ошибок и несоответствий данных
Стандартизация формата, обнаружение и обработка аномальных данных, исправление ошибок данных, обнаружение и удаление дублирующихся данных.
Обработка отсутствующих значений
(1) Игнорировать кортежи
(2) Вручную заполните недостающие значения.
(3) Используйте равномерное постоянное заполнение.
(4) Заполните, используя среднее значение атрибута.
(5) Используйте среднее значение атрибутов выборки после группировки.
(6) Заполните наиболее вероятным значением.
Шумная обработка данных
(1) Упаковка
(2) Кластеризация
(3) Сочетание компьютерной и ручной проверки.
(4) Возврат
2. Интеграция данных
Цель: Интеграция данных из нескольких источников данных.
3. Курирование данных
Цель: Получить более точное выражение данных.
Стратегия курирования данных
(1) Агрегация кубов данных
(2) Протокол измерений
Вейвлет-преобразование
Анализ главных компонентов
(3) Сжатие данных
сжатие без потерь
Сжатие с потерями
(4) Числовое сжатие
4. Изменения данных
Это операция, выполняемая для стандартизации, дискретизации и концептуального наслоения данных.
Метод преобразования данных
(1) Агрегирование: суммирование и агрегирование данных.
(2) Обобщение данных: процесс абстрагирования от относительно низкого концептуального уровня к более высокому концептуальному уровню.
(3) Стандартизация
(4) Построение атрибутов/вывод признаков
управление данными
Создание полноценной системы управления данными требует улучшения возможностей управления информацией о данных с нескольких аспектов, таких как системы, стандарты, мониторинг и процессы, для решения следующих проблем.
стандарты данных
Поддержка бизнеса платформ данных должна быть стандартизирована
Система контроля данных
Документ спецификации процесса
Определение информационного элемента
Управление метаданными
Провести анализ влияния данных и контекста, чтобы реализовать анализ влияния и кровного родства на поток данных и отношения зависимости.
Качество данных
Требования к качеству данных измеримы, а качество данных платформы данных должно всесторонне управляться для реализации определяемой проверки качества данных и размерного анализа, а также отслеживания проблем.
служба данных
Предоставить каналы сервисной связи для платформы данных для бизнес-пользователей и разработчиков приложений.
Технология многомерного анализа хранилища данных
Основные понятия хранилища данных
Основное определение: Хранилище данных — это предметно-ориентированный, интегрированный, относительно стабильный набор данных, который отражает исторические изменения и используется для поддержки принятия решений в управлении.
Технические характеристики хранилища данных
предметно-ориентированный
Тема относится к целям и требованиям анализа и принятия решений. Она предлагается лицом, принимающим решения, в соответствии с потребностями работы и в конечном итоге реализуется для обслуживания лица, принимающего решения.
Под субъектно-ориентированным подразумевается требуемая организация субъекта, в которой должны быть найдены данные в хранилище данных.
Темы, применимые к банкам, обычно включают
вечеринка
внутренняя организация
продукт
протокол
событие
адрес
канал
маркетинг
финансы
активы клиента
интегрированный
Создание хранилища данных обычно является наиболее сложным и важным шагом.
Анализ и принятие решений требуют больших объемов данных для анализа, сравнения и идентификации.
В данных между несколькими источниками данных имеется много дублирований и несоответствий. Только путем систематической обработки и очистки можно осуществить следующий этап интеграции.
Относительно стабильный (энергонезависимый)
После того, как данные поступают в хранилище, они должны храниться относительно стабильно в течение длительного времени, что является основным условием обеспечения правильного принятия решений.
Большинство операций с базой данных представляют собой запросы с небольшими изменениями и удалениями.
Отражение исторических изменений (вариант времени)
В протоколах хранилища данных хранится информация о данных, которая отражает статус исторического времени, а также должна храниться поэтапно на основе определенных порядков событий.
Онлайн-анализ (OLAP)
1. Основное определение: относится к программной технологии, которая использует многомерную информацию для доступа, анализа и проверки онлайн-данных для решения конкретных проблем.
2.Основные понятия
(1) Размер
(2) Уровень измерения
(3) Члены измерения
(4) Измерение
(5) Сбор многомерных данных
(6) Блок данных
3.Технические характеристики
(1) Скорость
(2) Анализируемость
(3) Многомерность
(4) Информативный
Проектирование структуры системы хранилища данных
Планирование и подготовка хранилища данных
1. Анализ потребностей пользователей
2. Технико-экономическое обоснование
техническая осуществимость
экономическая целесообразность
эксплуатационная осуществимость
3. Координация строительства и анализ устойчивости.
4. Формулирование плана развития проекта
(1) «Что делать»
Решить задачу разделения строительства хранилища данных
(2) «Как это сделать»
Описание задачи и планирование хода строительства хранилища данных
(3) «Что нужно»
Вызов и расстановка ключевых ресурсов: персонал, оборудование, программное обеспечение
Архитектура данных хранилища данных
1. Направление потока данных
Слой исходного поста: загрузка данных исходной системы
Тематический уровень: посредством обработки данных подробные исторические данные, информация о клиентах, информация об учетных записях, данные транзакций и т. д. сохраняются в соответствии с темами.
Слой сводки: регулярно подводит итоги по данным учетной записи и информации о клиентах.
Уровень приложения. Наконец, формируются и сохраняются данные, необходимые для анализа приложения.
2. Модель данных
По мере накопления конструкции хранилища данных необходимо сформировать зрелую модель данных хранилища данных, соответствующую характеристикам.
3. Стандарты данных
отображение данных
обеспечивать соблюдение правил
4. Качество данных
(1) Определение и первоначальное измерение
(2) Анализировать и находить ошибки
(3) Найдите источник проблемы
(4) Решение проблем с качеством
(5) Мониторинг процесса улучшения
5. Управление данными и контроль
Структура единой системы управления данными
6. Политика и емкость хранения данных
потребности в бизнес-анализе
Нормативные потребности
Необходимость предоставления дополнительных услуг клиентам на основе исторических данных
Многоуровневая организационная структура данных хранилища данных
Разумна или нет степень детализации, напрямую влияет на объем данных, хранящихся в хранилище данных, и типы запросов, которые может обрабатывать хранилище данных.
Детализация — ключевой показатель степени интеграции хранилища данных.
Чем больше степень детализации, тем ниже уровень детализации и выше степень полноты данных.
Чем меньше степень детализации, тем выше уровень детализации данных и тем ниже уровень полноты.
Архитектура хранилища данных
Определить базовую функциональность и возможности расширения.
1. «Снизу вверх» и «снизу вверх» — это архитектуры
Структура сверху вниз:
Преимущества: централизация, унификация и стандартизация.
Недостатки: его необходимо завершить за один раз, цикл длительный и стоимость высока, может возникнуть риск довести его до реконструкции;
Структура «снизу вверх»: сначала постройте самостоятельно разработанную витрину данных, а затем постройте хранилище данных на основе этой технологии.
2. Чистая архитектура хранилища данных
Структура проста. Данные, полученные из системы источника данных, преобразуются и загружаются в хранилище данных, а затем напрямую передаются во внешнее приложение данных через хранилище данных.
3. Чистая архитектура витрины данных
Глобального хранилища данных не существует. Приложениям обработки данных необходимо подключаться к одной или нескольким витринам данных для вызова данных.
Промежуточная форма хранилища данных
4. Архитектура виртуального хранилища данных
Единый источник данных, подключенный к приложению обработки данных, представляет собой лишь промежуточный уровень, который содержит правила и средства доступа к данным и их интеграции, а также обеспечивает представление виртуального хранилища данных для пользователей хранилища данных.
Интеграция данных происходит только тогда, когда пользователь запрашивает данные запроса, требования к реализации высоки;
Ключевые моменты построения банковских хранилищ данных
(1) Система хранилища данных должна в первую очередь отвечать требованиям штаб-квартиры и местных филиалов к хранению данных, запросам, статистике, анализу и т. д.
(2) При построении хранилища данных необходимо построить единый источник данных и единую архитектуру.
Обратите внимание на управление и унифицированный выпуск метаданных.
Обратите внимание на построение стандартизированных показателей продавца с едиными стандартами и единообразным калибром.
Создать механизм проверки данных, постоянно улучшать качество данных и укреплять управление данными во всех аспектах.
(3) Учитывая непрерывный рост бизнеса, план построения хранилища данных должен быть масштабируемым.
(4) Банковский бизнес предъявляет чрезвычайно высокие требования к доступности, и систему бизнес-информации невозможно легко отключить.