心智圖資源庫 大數據知識樹
大數據架構, 概念及內容, 用於梳理知識結構,包含hadoop平台,數倉結構,hive等。
編輯於2024-04-18 16:59:36大數據知識樹
數據來源
概述
內部
埋點
概述
對比
流程
維度
文件
案例
外部
競爭對手
爬蟲
國家統計局
友商提供
資料倉儲 DW
簡介
資料倉儲(Data Warehouse),簡稱DW。資料倉儲顧名思義,是⼀個很⼤的資料儲存集合,出於企業的分析性報告與決策⽀持⽬的⽽創建,對多樣的業務資料進⾏篩選與整合。它為企業提供⼀定的BI(商業智慧)能⼒,指導業務流程改善。
作用
儲存
提取
跨部門應用
特徵
面向主題
整合
穩定不易丟失
反映歷史變化
圖示
對比資料庫
資料庫
OLTP
On-line Transaction Processing
線上事務處理
資料倉儲
OLAP
On-line Transaction Processing
線上分析處理
對比表
架構
設計目標
分層架構
元資料管理
資料治理
髒數據
治理原則
Hadoop平台
簡介
⼤資料的分散式儲存與運算平台
優點
⾼可靠性
Hadoop按位儲存處理資料的能⼒值得⼈們信賴
⾼擴展性
Hadoop是在可⽤的電腦叢集間分配資料並完成運算任務,這些叢集可以⽅便地擴展到數以千計的節點中
⾼效性
Hadoop能夠在節點之間動態地移動數據,並保持各個節點的動態平衡,因此處理速度⾮常快
⾼容錯性
Hadoop能夠⾃動保存資料的多個副本,並且能夠⾃動將失敗的任務重新分配
低成本
Hadoop是開源的,項⽬的軟體成本因⽽得以⼤⼤降低
生態圈
概覽
分類
HDFS
全稱
Hadoop Distributed File System
原理
將⽂件切分成固定⼤⼩的資料塊block,預設的固定⼤⼩是128MB
分散式儲存
統一存取介面
NameNode
優點
分散式儲存
⽀持分散式和併⾏計算
⽔平可伸縮性
基本組件
HDFS Client
提供命令管理HDFS
NameNode
管理整個檔案系統的元資料 , 工作職責:管理元資料、維護目錄結構、回應客戶端請求
DataNode
複製管理使用者的文件資料區塊, 工作職責:管理使用者提交的資料 心跳機制 區塊報告
SecondaryNameNode
NameNode的助理,幫助載入元數據,緊急情況下(例如NameNode宕機),可以幫助恢復數據
四大機制
心跳機制
Master/Slave結構
Master
NameNode
Slave
DataNode
預設DataNode向NameNode發送請求的時間間隔為3s
NameNoder如果長時間沒有接收到DataNode的心跳,也會每隔一段時間(5min)向DataNode發送請求,總共會發兩次
安全模式
HDFS叢集正常冷啟動時,NameNode也會在safemode狀態下維持相當長一段時間,等待它自動退出安全模式即可
副本存放策略
將每個檔案的資料進行分塊存儲,每個資料塊有保存有多個副本,這些資料塊副本分佈在不同的機器節點上
負載平衡
機器容量最高的那個值和最低的那個值差距不能超過10%
圖示
MapReduce
作用
分散式運算
策略
分而治之
理念
計算向資料靠攏而不是資料向計算靠攏
原理
Map
將⼀個任務分解成為多個任務
Reduce
將分解後多工處理的結果總結起來,得到最後的分析結果
圖示
數倉分層
好處
結構清晰
每一個資料分層都有它的作用域和職責,在使用表格的時候能更方便地定位和理解
減少開發
規範數據分層,開發一些通用的中間層數據,能夠減少極大的重複計算
統一口徑
透過資料分層,提供統一的資料出口,統一對外輸出的資料口徑
簡化問題
將一個複雜的任務分解成多個步驟來完成,每一層解決特定的問題
結構
案例
電商網站數倉
hive
起源
Hive是Facebook為了解決海量日誌資料的統計分析而開發的基於Hadoop的一個資料倉儲工具(後來開源給了Apache軟體基金會)
功能
可以將結構化的資料檔案對應為資料庫表,並提供類別SQL查詢功能
特點
Hive 本身不支援資料儲存和處理,只是一個使用者導向的程式介面
Hive 依賴分散式檔案系統HDFS儲存數據
Hive 依賴分散式並行計算模型MapReduce 處理數據
借鑒SQL語言設計了新的查詢語言HiveQL
查詢原理