心智圖資源庫 大數據心智圖
這是一篇關於大數據心智圖,大數據導論,幫助讀者係統了解大數據,介紹詳細、描述全面、希望能對感興趣的小伙伴學習提供幫助。
編輯於2023-12-03 18:04:17大數據
大數據概述
大數據時代
網路與大數據
互聯網產生
互聯網催生大數據
資訊科技與大數據
資訊採集技術
資訊儲存技術
資訊處理技術
資訊傳輸技術
雲端運算與大數據
物聯網與大數據
大數據的概念
狹義的大數據
用現有的一般技術難以管理的大量數據的集合
廣義的大數據
大數據是指在資訊爆炸時代所產生的巨量數據或大量數據,並由此引發的一系列技術及認知觀念的變革
大數據的特徵
數據量大Volume
儲存量大
增量大
數據種類多Variety
來源多
格式多
數據速度快Velocity
高度數據
資料價值密度低Value
發展大數據的意義
大數據時代的思維變革
大數據及其本質
數據作為資訊表達方式,是物質與意識共同作用的結果
數據具有客觀實在性
大數據時代的三大轉變
大數據時代的全數據模式
接受數據的混雜性
允許不精準
紛繁數據越多越好
混雜性是標準途徑
新的資料庫設計
突出數據的相關性而不是因果性
關聯物是預測的關鍵
探求“是什麼”而不是“為什麼”
透過因果關係了解世界
大數據成為競爭優勢
大數據應用需求增多
大數據應用程式興起
即時回應是大數據用戶的新需求
企業建構大數據策略
大數據的採集與存儲
大數據的分類
結構化資料
傳統關係型資料庫數據,行數據
半結構化數據
和普通純文字相比有一定的結構性,但和具有嚴格理論模型的關係資料庫的資料相比靈活
特徵
結構資料自描述性
無需區分元數據和一般數據
資料結構描述的複雜性
資料結構描述的動態性
非結構化數據
不會使用資料庫二維表來表現,如圖片、文件、超媒體
資料處理主要包括
web頁面資訊內容的擷取
結構化處理(含文本的詞彙切分、詞性分析、歧義處理)
語意處理(實體擷取、字彙相關度分析、句子相關度分析)
文本建構(含向量空間模型、主題模型)
大數據環境下的資料來源
傳統商業數據
以結構化資料為主
企業ERP系統、POS終端及線上支付系統
網路數據
網路空間互動過程中產生的大量數據,包括社群媒體和通訊記錄
有大量化、多樣化和快速化的特點
物聯網數據
在電腦互聯網的基礎上,利用射頻識別RFID、感測器、紅外線感應器、無線數據通訊等技術構造一個覆蓋世界上萬事萬物的the internet of things
有數據量更大、傳輸速率更高、數據更加多樣化以及對數據真實性要求更高
常用的數據採集方法
系統日誌
Scribe
Facebook公司開源的日誌收集系統
組成
Scribe Agent
Scribe
DB儲存系統
Chukwa
組成
適配器
代理商
收集器
多路分配器
儲存系統
數據展示
Flume
是Cloudera公司提供的分散式、可靠且高可用的海量日誌擷取、聚合和傳輸系統
網頁資料
組成
採集模組
資料處理模組
數據模組
爬取策略
深度優先遍歷
寬度優先遍歷
反向連結數策略
OPIC策略
大站優先策略
其他數據
大數據時代的儲存管理系統
檔案系統
檔案系統是作業系統中的一部分,用於組織和管理電腦上的檔案和目錄
傳統的檔案系統如NTFS、EXT4等可以用於小規模的資料存儲,但在大數據處理中可能面臨效能瓶頸
分散式檔案系統
它將資料分佈在多個儲存節點上,透過網路連接這些節點,實現高可靠性、高吞吐量和可擴展性
一些常見的分散式檔案系統包括Hadoop HDFS、Google的GFS(Google File System)和Ceph等
資料庫系統
資料庫系統是一種用於儲存、管理和檢索結構化資料的軟體系統
如Apache HBase、Apache Cassandra和MongoDB等
這些資料庫系統通常採用分散式架構,具有高可擴展性和容錯性
雲端儲存
雲端儲存是將資料儲存在雲端運算環境中的解決方案。它提供了可靠的、可擴展的儲存服務,使用戶可以透過互聯網存取和管理其數據
結構模型
儲存層
基礎管理層
應用介面層
訪問層
數據視覺化
數據視覺化概述
什麼是數據視覺化
視覺化的發展歷程
數據視覺化分類
科學視覺化
資訊視覺化
視覺化分析學
數據視覺化圖表
散點圖
氣泡圖
折線圖
長條圖
熱力圖
雷達圖
其他
漏斗圖
樹圖
關係圖
詞雲
桑基圖
日曆圖
數據視覺化工具
入門級
excel
資訊圖表工具
canva
visem
谷歌 charts
piktochart
venngage
D3
Echarts
大數據魔鏡
地圖工具
My maps
batchgeo
fusion tables
mapshaeper
cartoDB
mapbox
Map stack
modest maps
時間軸工具
timetoasyt
xtimeline
tumeline maker
進階分析工具
R
Pythome
Weka
Gephi
即時視覺化
支撐大數據的技術
開源技術的商業支援
大數據的技術架構
基礎層
管理階層
分析層
應用層
大數據處理平台
Hadoop
特性
高可靠性
採用冗餘資料儲存方式
高效率
採用分散式儲存與分散式處理兩大核心技術,高效處理PB級數據
高可擴展性
高容錯性
成本低
運行在linux平台啥
基於JAVA開發
支援多種程式語言
核心組件
Hadoop分散式檔案系統(Hadoop Distributed File System,HDFS)
HDFS是Hadoop的儲存層,用於在大規模分散式環境中儲存數據
HDFS儲存資料的優缺點
1. 優點
高可靠性:HDFS透過資料冗餘和容錯機制提供高可靠性。它將檔案資料分割成多個資料塊,並在叢集中的多個節點上複製多個副本。如果某個節點發生故障,可以從其他節點恢復遺失的資料副本。
高可擴展性:HDFS可以在大規模叢集上儲存和處理大量資料。它支援水平擴展,可以透過增加額外的節點來增加儲存容量和處理能力,以滿足不斷增長的資料需求。
適應大檔案儲存:HDFS適用於儲存大文件,因為它將檔案切割成固定大小的資料塊進行儲存。這種方式有助於提高資料處理效率,並減少了元資料的開銷。
高吞吐量:HDFS優化了資料存取和傳輸的方式,透過平行讀寫和資料本地性原則,實現了高吞吐量的資料存取。這使得HDFS在大數據處理和分析任務中表現出色。
2. 缺點:
低延遲存取:HDFS的設計目標是處理大數據集的批次任務,而不是即時資料存取。因此,對於需要低延遲回應的應用場景(如線上事務處理),HDFS的存取延遲相對較高。
不適合小文件儲存:由於HDFS將文件切割成資料塊進行存儲,對於大量的小文件,會導致儲存開銷增加和元資料管理複雜化。因此,HDFS並不適合儲存大量小檔案。
一致性和即時性:HDFS採用了最終一致性模型,這意味著對於相同文件的並發寫入操作可能導致資料一致性問題。此外,HDFS也不適合需要即時資料存取和更新的應用程式場景。
Hadoop YARN(Yet Another Resource Negotiator)是Hadoop的資源管理與作業排程框架
MapReduce是Hadoop的計算模型,用於處理大規模資料集的平行計算
生態系統
Hive是一個資料倉儲基礎設施,提供類似SQL的查詢語言(HiveQL)來處理和分析儲存在Hadoop中的數據
Pig是一個用於大規模資料處理的平台,提供一種名為Pig Latin的腳本語言。 Pig Latin語言是一種資料流語言,可用來描述資料的轉換操作和分析流程。
HBase是一個分散式的面向列的NoSQL資料庫,建立在Hadoop的HDFS之上。它提供即時讀寫存取大規模結構化資料的能力,並具有高可擴展性和高可靠性
Spark是一個快速、通用的大數據處理引擎,可以在記憶體中進行大規模資料集的平行計算
Sqoop是用來在Hadoop和關聯式資料庫之間進行資料傳輸的工具。它可以將關係型資料庫中的資料匯入Hadoop進行分析,並將Hadoop中的結果資料匯出到關係型資料庫中
Flume是一個可靠、可擴展的大數據採集系統,用於從各種資料來源(如日誌檔案、感測器資料等)收集、聚合和移動資料到Hadoop。
應用場景
系統日誌分析
使用者習慣分析
Storm
特性
完整性
acker機制,資料不遺失
容錯性
易用性
免費和開源
支援多種語言
核心組件
Topology(拓樸)
Spout(資料來源)
Bolt(處理組件)
Stream(資料流)
Nimbus(主節點)
Supervisor(工作節點)
ZooKeeper(分散式協調服務)
應用場景
資訊流處理
連續計算
分散式遠端程式調用
Spark
特性
快速性
彈性擴展性
多種計算模型
多語言支援
綜合性
架構
Driver是Spark應用程式的主要組件,驅動器程式運行在一個獨立的進程中,負責整個Spark應用程式的控制和協調
Cluster Manager負責管理Spark應用程式在叢集上的資源調度和任務分配
Executor是在叢集中的工作節點上運行的進程,負責執行具體的任務。
RDD是Spark的核心資料抽象,它是一個可分割、可並行操作的不可變資料集合。
DAG調度器負責將Spark應用程式中的操作轉換為有向無環圖(DAG),並進行最佳化和調度
Task Scheduler負責將Stage中的任務分配給可用的Executor進行執行
在Spark應用程式中,當需要進行資料重洗(Shuffle)操作時,資料會在不同的Executor之間進行網路傳輸和重新分配
擴充功能
Spark SQL是Spark的結構化查詢模組,提供了處理結構化資料的高階API和查詢語言
Spark Streaming是Spark的串流處理模組,用於即時處理和分析資料流
MLlib是Spark的機器學習庫,提供了一系列的機器學習演算法和工具,用於資料探勘、預測分析和模型訓練
GraphX是Spark的圖計算庫,用於處理大規模圖資料和圖演算法
SparkR是Spark的R語言接口,使得R語言使用者可以使用Spark進行大規模資料處理與分析
應用場景
多次操作特定資料集的應用場景
粗粒度更新狀態應用
資料量不是特別大,但適合即時統計分析的需求應用
三者的比較
資料處理模型
Hadoop適用於離線的大規模資料處理任務,主要用於大量資料的儲存和分析
Spark支援批次、即時串流處理、互動式查詢和機器學習等多種資料處理模型
Storm是一個即時串流處理框架,用於處理連續的資料流
執行速度
由於Hadoop採用磁碟儲存和MapReduce的批次模型,適合處理大規模的離線數據,但對於即時性要求較高的場景,速度可能較慢
Spark透過記憶體運算和基於RDD的資料抽象,它可以將資料保留在記憶體中進行迭代計算,適用於需要更高效能和互動性的資料處理任務
Storm專注於即時串流處理,具有低延遲和高吞吐量的特點,適合對即時資料進行快速處理和分析
資料處理能力
Hadoop提供了可靠的分散式檔案系統(HDFS)和可擴展的MapReduce運算模型,適用於大量資料的儲存和批次處理。它具有良好的容錯性和數據可靠性
Spark提供了更豐富的資料處理能力,支援批次、即時串流處理、互動式查詢和機器學習等多種模型。它也提供了高階API和函式庫(如Spark SQL、Spark Streaming和MLlib),簡化了大數據處理和分析的開發
Storm專注於即時串流處理,提供了可靠的訊息傳遞和串流拓撲處理模型。它可以即時處理大規模的資料流,並支援複雜的流處理邏輯
生態系統和支持
Hadoop擁有廣泛的生態系統和大量的工具和元件,如Hive、Pig和HBase等,可以進行更高層級的資料處理和分析。它有成熟的社區和廣泛的支持
Spark也有活躍的開源社群和豐富的生態系統,支援多種資料處理和機器學習任務。它與Hadoop生態系統整合緊密,可以與HDFS、Hive和其他Hadoop組件無縫協作
Storm的生態系統相對較小,主要專注於即時串流處理領域。它提供了一些與其他工具和系統整合的插件,如Kafka和Cassandra
雲端運算
雲端運算的概念與特點
概念
雲端運算是一種動態擴展的運算模式,透過網路虛擬化的資源作為服務他提供給用戶
特點
超大規模
虛擬化
高可靠性
通用性
高可擴展性
按需服務
極度廉價
雲端運算的主要部署模式
公有雲
公有雲是由第三方服務供應商(如亞馬遜AWS、微軟Azure和Google雲端平台)建立和管理的雲端運算基礎設施
私有雲
私有雲是由組織自行建立和管理的雲端運算基礎設施,用於支援其內部業務需求
混合雲
混合雲是公有雲和私有雲的結合,透過連接和整合這兩種雲端環境來提供更靈活和多樣化的解決方案。在混合雲中,組織可以根據需求將工作負載和應用程式部署到公有雲或私有雲中
雲端運算的主要服務模式
基礎設施即服務(Infrastructure as a Service,IaaS)
IaaS是雲端運算中最基礎的服務模式,它提供了虛擬化的運算資源、儲存和網路等基礎設施
常見的IaaS供應商包括亞馬遜AWS的EC2、微軟Azure的虛擬機器服務和谷歌雲端平台的Compute Engine等
平台即服務(Platform as a Service,PaaS)
PaaS提供了在雲端環境中開發、運行和管理應用程式的平台
常見的PaaS供應商包括微軟Azure的App Service、Google雲端平台的App Engine和Heroku等
軟體即服務(Software as a Service,SaaS)
SaaS是雲端運算中最高層次的服務模式,它提供了完全託管的應用程序,用戶透過互聯網直接存取和使用這些應用程式
常見的SaaS應用程式包括電子郵件服務(如Gmail)、線上辦公室套件(如Microsoft 365和Google Workspace)以及客戶關係管理(CRM)系統(如Salesforce)
雲端運算的主要技術
虛擬化技術
虛擬化技術可以實現伺服器虛擬化、儲存虛擬化和網路虛擬化等,使得雲端運算平台能夠實現資源的彈性分配和管理
中介軟體技術
中間件技術在雲端運算中扮演連接和協調不同元件和服務的角色。它提供了一系列的軟體工具和服務,用於管理和調度應用程式的部署、配置和執行
中間件技術還包括負載平衡、容器技術、訊息佇列和服務編排等,用於提供高可用性、可擴展性和靈活性的雲端運算環境
雲端儲存技術
雲端儲存技術是用於儲存和管理大規模資料的技術
雲端運算與大數據的關係
雲端運算提供了強大的運算和儲存資源、彈性和成本效益的優勢,為大數據處理和分析提供了理想的基礎設施和工具
雲端運算為大數據的儲存、處理和分析提供了高效、靈活和可擴展的解決方案,促進了大數據技術的發展和應用
應用
商業大數據
精準行銷
資料收集與整合
使用者畫像構建
目標市場區隔
預測分析與模型構建
個性化行銷活動執行
結果評估和優化
決策支持
概念
決策支援是一種資訊科技和管理科學相結合的方法,旨在為決策者提供決策所需的資訊、工具和模型。
它透過分析和解釋數據、提供決策模型和演算法、以及提供視覺化和互動介面等方式,幫助決策者進行決策。
分類
結構化決策
非結構化決策
半結構化決策
行程步驟
發現問題並形成決策目標
用機率定量地描述每個方案所產生的各種結局的可能性
決策人員對各種結局進行定量評價
綜合分析各方面信息
決策支援系統的功能
資料管理與整合:收集、整合和管理與決策相關的資料。
模型和演算法支援:提供各種決策模型和演算法,用於分析和預測。
視覺化和互動介面:透過視覺化展示和互動介面,幫助決策者理解和操作數據。
場景模擬和最佳化:支援對不同決策方案進行模擬和最佳化,評估其潛在效果。
協作和共享:支援決策團隊的協作和資訊共享,促進集體決策過程。
創新模式
概念
創新模式是指用於創新和改變現有商業模式的方法和策略。它關注如何透過創意運用資源、技術、市場洞察和商業邏輯,為市場提供新的價值主張並獲得競爭優勢
構成條件
提供全新的產品與服務、開創新的產業領域
其商業模式至少有多個要素不同於其他企業
有良好的業績表現
方法
改變收入模式
訂閱模式:將產品或服務提供為訂閱模式,透過定期收取費用來獲取穩定的收入流。
廣告模式:將產品或服務提供免費或低價,透過廣告收入來獲取利潤。
Freemium模式:提供基本功能的免費版本,同時提供高級功能的付費版本,透過付費用戶來獲取收入。
資料銷售模式:將收集到的資料進行分析和加工,然後出售給其他組織或個人。
交易平台模式:建立線上平台,連結買家和賣家,透過交易佣金或手續費來獲取收入。
改變企業模式
開放創新模式:與外部合作夥伴、社群和創新生態系統合作,共同開發和推廣新的產品或服務。
平台模式:建構平台和生態系統,引進多方參與,促進創新和價值共創。
網路化模式:透過網路和數位技術,實現組織內外的協作和資訊共享,提高效率和靈活性。
社會企業模式:將社會和環境責任融入商業模式,追求社會價值和永續發展。
雙邊市場模式:建立雙邊市場,同時吸引供應商和消費者,透過平衡雙方的需求來實現價值創造。
改變產業模式
平台化模式:透過建構平台和生態系統,整合產業鏈上下游的參與者,實現協同創新和價值共創。
共享經濟模式:透過共享資源和服務,提高資源利用效率,滿足使用者的需求。
自助服務模式:利用自動化和數位化技術,提供自助服務和自助互動的方式,降低成本和提高效率。
生態系統模式:建構產業生態系統,整合不同企業與組織,實現資源共享與協同發展。
智慧化模式:應用人工智慧、物聯網等技術,提供智慧化產品與服務,改變產業的商業邏輯與運作方式。
改變技術模式
平台技術模式:建構開放的技術平台,吸引開發者和合作夥伴,實現技術的共享和創新。
雲端運算模式:將運算和儲存資源提供為雲端服務,以彈性和按需方式滿足用戶需求。
邊緣運算模式:將運算和資料處理推向網路邊緣,提高回應速度和資料隱私性。
區塊鏈模式:利用區塊鏈技術,實現去中心化和可信賴的交易記錄和合約執行。
AI驅動模式:將人工智慧技術應用於產品或服務中,提供智慧化功能和個人化體驗。
維度
策略定位創新
關注的是企業在市場中的位置和角色
方法
目標市場轉移:將目標市場從傳統市場轉移到新興市場或不同的市場區隔。
差異化定位:透過提供獨特的產品、服務或體驗,從競爭對手中脫穎而出。
品牌創新:重新定義品牌形象和價值主張,以吸引新的受眾和市場。
資源能力創新
著重於企業的內部資源和能力
方法
技術創新:開發和應用新的技術,以改善產品、服務或業務流程。
人才發展:培養和吸引具有新技能和知識的人才,以支持創新和業務成長。
合作夥伴關係:與外部合作夥伴合作,共享資源和能力,實現互補優勢。
商業生態環境創新
關注的是企業與外在環境的關係與互動
方法
開放創新:與外部合作夥伴、新創公司和社群合作,共同開發新的產品或服務。
生態系統建構:建構平台和生態系統,吸引多方參與者,實現價值共創與分享。
社會責任:將社會和環境責任納入商業模式,追求永續發展和共享價值。
混合商業模式創新
涉及不同商業模式的結合和整合
方法
平台化模式:建構平台和生態系統,整合多個商業模式,促進多方合作與創新。
垂直整合:在價值鏈上下游整合不同的商業活動,以實現更高的控制和效率。
多元化擴展:將現有產品或服務擴展到新的市場或產業,以實現成長和多樣化。
民生大數據
1. 智慧醫療:
智慧醫療利用資訊科技和大數據分析來改善醫療服務和健康管理。它可以包括電子健康記錄、遠距醫療、醫療數據分析等。智慧醫療的目標是提高醫療效率、提供個人化的醫療服務、改善醫療品質和病患體驗。
2. 智慧交通:
智慧交通利用資訊和通訊技術來優化交通系統的運作和管理。它可以包括交通數據採集、智慧交通號誌控制、交通流預測、智慧交通管理系統等。智慧交通的目標是提高交通效率、減少交通擁堵和事故,並提供更便利、安全和環保的出行方式。
3. 智慧旅遊:
智慧旅遊利用資訊科技和大數據分析來提供更智慧和個人化的旅遊服務。它可以包括旅遊資訊平台、智慧導覽系統、旅遊數據分析等。智慧旅遊的目標是提供更好的旅遊體驗、提高旅遊資源的利用效率,並促進旅遊業的永續發展。
4. 智能物流:
智慧物流利用物聯網、大數據和人工智慧等技術來優化物流供應鏈的管理和運作。它可以包括智慧倉儲、智慧運輸、智慧配送等。智慧物流的目標是提高物流效率、降低成本、提升物流服務質量,並滿足快速變化的市場需求。
5. 食品安全
食品安全關注食品的品質和安全問題,涉及食品生產、加工、運輸和銷售等環節。利用大數據分析和物聯網技術,可以即時監測食品的來源、品質和安全狀況,提升食品追溯能力,防止食品安全事件的發生,並保障消費者的健康與權益
6. 教育大數據
教育大數據利用大數據分析技術研究和改善教育領域的教學、學習和管理。透過收集和分析學生的學習數據、教師的教學數據等,可以了解學生的學習狀況和需求,優化教學方法和資源配置,提供個人化的學習支援和指導。
工業大數據
智慧裝備
智慧裝備是指透過整合感測器、控制系統和數據分析等技術,使傳統的工業設備具備感知、分析和決策能力
智慧裝備可以即時監測設備狀態、預測故障、優化運作參數,並支援自動化和智慧化的生產流程
智慧工廠
智慧工廠是利用先進的資訊技術和自動化技術來實現生產過程的智慧化和自動化
智慧工廠透過整合各種智慧裝備、物聯網、大數據分析等技術,實現生產流程的最佳化、靈活性與永續發展
智慧服務
智慧服務是指透過運用先進的技術和數據分析,為客戶提供個人化、智慧化的服務
在工業領域,智慧服務可以包括預測性維護、遠端監控、故障診斷等
政務大數據
輿情分析
指對社會輿論和公眾情緒進行系統性收集、分析和評估的過程。政府可以透過輿情分析來了解公眾對政府政策、事件和服務的態度和回饋
精細化管理與服務
指透過利用政務大數據和先進技術,對城市和社會進行更精細、個人化的管理和服務
緊急應變計畫處置
指在突發事件和災害發生時,政府根據預先制定的緊急應變計畫,進行快速、有效的應變和處置
安全大數據
網路資訊安全
指保護網路和資訊系統免受未經授權的存取、破壞、洩漏和篡改的安全措施。網路資訊安全涉及網路架構、資料加密、存取控制、漏洞管理、威脅偵測等方面
自然災害預警
指透過收集、分析和解釋各種相關數據,提前發現和預測自然災害的發生和發展趨勢,以便採取相應的防範和應對措施
大數據的未來
數據市場的興起
Infohimps
Factual
Windows Azure Marketplace
Public Data Sets on AWS
將原創數據變成加值數據
消費者的隱私保護