MindMap Gallery 数据科学理论与实践第四章
数据科学与大数据结构,数据科学和大数据产业链提供大数据分析类的技术支持,包括数据分析平台,数据科学平台,社会分析,机器学习等;数据资源代表的是生成数据的机构,包括孵化器,学校及研究机构。
Edited at 2023-10-21 15:49:41Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
技术与工具
数据科学的技术体系
基础设施
提供数据计算,数据管理与监控等
分析工具
数据科学和大数据产业链提供大数据分析类的技术支持,包括数据分析平台,数据科学平台,社会分析,机器学习等
企业应用
组织机构提供企业级应用技术或工具,包括销售营销,客户服务,人力资本等具体服务
行业应用
解决行业共性问题并为企业应用提供技术平台
跨平台基础设施和分析工具
提供跨平台型基础设施和跨平台分析工具,例如微软等
开源工具
技术设计框架查询数据流,数据访问协调流处理统计工具,人工智能机器学习深度学习搜索日志分析可视化协作和安全
数据源与APP
健康物联网金融与经济等
数据资源
数据资源代表的是生成数据的机构,包括孵化器,学校及研究机构
MapReduce
一种分布式计算模型
map函数
用户自定义的map函数接收输入数据中的键值对,对经过map函数的计算,得出一个中间键值对集合
reduce函数
用户自定义的reduce函数接收一个中间key值和一个相关的value值的集合
Google三大论文
实现过程
主要特征
以主从结构的形式运行
map函数与reduce函数之间的数据处理
Shuffle处理
combiner处理
partition函数
key value类型的输入输出
容错机制的复杂性
Worker故障
Master故障
数据存储位置的多样性
源文件:GFS
Map处理结果:本地存储
Reduse处理结果:GFS
日志:GFS
任务粒度大小的重要性
任务备份机制的必要性
关键技术
分区函数
combiner函数
跳过损坏记录
本地执行
状态信息
计数器
MapReduce的实现和改进
MRv1
编程模型
数据处理引擎
运行时环境
扩张性差
可靠性差
资源利用率低
无法支持多种计算框架
Hadoop
Apache提供了面向可靠可扩展和分布式计算的一整套开源系统库
Hadoop MapReduce
作业
作业的提交
作业的初始化
进程和状态的更新
作业的完成
任务
任务的分配
任务的执行
jobTracker和TaskTracker
输入切片
数据本地化优化
Client提交MapReduce任务
JobTracker协调作业的运行
TaskTracker运行作业划分后的任务
HDFS用来在其他实体之间共享作业文件
HDFS
支持超大文件
基于商用硬件
流式数据访问
高吞吐量
Hive
可以将结构化的数据文件映射为一张数据库表,并提供简单的HiveQL的查询功能,以及将HiveQL语句转化为MapReduce任务进行运行
Pig
Pig Latin语言,数据分析的描述语言
易于编程
易于优化
灵活性
Pig执行环境
Mahout
提供可扩展的机器学习算法及其实现
HBase
面向结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库
HBase的逻辑模型
HBase的物理模型
ZooKeeper
简单性
自我复制
顺序访问
高速读取
Flueme
高可靠性
可扩展性
支持方便管理
支持用户自定义
Sqoop
Spark
与Hadoop简史
主要特点
速度快
通用性
易用性
技术结构
资源管理层
Spark核心层
服务层
基本流程
集群管理
关键技术
RDD
一组分区
一个计算每个分区的函数
依赖
PreferredLocation
Partitioner
Transformation
Action
Scheduler
DAGScheduler负责创建执行计划
TaskScheduler负责分配任务并调度Worker的运行
Shuffle
SparkR
数据类型的映射
会话过程的重定义
提供多种API
支持自定义的分布式运行函数
支持多种R代码的编辑和运行环境
Lambda架构
NoSQL与NewSQL
关系数据库的优点和缺点
数据一致性高
数据冗余度低
复杂查询能力强产品成熟度高
NoSQL技术
易于数据的分散存储与处理
数据的频繁操作代价低以及数据的简单处理效率高
适用于数据模型不断变化的应用场景
关系云
数据模型
数据分布
分片
BigTable
主从复制
对等复制
数据一致性
弱一致性
最终一致性
更新一致性
读写一致性
会话一致性
CAP理论与BASE原则
应用
一个分布式系统不能同时满足一致性,可用性和分区容错性等需求,最多只能同时满足其中的两个特征
BASE原则
NoSQL实际应用中需要权衡一致性与可用性
视图与物化视图
物化视图
事件触发型
时间触发型
Map阶段的物化视图
Reduce阶段的物化视图
事务与版本戳
条件更新
版本戳
典型产品
R与Python
R语言支持向量化计算
通过R语言调用面向数据科学任务的专业级服务 R包
主流R包的开发者都是统计学,机器学习等数据领域的大牛
数据湖与湖仓一体化
数据湖是一种强调,以自然格式存储数据的方法,支持以各种模式和结构形式配置数据
数据仓库
数据湖
数据湖仓
发展趋势
数据计算层的发展趋势
向用户出售软硬件产品或信息资源
负责代替用户管理和维护其软硬件设备或信息资源
数据管理层的发展趋势
从数据管理的完美主义者到现实主义者的转变
从模式在先Schema First到模式在先,模式在后Schema Later和无模式Schemaless并存
从对复杂处理的关注,到对简单处理的重视
从强一致性的追求到数据一致性的多样化认识
从强调数据冗余的负面影响,到重视数据冗余的正面影响
从对查全率和查准率的追求,到对查询响应速度的重视
从数据库管理系统即产品到数据库管理系统即服务的转变
从数据管理技术的标准化,到数据管理技术的多样化
从仅靠单一技术到多种技术相互融合
数据科学平台
云计算是什么
经济性
强性计算
按需服务
虚拟化