マインドマップギャラリー データサイエンスの理論と実践 第 4 章
データサイエンスとビッグデータ構造、データサイエンスとビッグデータ産業チェーンは、データ分析プラットフォーム、データサイエンスプラットフォーム、社会分析、機械学習などのデータリソースを含むビッグデータ分析の技術サポートを提供します。インキュベーター、学校、研究機関。
2023-10-21 15:49:41 に編集されましたテクノロジーとツール
データ科学技術システム
インフラストラクチャー
データ計算、データ管理・監視等を提供します。
分析ツール
データサイエンスとビッグデータ産業チェーンは、データ分析プラットフォーム、データサイエンスプラットフォーム、社会分析、機械学習などを含むビッグデータ分析の技術サポートを提供します。
エンタープライズアプリケーション
組織は、販売およびマーケティング、顧客サービス、人的資本、その他の特定のサービスを含む、エンタープライズレベルのアプリケーションテクノロジまたはツールを提供します。
産業用途
業界の一般的な問題を解決し、エンタープライズ アプリケーション向けのテクノロジー プラットフォームを提供します
クロスプラットフォームのインフラストラクチャと分析ツール
Microsoft などのクロスプラットフォーム インフラストラクチャとクロスプラットフォーム分析ツールを提供します。
オープンソースツール
技術設計フレームワーククエリデータフロー、データアクセス調整ストリーム処理統計ツール、人工知能機械学習ディープラーニング検索ログ分析可視化コラボレーションとセキュリティ
データソースとAPP
健康 モノのインターネット 金融・経済など
データリソース
データ リソースは、インキュベーター、学校、研究機関など、データを生成する機関を表します。
MapReduce
分散コンピューティング モデル
マップ関数
ユーザー定義のマップ関数は入力データ内のキーと値のペアを受け取り、マップ関数による計算の後、中間のキーと値のペアのセットが取得されます。
機能を減らす
ユーザー定義のreduce関数は、中間キー値と関連する一連の値を受け取ります。
Googleの3大論文
実装プロセス
主な特徴
マスタースレーブ構造で動作
map関数とreduce関数間のデータ処理
シャッフル処理
コンバイナ処理
パーティション関数
キー値型の入出力
フォールト トレランス メカニズムの複雑さ
ワーカーの失敗
マスター障害
データ保管場所の多様性
ソースファイル:GFS
マップ処理結果: ローカルストレージ
処理結果の再利用:GFS
ログ:GFS
タスクの粒度の重要性
タスクバックアップ機構の必要性
キーテクノロジー
パーティション関数
コンバイナ関数
破損したレコードをスキップする
ローカル実行
ステータス情報
カウンター
MapReduceの実装と改善
MRv1
プログラミングモデル
データ処理エンジン
実行時環境
展開が悪い
信頼性が低い
リソース使用率が低い
複数のコンピューティング フレームワークをサポートできない
ハドゥープ
Apache は、信頼性の高いスケーラブルな分散コンピューティングのためのオープンソース システム ライブラリの完全なセットを提供します
Hadoop MapReduce
手術
課題の提出
ジョブの初期化
プロセスとステータスの更新
宿題の完了
タスク
タスクの割り当て
タスクの実行
ジョブトラッカーとタスクトラッカー
入力スライス
データローカリゼーションの最適化
クライアントが MapReduce タスクを送信する
JobTracker はジョブの実行を調整します
TaskTracker は分割されたタスクを実行します
HDFS は、他のエンティティ間でジョブ ファイルを共有するために使用されます
HDFS
非常に大きなファイルをサポートする
商用ハードウェアに基づく
ストリーミングデータアクセス
高スループット
ハイブ
構造化データ ファイルをデータベース テーブルにマップし、単純な HiveQL クエリ関数を提供し、HiveQL ステートメントを実行用の MapReduce タスクに変換できます。
豚
データ分析用の記述言語であるピッグラテン語
プログラムが簡単
最適化が簡単
柔軟性
豚の実行環境
象使い
スケーラブルな機械学習アルゴリズムとその実装を提供する
HBase
構造化データ用のスケーラブルで信頼性の高い、高性能の分散型列指向の動的スキーマ データベース
HBase論理モデル
HBase物理モデル
動物園の飼育員
シンプルさ
自己複製
シーケンシャルアクセス
高速読み取り
フルーム
高信頼性
スケーラビリティ
便利な管理をサポート
ユーザーのカスタマイズをサポート
スクープ
スパーク
Hadoop の簡単な歴史
主な特徴
高速
多用途性
使いやすさ
技術構造
資源管理
スパークコア層
サービス層
基本的なプロセス
クラスター管理
キーテクノロジー
RDD
パーティションのセット
各パーティションを計算する関数
頼る
好きな場所
パーティショナー
変換
アクション
スケジューラ
DAGScheduler は実行計画の作成を担当します
TaskScheduler は、タスクの割り当てとワーカーの実行のスケジュールを担当します。
シャッフル
スパークR
データ型マッピング
セッションプロセスの再定義
複数のAPIを提供
カスタム分散実行機能をサポート
さまざまな R コードの編集および実行環境をサポート
ラムダアーキテクチャ
NoSQL と NewSQL
リレーショナル データベースの長所と短所
高いデータ一貫性
データ冗長性が低い
強力で複雑なクエリ機能と高い製品成熟度
NoSQLテクノロジー
データの分散ストレージと処理が容易
頻繁なデータ操作のコストは低く、単純なデータ処理は非常に効率的です。
データモデルが絶えず変化するアプリケーションシナリオに適しています
関係の雲
データ・モデル
データ配信
断片化
ビッグテーブル
マスター/スレーブ レプリケーション
ピアツーピアレプリケーション
データの一貫性
弱い一貫性
最終的な整合性
一貫性を更新する
読み取りと書き込みの一貫性
セッションの一貫性
CAP理論とBASE原則
応用
分散システムは、一貫性、可用性、およびパーティションのフォールト トレランスの要件を同時に満たすことはできません。これらの特性のうち、同時に満たせるのは最大でも 2 つだけです。
BASEの原則
NoSQL の実際のアプリケーションでは、一貫性と可用性を比較検討する必要があります
ビューと具体化されたビュー
マテリアライズドビュー
イベントトリガー
時間トリガー
Map ステージのマテリアライズド ビュー
Reduce フェーズの具体化されたビュー
トランザクションとバージョンのスタンプ
状態の更新
バージョンスタンプ
代表的な製品
RとPython
R 言語はベクトル化された計算をサポートします
R 言語 R パッケージを通じてデータ サイエンス タスクのプロフェッショナル レベルのサービスを呼び出す
主流の R パッケージの開発者は全員、統計、機械学習、その他のデータ分野の専門家です。
データレイクとレイクウェアハウスの統合
データ レイクは、自然な形式でデータを保存することに重点を置き、さまざまなスキーマや構造でのデータの構成をサポートするアプローチです。
データベース
データレイク
データ レイク ウェアハウス
開発動向
データコンピューティング層の開発動向
ソフトウェア、ハードウェア製品、または情報リソースをユーザーに販売する
ユーザーに代わってソフトウェアおよびハードウェア機器または情報リソースの管理と保守に責任を負います
データ管理の開発動向
データ管理の完璧主義者から現実主義者へ
Schema First から Schema First、Schema Later、Schemaless が共存します。
複雑な処理重視から単純な処理重視へ
強整合性の追求からデータ整合性の多様な理解へ
データ冗長性のマイナス効果の強調からデータ冗長性のプラス効果の強調へ
再現率・適合率の追求からクエリ応答速度重視へ
製品としてのデータベース管理システムからサービスとしてのデータベース管理システムへの移行
データ管理技術の標準化からデータ管理技術の多様化へ
単一テクノロジーのみへの依存から、複数のテクノロジーの統合へ
データサイエンスプラットフォーム
クラウドコンピューティングとは
経済
強力な計算
オンデマンドサービス
仮想化