ログイン
サインイン

データサイエンスの理論と実践第 4 章

データサイエンスとビッグデータ構造、データサイエンスとビッグデータ産業チェーンは、データ分析プラットフォーム、データサイエンスプラットフォーム、社会分析、機械学習などのデータリソースを含むビッグデータ分析の技術サポートを提供します。インキュベーター、学校、研究機関。

2023-10-21 15:49:41 に編集されました

WSUJfrxa

最近の作品その他の作品を表示>>

データサイエンスの理論と実践第 4 章

WSUJfrxa

最近の作品その他の作品を表示>>

おすすめ
アウトライン

ビッグデータとは何ですか
- 8
PlotWizard
Apache での Spark ホームページの簡単な紹介
- 18
PlotWizard
PESTモデル
- 15
WSUJfrxa
ビッグデータマインドマップ
- 8
WSUJfrxa
AI の大規模モデルと開発機会のマインドマップの最初の紹介
- 19
WSUJfrxa
Hadoop の概要
- 20
WSUJfrxa
データマイニングと分析テクノロジーのマインドマップ
- 15
WSUJfrxa
ビッグデータエンジニアのスキルマップ
- 38
WSUJfrxa
ビッグデータとデータサイエンス
- 17
WSUJfrxa
データの視点から採用業務をどう行うか
- 13
WSUJfrxa

テクノロジーとツール

データ科学技術システム

インフラストラクチャー

データ計算、データ管理・監視等を提供します。

分析ツール

データサイエンスとビッグデータ産業チェーンは、データ分析プラットフォーム、データサイエンスプラットフォーム、社会分析、機械学習などを含むビッグデータ分析の技術サポートを提供します。

エンタープライズアプリケーション

組織は、販売およびマーケティング、顧客サービス、人的資本、その他の特定のサービスを含む、エンタープライズレベルのアプリケーションテクノロジまたはツールを提供します。

産業用途

業界の一般的な問題を解決し、エンタープライズアプリケーション向けのテクノロジープラットフォームを提供します

クロスプラットフォームのインフラストラクチャと分析ツール

Microsoft などのクロスプラットフォームインフラストラクチャとクロスプラットフォーム分析ツールを提供します。

オープンソースツール

技術設計フレームワーククエリデータフロー、データアクセス調整ストリーム処理統計ツール、人工知能機械学習ディープラーニング検索ログ分析可視化コラボレーションとセキュリティ

データソースとAPP

健康モノのインターネット金融・経済など

データリソース

データリソースは、インキュベーター、学校、研究機関など、データを生成する機関を表します。

MapReduce

分散コンピューティングモデル

マップ関数

ユーザー定義のマップ関数は入力データ内のキーと値のペアを受け取り、マップ関数による計算の後、中間のキーと値のペアのセットが取得されます。

機能を減らす

ユーザー定義のreduce関数は、中間キー値と関連する一連の値を受け取ります。

Googleの3大論文

実装プロセス

主な特徴

マスタースレーブ構造で動作

map関数とreduce関数間のデータ処理

シャッフル処理

コンバイナ処理

パーティション関数

キー値型の入出力

フォールトトレランスメカニズムの複雑さ

ワーカーの失敗

マスター障害

データ保管場所の多様性

ソースファイル:GFS

マップ処理結果: ローカルストレージ

処理結果の再利用：GFS

ログ:GFS

タスクの粒度の重要性

タスクバックアップ機構の必要性

キーテクノロジー

パーティション関数

コンバイナ関数

破損したレコードをスキップする

ローカル実行

ステータス情報

カウンター

MapReduceの実装と改善

MRv1

プログラミングモデル

データ処理エンジン

実行時環境

展開が悪い

信頼性が低い

リソース使用率が低い

複数のコンピューティングフレームワークをサポートできない

ハドゥープ

Apache は、信頼性の高いスケーラブルな分散コンピューティングのためのオープンソースシステムライブラリの完全なセットを提供します

Hadoop MapReduce

手術

課題の提出

ジョブの初期化

プロセスとステータスの更新

宿題の完了

タスク

タスクの割り当て

タスクの実行

ジョブトラッカーとタスクトラッカー

入力スライス

データローカリゼーションの最適化

クライアントが MapReduce タスクを送信する

JobTracker はジョブの実行を調整します

TaskTracker は分割されたタスクを実行します

HDFS は、他のエンティティ間でジョブファイルを共有するために使用されます

HDFS

非常に大きなファイルをサポートする

商用ハードウェアに基づく

ストリーミングデータアクセス

高スループット

ハイブ

構造化データファイルをデータベーステーブルにマップし、単純な HiveQL クエリ関数を提供し、HiveQL ステートメントを実行用の MapReduce タスクに変換できます。

豚

データ分析用の記述言語であるピッグラテン語

プログラムが簡単

最適化が簡単

柔軟性

豚の実行環境

象使い

スケーラブルな機械学習アルゴリズムとその実装を提供する

HBase

構造化データ用のスケーラブルで信頼性の高い、高性能の分散型列指向の動的スキーマデータベース

HBase論理モデル

HBase物理モデル

動物園の飼育員

シンプルさ

自己複製

シーケンシャルアクセス

高速読み取り

フルーム

高信頼性

スケーラビリティ

便利な管理をサポート

ユーザーのカスタマイズをサポート

スクープ

スパーク

Hadoop の簡単な歴史

主な特徴

高速

多用途性

使いやすさ

技術構造

資源管理

スパークコア層

サービス層

基本的なプロセス

クラスター管理

キーテクノロジー

RDD

パーティションのセット

各パーティションを計算する関数

頼る

好きな場所

パーティショナー

変換

アクション

スケジューラ

DAGScheduler は実行計画の作成を担当します

TaskScheduler は、タスクの割り当てとワーカーの実行のスケジュールを担当します。

シャッフル

スパークR

データ型マッピング

セッションプロセスの再定義

複数のAPIを提供

カスタム分散実行機能をサポート

さまざまな R コードの編集および実行環境をサポート

ラムダアーキテクチャ

NoSQL と NewSQL

リレーショナルデータベースの長所と短所

高いデータ一貫性

データ冗長性が低い

強力で複雑なクエリ機能と高い製品成熟度

NoSQLテクノロジー

データの分散ストレージと処理が容易

頻繁なデータ操作のコストは低く、単純なデータ処理は非常に効率的です。

データモデルが絶えず変化するアプリケーションシナリオに適しています

関係の雲

データ・モデル

データ配信

断片化

ビッグテーブル

マスター/スレーブレプリケーション

ピアツーピアレプリケーション

データの一貫性

弱い一貫性

最終的な整合性

一貫性を更新する

読み取りと書き込みの一貫性

セッションの一貫性

CAP理論とBASE原則

応用

分散システムは、一貫性、可用性、およびパーティションのフォールトトレランスの要件を同時に満たすことはできません。これらの特性のうち、同時に満たせるのは最大でも 2 つだけです。

BASEの原則

NoSQL の実際のアプリケーションでは、一貫性と可用性を比較検討する必要があります

ビューと具体化されたビュー

マテリアライズドビュー

イベントトリガー

時間トリガー

Map ステージのマテリアライズドビュー

Reduce フェーズの具体化されたビュー

トランザクションとバージョンのスタンプ

状態の更新

バージョンスタンプ

代表的な製品

RとPython

R 言語はベクトル化された計算をサポートします

R 言語 R パッケージを通じてデータサイエンスタスクのプロフェッショナルレベルのサービスを呼び出す

主流の R パッケージの開発者は全員、統計、機械学習、その他のデータ分野の専門家です。

データレイクとレイクウェアハウスの統合

データレイクは、自然な形式でデータを保存することに重点を置き、さまざまなスキーマや構造でのデータの構成をサポートするアプローチです。

データベース

データレイク

データレイクウェアハウス

開発動向

データコンピューティング層の開発動向

ソフトウェア、ハードウェア製品、または情報リソースをユーザーに販売する

ユーザーに代わってソフトウェアおよびハードウェア機器または情報リソースの管理と保守に責任を負います

データ管理の開発動向

データ管理の完璧主義者から現実主義者へ

Schema First から Schema First、Schema Later、Schemaless が共存します。

複雑な処理重視から単純な処理重視へ

強整合性の追求からデータ整合性の多様な理解へ

データ冗長性のマイナス効果の強調からデータ冗長性のプラス効果の強調へ

再現率・適合率の追求からクエリ応答速度重視へ

製品としてのデータベース管理システムからサービスとしてのデータベース管理システムへの移行

データ管理技術の標準化からデータ管理技術の多様化へ

単一テクノロジーのみへの依存から、複数のテクノロジーの統合へ

データサイエンスプラットフォーム

クラウドコンピューティングとは

経済

強力な計算

オンデマンドサービス

仮想化

データサイエンスの理論と実践 第 4 章

データサイエンスの理論と実践 第 4 章

データサイエンスの理論と実践第 4 章

データサイエンスの理論と実践第 4 章