(1) データの規模が大きく、単一マシンまたは小規模なコンピューティング クラスターの処理能力を超えています。しかし、現在のソフトウェアやツールは効率的ではないため、この問題を解決するには新しいアイデアを模索する必要があります。
(2) データの取得、分析、処理の過程では、データ品質の問題が発生しやすく、データの不確実性には特別な注意を払う必要があります。
(3) データは急速かつ動的に変化し、ストリーミング データの形式で存在することがよくあります。ストリーミング データのリアルタイム分析および視覚化方法を見つける必要があります。
(4) 複雑かつ高次元のデータに直面する現在のソフトウェア システムは、統計と基礎的な分析に重点が置かれており、分析機能が不足しています。
(5) マルチソースデータにはさまざまなタイプと構造があり、既存の方法では非構造化および異種データの処理ニーズを満たすことが困難です。