ログイン
サインイン

マインドマップギャラリー『検索エンジン―情報検索の実践』読書メモ―第3章

『検索エンジン―情報検索の実践』読書メモ―第3章

検索エンジンによる情報収集の内容を紹介します。 1. どのような問題を検討するか 2. 問題の特徴は何ですか? 3. 基本的な解決策は何ですか?

2021-08-13 17:34:02 に編集されました

WSUJfrxa

最近の作品その他の作品を表示>>

『検索エンジン―情報検索の実践』読書メモ―第3章

WSUJfrxa

最近の作品その他の作品を表示>>

おすすめ
アウトライン

SEO検索エンジンの最適化
- 19
WSUJfrxa
SEO検索エンジンの最適化
- 12
- 1
WSUJfrxa
SEO検索エンジンの最適化
- 12
WSUJfrxa
SEO検索エンジン最適化手法のまとめ
- 13
WSUJfrxa
SEO検索エンジン最適化計画
- 6
WSUJfrxa
Baidu 検索エンジン履歴アルゴリズム
- 16
WSUJfrxa
SEO検索エンジンの最適化
- 14
WSUJfrxa
SEO_検索エンジンの最適化
- 8
WSUJfrxa
SEO検索エンジンの最適化
- 10
WSUJfrxa
検索エンジン開発の歴史
- 14
WSUJfrxa

検索エンジンの情報収集

情報収集

ウェブクローリング

ディスカバリ URL

種子の収集

URLキュー

マルチスレッド化

礼儀正しさ戦略

ロボット.txt

クローラールール

サイトマップ

Web ページの更新を発見する

HEADリクエストによりアクセスオーバーヘッドが削減される

過去の更新に基づいて変更の頻度を予測する

サイトマップは更新頻度を示します

トピック指向のコレクション

トピック固有のページ (権威あるサイト)

コンテンツテキストを分類する

リンクのタイトルテキストを分類する

ディープウェブ

特徴

見つけにくい

量を正確に評価するのは難しい

予測の大きさはインデックスページよりもはるかに大きい

分類

プライベートサイト

フォームの結果 (難しい、URL サイズが大きい)

スクリプトページ

分散コレクション

コンピューティングおよびストレージのリソース要件を償却します。

複数の URL キュー

ハッシュ配布タスク

書類とメール

アップデートをより早く発見する必要がある

より多くのストレージリソースが必要になる

プライバシーを保護する必要がある

文書情報源

特徴

一連の相同文書が含まれています

定期的に更新

リリース後に変更されることはほとんどありません

配布タイプ

プッシュを購読する

アクティブクローリング（プル）

RSS（プル型）

複数の定義

簡単な情報集約

RDFサイトの概要

リッチサイトスニペット

規格はたくさんあります

有効期限あり (ttl)

Webコンテンツの概要があります

文書処理

コンテンツ変換

テキスト形式の変換

文字エンコード変換

文書保管庫

データベース (サイズが小さく、コストが高い)

ビッグテーブル

大規模、高効率、低コスト

行ストレージ、列グループをサポート

ランダムアクセスをサポート

ハッシュサーバー

ハッシュファイル

ファイル内の位置決め

文書圧縮

同じファイル内の複数のドキュメント

テキスト圧縮

ほとんどの圧縮アルゴリズムはランダムアクセスをサポートしていません

単一ファイルの圧縮

低い圧縮率

低い解凍待ち時間

少量のドキュメント圧縮

ドキュメントの重複排除

重複したソース

盗作

ごみ

正確な繰り返し (チェックサム)

ほぼ重複

特徴

定義上の困難

内容が違います

異なる日付

さまざまなフォーマット

...

高いオーバーヘッド (在庫内で重複が見つかった)

文書のフィンガープリント

Nグラム

シムハッシュ

フィルターノイズ

特徴

メインコンテンツとは関係ありません

通常、ロゴ、広告、写真、ナビゲーションなどが含まれます。

テキストはインデックスの単語頻度統計に干渉する可能性があります

検出技術

ラベル配布に基づく

想定される事実: メインコンテンツ領域にはタグがほとんどありません

統計ラベル数の累積分布

分布内の平坦な間隔を検出する

単一のコンテンツブロックに対して有効

DOMツリーに基づくフィルタリング

DOM ツリーを再帰的に走査する

無関係なタグをフィルタリングする

複数のコンテンツブロックに有効

DOM のビジュアル機能に基づく

分類子を使用する

ビジュアルおよびコンテンツの特徴に基づく分類

複数のコンテンツブロックに有効