マインドマップギャラリー 『検索エンジン―情報検索の実践』読書メモ―第3章
検索エンジンによる情報収集の内容を紹介します。 1. どのような問題を検討するか 2. 問題の特徴は何ですか? 3. 基本的な解決策は何ですか?
これはバクテリアに関するマインドマップであり、その主な内容には、概要、形態、種類、構造、生殖、分布、アプリケーション、および拡張が含まれます。概要は包括的で綿密で、レビュー資料として適しています。
これは、植物の無性生殖に関するマインドマップであり、その主な内容には、概念、胞子の生殖、栄養生殖、組織培養、芽が含まれます。概要は包括的で綿密で、レビュー資料として適しています。
これは、動物の生殖発達に関するマインドマップであり、その主な内容には、昆虫、カエル、鳥、性的生殖、無性生殖が含まれます。概要は包括的で綿密で、レビュー資料として適しています。
SEO検索エンジンの最適化
SEO検索エンジン最適化手法のまとめ
SEO検索エンジン最適化計画
Baidu 検索エンジン履歴アルゴリズム
SEO_検索エンジンの最適化
検索エンジン開発の歴史
検索エンジンの情報収集
情報収集
ウェブクローリング
ディスカバリ URL
種子の収集
URLキュー
マルチスレッド化
礼儀正しさ戦略
ロボット.txt
クローラールール
サイトマップ
Web ページの更新を発見する
HEADリクエストによりアクセスオーバーヘッドが削減される
過去の更新に基づいて変更の頻度を予測する
サイトマップは更新頻度を示します
トピック指向のコレクション
トピック固有のページ (権威あるサイト)
コンテンツテキストを分類する
リンクのタイトルテキストを分類する
ディープウェブ
特徴
見つけにくい
量を正確に評価するのは難しい
予測の大きさはインデックス ページよりもはるかに大きい
分類
プライベートサイト
フォームの結果 (難しい、URL サイズが大きい)
スクリプトページ
分散コレクション
コンピューティングおよびストレージのリソース要件を償却します。
複数の URL キュー
ハッシュ配布タスク
書類とメール
アップデートをより早く発見する必要がある
より多くのストレージ リソースが必要になる
プライバシーを保護する必要がある
文書情報源
一連の相同文書が含まれています
定期的に更新
リリース後に変更されることはほとんどありません
配布タイプ
プッシュを購読する
アクティブクローリング(プル)
RSS(プル型)
複数の定義
簡単な情報集約
RDFサイトの概要
リッチサイトスニペット
規格はたくさんあります
有効期限あり (ttl)
Webコンテンツの概要があります
文書処理
コンテンツ変換
テキスト形式の変換
文字エンコード変換
文書保管庫
データベース (サイズが小さく、コストが高い)
ビッグテーブル
大規模、高効率、低コスト
行ストレージ、列グループをサポート
ランダムアクセスをサポート
ハッシュサーバー
ハッシュファイル
ファイル内の位置決め
文書圧縮
同じファイル内の複数のドキュメント
テキスト圧縮
ほとんどの圧縮アルゴリズムはランダム アクセスをサポートしていません
単一ファイルの圧縮
低い圧縮率
低い解凍待ち時間
少量のドキュメント圧縮
ドキュメントの重複排除
重複したソース
盗作
ごみ
正確な繰り返し (チェックサム)
ほぼ重複
定義上の困難
内容が違います
異なる日付
さまざまなフォーマット
...
高いオーバーヘッド (在庫内で重複が見つかった)
文書のフィンガープリント
Nグラム
シムハッシュ
フィルターノイズ
メインコンテンツとは関係ありません
通常、ロゴ、広告、写真、ナビゲーションなどが含まれます。
テキストはインデックスの単語頻度統計に干渉する可能性があります
検出技術
ラベル配布に基づく
想定される事実: メイン コンテンツ領域にはタグがほとんどありません
統計ラベル数の累積分布
分布内の平坦な間隔を検出する
単一のコンテンツ ブロックに対して有効
DOMツリーに基づくフィルタリング
DOM ツリーを再帰的に走査する
無関係なタグをフィルタリングする
複数のコンテンツ ブロックに有効
DOM のビジュアル機能に基づく
分類子を使用する
ビジュアルおよびコンテンツの特徴に基づく分類