クローラについて
クローラ (Crawler) とは、ウェブ上の文書や画像などを周期的に取得(収集)し、自動的にデータベース化するプログラムのことをいいます。
「スパイダー」や「ロボット」などとも呼ばれることも多くあります。
主に検索エンジンのデータベース、インデックス作成に用いられており、統計調査などの目的にも利用されることがあります。
最近では、電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げているといわれています。
一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返します。新しい文書を見つけた場合はデータベースに登録します。また、既知のファイルが存在しないことを検出した場合はデータベースから削除してくれるのです。
クローラは、とてもかしこいプログラムだといえるでしょう。
SEOツールとは
SEOツールとは、サイトの管理者(ウェブマスター)向けのWEB解析ツール等のことをいいます。
具体的には、アクセス解析であったり、サイトの順位チェックツール、サイトマップ(sitemap.xml)などの自動作成ツールのことをいいます。
SEOツールを利用したからとって検索エンジン最適化に効果があるとは言えません。大切なのは、現在運営しているサイトの現状を知ることによって、今後の対策に備えることだといえます。
Baiduspider
Baiduspiderとは、中国の検索サイト「百度」(URL:http://www.baidu.com/)のために、ウェブサイトの情報を収集するロボット(クローラ)のことです。
過去には非常に短い間隔で次々とリクエストを行うなどの問題によって、ウェブサーバを不安定に陥れる可能性があることから、アクセス拒否を行うサイトもいました。
これに対し、百度は日本向けウェブサイトにおいてBaiduspiderが過剰な負荷をかけたことを謝罪するとともにクローリングの頻度管理を統一するなどの対処策を発表しました。
また同年5月には負荷の少ない新型クローラーであるBaiduCheckerを投入し、ウェブサイトに与える負荷を平均数百バイト程度に抑えられるようになったと公式ページで表示されていました。
ウェブサイトに与える負荷をなくしたい場合などは、Robots.txtを利用することで、Baiduspiderによるサイトへの全アクセス、もしくは一部のアクセスを禁止(制限)することができます。
クローラの関連用語
スパム (メール) 、Yahoo!、Googlebot、Baiduspider、Yetibot、メールアドレス検索ロボット、インターネットボット、スパイダー、AltaVista、検索エンジンスパム、アドレス、百度、インフォシーク、ハイパーリンク、MSN、統計、検索エンジン、データベース、プログラム (コンピュータ) 、電子メール、ロボット、World Wide Web、HyperText Markup Language、Google