あなたの理解度はどれくらい?robots.txtクイズに挑戦してみよう!
- 投稿日:2020.07.28
- 風俗SEO
robots.txtの記述に関して、皆様は正しい知識をお持ちでしょうか。
robots.txtに特殊な記述をする必要がないウェブサイトもあるので、実際なかなか触ることがない場所かもしれません。
しかし、そのようなものだからこそ間違いやすいのも事実。
そしてrobots.txtはクロールやインデックスに大きく影響を与えてしまうので、間違ってしまうと大変なことになりかねません。
熟練の方ですら、間違ってしまうこともあるほどにrobots.txtは記述が厄介であることもまた事実です。
この記事で自分の認識が正しいものかどうか、しっかり確認しておきましょう。
robots.txtとは?
そもそもrobots.txtとはどのようなことができるものなのでしょうか。
これを知るためには『クローラー』や『インデックス』についても知っておくことが大事なので改めて確認しておきましょう。
検索エンジンには『クローラー』と呼ばれる情報収集ロボットがあります。
クローラーは、ウェブサイト一つひとつを巡回し、そのウェブサイトやウェブページがどのようなものなのか、という情報を集めているのです。
クローラーが収集した情報は検索エンジンのデータベースに保存され、整理されていきます。
このデータベースへの保存や整理が『インデックス』です。
そしてクローラーが収集してきた情報がインデックスされると、ランキングアルゴリズムによって、特定のキーワードにてどのサイトを検索結果に表示させるのか分類・順位付けします。
ここまで完了して初めて検索ユーザーの目に留まることができるのです。
robots.txtは、クローラーが情報収集をする作業(「クローリング」と呼ばれます)を最適化することに役立つファイルなのです。
ウェブサイト内に、
「このページ(このディレクトリ)は検索結果に表示する必要はないな…」
と思うようなページはありませんか?
そういったページをクローラーが情報収集をしても、無意味ですよね。
そこでrobots.txtの出番。
とある記述をするとそのページをクローリングしなくなるのです。
robots.txtに記述する項目
では、robots.txtにはどのような記述をすればよいのでしょうか?
確認してみましょう。
User-agent
ユーザーエージェントの指定です。
すべてのクローラーを指定する場合には「*」を記述します。
Googleの検索であれば『Googlebot』、画像や動画のユーザーエージェントは「Googlebot-image」「Googlebot-Video」などの記述をします。
Disallow
Disallowはクロールを拒否する際に使用します。
先ほどのように「インデックスさせたくないページ(ディレクトリ)」がある場合に使用するのがDisallowです。
記述の方法はディレクトリを指定する場合、ページを指定する場合、画像や特定のファイルを指定する場合など、その状況によって記述方法が変わります。
Allow
あまり使用する記述ではありません。
Allowは、Disallowの反対の意味、つまりクロールの許可です。
そうなるとインデックスさせたいURL全てに対して「Allow」で指定する必要がありそうですが、その必要はありません。
AllowはたとえばDisallowで指定したディレクトリの一部をクロールさせたいときなどに使用します。
Disallowで拒否しているディレクトリの中にあってもAllowで指定したページに対しては許可するわけですから、DisallowとAllowではAllowの方が優先されます。
Sitemap
Sitemapファイルの居場所を指定することで、クローラーがクローリングしやすくなります。クローラーは内部リンクを辿って様々なページへと訪れるため、sitemapの記述はしておく方が良いでしょう。
robots.txtクイズ
さて。実は7月上旬、ゲイリー・イリェーシュ氏がTwitterでこのrobot.txtに関するクイズを投げかけています。
実際の問題を見てみましょう。
Q1.このrobots.txtをクローラーはどう解釈する?
User-agent: *
Disallow: /
Allow: /
-
- ① クロールをすべて許可
-
- ② クロールをすべて禁止
Q2.このrobots.txtをGooglebotはどう解釈する?
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
-
- ① Googlebotのクロールを許可
-
- ② Googlebotのクロールを禁止
さて、皆さん分かりましたか?
答えはどちらも①番です。
大事なことは2つです。
- 「同一のユーザーエージェント」指定でDisallowとAllowが「同じパス」を指定している場合はAllowが優先される
- 「異なるユーザーエージェント」が指定されていて、DisallowとAllowが「同じURLパス」を指定している場合、最も限定的なユーザーエージェントに対するルールが適用される
これらを踏まえて考えてみてください。
RELATED ARTICLE
関連記事
LATEST ARTICLE
最新記事