robots.txtとは

SEOで使われる用語「robots.txt」について解説していきます。

 

意味:robots.txtとは

robots.txtとは検索エンジンのクローラー(ロボット)のWEBページのへのアクセスを制限するためのファイルで、ロボットに向けた命令文(アクセスを許可/許可しない)を記述します。

 

robots.txtクロール最適化の一種であり、SEO上でも重要です。

 

クロール最適化とは、サイトの重要なページにクローラーの訪問数を増やすことで、SEO改善に繋げることです。トップページのような重要なページをよりクローラーに訪問・評価してもらい、検索結果上よりも上位に表示させることが目的です。

 

これはクローラーの2つの特徴を前提としています。一つ目は、クローラーは内部リンクや被リンクを辿ってやってくることです。サイト内で多くのリンクを獲得しているページには、クローラーも多く訪れます。二つ目は、ドメインごとにクローラーが訪問するページ数には限りがあることです。限られた中で、重要なページに多くクロールしてもらうことが大切です。

 

つまり、クローラーがリンクを辿って不要なページに訪問しないようにrobots.txtで命令することで、限られた訪問数を浪費せず、重要なページにより多く訪問してもらうことがrobots.txtの役割です。

 

 robots.txtの設定・書き方

ここではrobots.txtの設定・書き方について解説します。

 

まずはクローラーに訪問して欲しくないページの指定です。指定すべきページには、

ユーザーにとって価値のないページや広告のリンク先ページが挙げられます。

 

次にファイルの作成方法ですが、ファイル名は「robots.txt」とします。テキストファイルですので通常のテキストエディタ(メモ帳や秀丸など)で作成します。ファイル名は「Robots.txt」や「robot.txt」としないように注意しましょう。作成したファイルはルート直下に設置します。

 

最後に記述方法についてですが、記述する内容は非常に単純で「どのロボットが」「どこのページ(或いはディレクトリ)に」「アクセスしても良い/アクセスしてはいけない」という内容です。

 

例えば、命令の内容が『Googleモバイル用クローラー「Googlebot-Mobile」は、全てのWEBページにアクセスしてはいけない』だとしたら、robots.txtは次のようになります。

 

User-agent: Googlebot-Mobile

Disallow: /                   

 

User-agentはロボットの種類を指定します。ここでは「Googlebot-Mobile」です。「Disallow」は「アクセス拒否」という意味です。今回はアクセス制限の範囲は全てのページですので、この場合は「/」になります。

 

また別の例で、命令の内容が『全てのクローラーは、 /cgi-bin/ のディレクトリにアクセスしてはいけない』だとしたら、robots.txtは下記になります。

 

User-agent: *

Disallow: /cgi-bin/

 

User-agentの「*」は「全て」を表します。これで全てのクローラーに対して /cgi-bin/ ディレクトリへのアクセス拒否が出来ます。

 

複数のクローラーについて指定する場合は、下記のように二行で指定します。

 

User-agent: Googlebot-Mobile

User-agent: Google-Image

 

robots.txtの動作確認

robots.txtが完成したら、「Search Console」のrobots.txtテスターを使って動作確認をします。robots.txtテスターはSearchConsoleの左にあるダッシュボードの「クロール」の中にあります。

 

 

robots.txtテスターを開き、右下の「送信」というボタンをクリックします。

 

 

すると、下記のような画面が表示されます。

 

 

一番下の「Googleに更新をリクエスト」の送信ボタンを押せば完了です。

 

最後にエラー数、警告数が0であることを確認します。

 

 

エラーがあった場合は、命令文にスペルミスがないかなどの確認をしましょう。

 

注意点

幾つかの注意点があります。

 

①robotx.txtは絶対ではない

クローラーがそれに準じた挙動をとるとは限りません。Googleなどの主要な検索エンジンは問題ないですが、クローラーの中には命令を無視することもあるようです。

 

②リアルタイムに反映されるとは限らない

命令を記述しても即座にそれが反映されるわけでもなく、幾分かの時間がかかることもあります。

 

③ユーザーはアクセスできる

robots.txtはあくまで「クローラーに対するアクセス制限」を行い、検索結果に表示させたくない(させるべきではない)ページのインデックスを避けるためのものです。そのため、ユーザーはURLが分かれば、或いは直接辿りつけるリンクを見つければ通常通りアクセスできてしまいます。

 

④ユーザーはrobots.txtを閲覧できる

robots.txt自体もWEB上のファイルですのでドメインの直後に/robots.txt というファイル名をアドレスバーに入力してしまえば閲覧可能です。ですので検索結果に表れずとも、どのようなディレクトリが存在しアクセスが制限されているのかなどは見えてしまいます。

特に企業にとっての機密事項や一般公開できない限定コンテンツなどは、認証をかけるなどのユーザーへのアクセス制限をしっかり行っておく必要があります。

 

⑤重複コンテンツにはrobots.txtを使用しない

robots.txtで重複コンテンツをブロックすると、ブロックされた重複コンテンツの評価を捨ててしまうことになり、逆に評価が下がる可能性もあります。

重複コンテンツの対策についてはURL正規化のページを参考にしてみてください。

Webサイトの運用でお困りではありませんか?

私たちが得意とするコンテンツマーケティングやSEOに限らず、Webの運営・改善に関する総合的な知見を持つ私たちなら、きっと御社の悩みを解決できると考えています。

サイト内検索

SEO・サイト運用・コンテンツマーケティングでお困りの際には ぜひお気軽にご相談ください

初級者から上級者まで幅広くコンテンツマーケティングの知識を学べるセミナーもございます

実務に役立つeBookが
無料でダウンロードできます

SEOやコンテンツマーケティングに
ご関心のある方はぜひご利用ください。

×