robots.txtとは?設定方法と動作確認する方法について

意味:robots.txtとは

robots.txtとは検索エンジンのクローラー(ロボット)のWEBページのへのアクセスを制限するためのファイルで、ロボットに向けた命令文(アクセスを許可/許可しない)を記述します。

 

SEO対策の観点では、robots.txtクロール最適化に用いられます。

クロール最適化とは、サイト内の各ページに効率よくクローラーが訪問するようにするための施策です。
数十万・数百万といったページを擁する大規模なサイトの場合、自然検索流入を期待したい重要なページに思うようにクローラーが訪れず、情報の更新が即座にインデックスに反映されなかったり、末端のページにクローラーが訪れずインデックスされなかったり、といった問題が生じることがあります。

 クローラーはXMLサイトマップに記載されたURLおよびサイト内外のリンクにあるURLを辿ることで、クロールすべきページを発見しています。
クロール速度にはアクセスするユーザーの利便性を損なわないようサイトごとに上限が設けられており、URLパラメータによって無数のURLが動的に生成されるような仕様のページでは、サイト全体に対して十分にクロールが追いつかないといったことがありえます。

参考: Google ウェブマスター向け公式ブログ [JA]: Googlebot のクロール バジェットとは?

 

そこで、クローラーが不要なURLを訪問しないようにrobots.txtで命令することで、重要なページに効率よく訪問してもらうことがrobots.txtのSEOにおける役割です。

 

 


◎SEO戦略設計・運用コンサルティング
ナイルのSEOコンサルティングは戦略立案~運用改善~コンテンツ制作まで、コンサルタント・編集者がお客様に伴走し、全体を通して支援します。

ビジネスの成果に繋がるSEO450


 robots.txtの設定とクロール制御の書き方

ここではrobots.txtの設定と、クロール制御の書き方について解説します。

 

まずはクローラーに訪問して欲しくないページの指定です。指定すべきページには、ログインページ・連絡先フォーム・ショッピングカートなどクローラーが実行できない機能しか持たないページや、CMS管理画面などユーザーがアクセスする必要のないページが挙げられます。

 

次にファイルの作成方法ですが、ファイル名は「robots.txt」とします。テキストファイルですので、一般的なテキストエディタ(メモ帳など)で作成できます。作成したファイルはルート直下に設置します。 名前は正確に設定しなければ、適用されないので気をつけてください。

クロール制御の記述方法についてですが、記述する内容は非常に単純で「どのロボットが」「どこのページ(或いはディレクトリ)に」「アクセスしても良い/アクセスしてはいけない」という内容です。

 

例えば、命令の内容が『Googleモバイル用クローラー「Googlebot-Mobile」は、全てのWEBページにアクセスしてはいけない』だとしたら、robots.txtは次のようになります。

 

User-agent: Googlebot-Mobile

Disallow: /

 

User-agentはロボットの種類を指定します。ここでは「Googlebot-Mobile」です。「Disallow」は「アクセス拒否」という意味です。今回はアクセス制限の範囲は全てのページですので、この場合は「/」になります。

 

また別の例で、命令の内容が『全てのクローラーは、 /cgi-bin/ のディレクトリにアクセスしてはいけない』だとしたら、robots.txtは下記になります。

 

User-agent: *

Disallow: /cgi-bin/

 

User-agentの「*」は「全て」を表します。これで全てのクローラーに対して /cgi-bin/ ディレクトリへのアクセス拒否が出来ます。

 

複数のクローラーについて指定する場合は、下記のように二行で指定します。

 

User-agent: Googlebot-Mobile

User-agent: Google-Image

 

補足:XMLサイトマップの位置を指定する

他にもrobots.txtにはXMLサイトマップの位置を定義することができます。

 

Sitemap: [絶対URL(http://から記載したURLパス)]

 

詳細な仕様については開発者向けヘルプをご確認ください。

Robots.txt の仕様  |  検索  |  Google Developers

 

robots.txtの動作確認

robots.txtが完成したら、Search Console内のrobots.txtテスターを使って動作確認をします。

robots.txtテスターは2019年11月時点ではSearch Consoleの「以前のツールとレポート」のタブから、「詳細」をクリックし、「ヘルプ」を開いた上で、そこにある外部リンクから遷移可能です。(こちらのリンクから直接遷移できます)

 robots.txtには以前のツールとレポートの「詳細」から遷移できるヘルプ内から遷移可能

 robots.txtテスターでは、更新をすると、下記のような画面が表示されます。

  

robots.txtを編集した上で、一番下の「送信」ボタンを押せば更新完了です。

 

最後にエラー数、警告数が0であることを確認します。

 

 

エラーがあった場合は、命令文にスペルミスがないかなどの確認をしましょう。

 

注意点

①クローラーはrobots.txtに従わないこともある

Googlebotはrobots.txtの指示に大半の場合は従うものの、ユーザーにとって有益と見られるページがDisallowされている場合など、設定ミスと思われるような指示であった場合、内容を無視することもあります。

 

②ユーザーのアクセスは引き続き可能

robots.txtはあくまで「クローラーに対するアクセス制限」を行うものであり、Disallowに指定してもユーザーは変わらずアクセスできます。ユーザーのアクセスも拒否したい場合は、別の手段を講じてください。

 

③ユーザーはrobots.txtを閲覧できる

robots.txt自体もWEB上のファイルですのでドメインの直後に/robots.txt というファイル名をアドレスバーに入力すると閲覧可能できます。ですので、どのようなディレクトリが存在しアクセスが制限されているのかの情報は見えてしまいます。

 

④重複コンテンツの対処としてはrobots.txtを使用しない

robots.txtで重複コンテンツへのクロールをブロックした場合、ブロックされた重複コンテンツが受けていた被リンクなどの評価をまるまる捨ててしまうことになります。

重複コンテンツの対策についてはURL正規化のページを参考にしてみてください。

 

robots.txtは比較的テクニカルな施策であり、実務では「どうしたらよいのだろう」となることもあると思います。もしお困りでしたら弊社のコンサルタントがサポートいたします。弊社は、戦略策定から実装支援まで一貫してサポートしております。

【1000社以上のコンサル実績】

ナイルのSEO成果事例を見る

Webサイトの運用・集客でお困りではありませんか?

デジタルマーケティング全般についてのご相談はこちら

私たちが得意とするコンテンツマーケティングやSEOに限らず、Webの運営・改善に関する総合的な知見を持つ私たちなら、きっと御社の悩みを解決できると考えています。

SEO・サイト運用・コンテンツマーケティングでお困りの際には ぜひお気軽にご相談ください

  • 資料ダウンロード

    会社紹介資料・事例集からSEOのお役立ち資料まで無料でダウンロードできます。

  • メルマガ登録

    SEO・コンテンツマーケティングを中心にWeb戦略に役立つ情報を週一でお届けします。