【気をつけて設定しよう】robots.txtの設定目的や書き方について

【気をつけて設定しよう】robots.txtの設定目的や書き方について

robots.txtとは

robots.txtは検索エンジンのクローラーに、特定のディレクトリ、ページをクロールしないように指示するためのファイルです。
Googleを始めとした主要な検索エンジンはこのrobots.txtを踏まえてサイトのクロールを行います。

気になるrobots.txtの読み方ですが、海外では「ロボッツドットティーエックスティー」と読むことが多いです。とはいえ、ロボッツテキストとかロボッツと読んでも、多くの場合通じるはずです。

robots.txtに関する前提

実はrobots.txtは設置が必須ではありません

そもそも多くのサイトで、クロールの制御を行う必要はないのです。

特に数百ページ以内のサイトであればサイト状況にもよりますが、クロール、インデックスは問題なくされることが多いです。

当然、robots.txtを設置するだけで、順位が上がるなどの裏技があるわけでもないので、クロールの制御を行う必要のないサイトでは、無理に設置しないでください。

一方でページ数が数万を超えるサイトの場合は、robots.txtの適切な設定によるメリットがあります。これらを踏まえて必要な方のみ続きをお読み下さい。

robots.txtを設定する目的

robots.txtには大きく以下の4つの目的があります。

①クローラーに特定のページ、ディレクトリをクロールさせないようにする

サイトの中にはステージング環境の未完成ページや、要ログインページ、会員限定コンテンツなど多くの人に見られたくないページが存在します。
ステージング環境の場合は作りかけであることも考えられますし、要ログインページなどはSEOをあまり意識しないで作成していることも多いです。そして何よりこういったページは、検索結果にも表示させたくないことが大半です。
よって、検索エンジンに見せる必要のないページや、インデックスさせたくないページへのクロールをブロックしたい際にrobots.txtを用いるのです。

※明確にインデックスさせない場合には、サイト閲覧にパスワードをかけたり、noindexを設定したりしてください。

②クローラビリティの最適化

ECサイトなどは、条件絞り込みなどで類似するページが大量に生成されることもあり、ページ数が多くなることがあります。こうした状況だと、全てのページを検索エンジンがクロールできないこともあります。
そういった、サイト上必要なものの、検索流入が見込めないページへのクロールの制御のためにもrobots.txtは用いられます。制御することで検索エンジンに評価させたいページへのクロール頻度を高めたり、サイト全体をクロールさせたりすることができます。
SEOにおけるメリットという意味では、この②が最も注目されます。

③XMLサイトマップの提示

robots.txtにはXMLサイトマップのURLを記載することが可能で、検索エンジンに示すことができます。
Googleサーチコンソールや、BingウェブマスターツールなどからもXMLサイトマップを送信することが可能ですが、そうした手段をもたない検索エンジンも存在するため、robots.txtを設置する際は記載しておきましょう。

④画像、動画、音声ファイルを検索結果に表示させないようにする

画像や動画はHTMLではないため、ページ上にnoindexを設置することができません。
そこでrobots.txtを使用することで、検索結果に表示させないようにすることができます。

設定方法はこちらから

\疑問や不明点はお気軽にご質問ください!/

robots.txtの設定方法

①設置方法

robots.txtは運用するサイトのルートディレクトリに必ず設置してください。
例1:http://www.example.com/robots.txt
例2:https://www.seohacks.net/robots.txt
例3:https://sub.seohacks.net/robots.txt

例3のように、サブドメインへ適用することもできます。
また、設置する際には必ずファイル名を「robots.txt」にしてください。それ以外は一切NGです。

②記述方法

robots.txtのクロール制御の記述方法の考え方はとてもシンプルです。

  • どのロボットが
  • どのページ/ディレクトリ/ファイルに
  • クロールしても良い/クロールしてはいけない

という3つを書いていきます。

どのロボットが

まずはクロールを制御するロボットを指定します。

Googleだけでも

  • googlebot(全般に適用)
  • googlebot-news(ニュース、ニュースの画像に適用)
  • googlebot-image(画像)
  • googlebot-video(動画)

などなど、様々なロボットがあり、当然その他の検索エンジンのロボットもあるため、目的に合わせて設定しましょう。
全てのロボットに対し、指示を出したい場合は*(ワイルドカード)を用います。特に指定がない場合はワイルドカードを用いましょう。

参考
Google クローラの概要(ユーザー エージェント) | Google 検索セントラル | Google Developers

The ultimate guide to robots.txt • Yoast

どのページ/ディレクトリ/ファイルに

冒頭のrobots.txtを設置する目的に合ったページを設定しましょう。
設定時には正規表現を用いることができますので、下記ページを参考に設定しましょう。

参考
URLの指定方法

クロールしても良い/クロールしてはいけない

クロールを許可する場合は

allow: [ページパス]

例1:allow: /
例2:allow: /pasta

クロールを許可しない場合は

disallow: [ページパス]

例1:disallow: /
例2:disallow: /pasta

と記載します。

allowとdisallowの記述は両方が当てはまることも出てきますが、その場合はより具体的に指定しているものが適用されます。

例1
User-agent:*
Disallow: /
allow: /blog

→すべてのURLへのクロールがブロックされていますが、allowにて、具体的に/blogへの許可がされているため、この場合は/blog以外のURLのクロールがブロックされます。

例2
User-agent:*
Disallow: /aaaaa
allow: /aaaaa/bbbbb
allow: /aaaaa/ccccc

→/aaaaa配下すべてのURLへのクロールがブロックされていますが、allowにて、具体的に/aaaaa/bbbbbと/aaaaa/cccccへのクロールの許可がされているため、この場合は/aaaaa/bbbbbと/aaaaa/ccccc以外の/aaaaa配下のURLのクロールがブロックされます。

robots.txtテスターを使おう

robots.txtを本番環境でアップすることで、「robots.txt テスター」を使用することができます。

しかし、いきなり本番環境にアップするのはリスクもあるので、確実に問題のない状態でアップすることをオススメします。

robots.txtテスターを使おう

上記であれば、全てのユーザーエージェントに対し、クロールを許可しているので、初めて公開する場合であれば、問題は起きません。

このrobots.txtテスターは画面上で編集ができるので、ここでテストを行なうと良いでしょう。なお、ここでの編集は本番のrobots.txtに反映されるわけではないので、テストが完了したタイミングで送信ボタンをクリックし、ダウンロードしておきましょう。

このrobots.txtテスターは画面上で編集ができるので、ここでテストを行なうと良いでしょう

テストする際には、ロボットを指定することができます。

テストする際には、ロボットを指定することができます。

この場合はrobots.txt上では「googlebot-news」を指定しており、テスト用のロボットには「googlebot」を選択しているので、クロールはブロックされず、許可されます。

作業が完了しましたら「送信」ボタンをクリックし、編集済みのrobots.txtをダウンロードしましょう。
その後ファイルをルートディレクトリにアップし直したら、「2アップロードされたバージョンを確認」をクリックし、正しくアップロードされているか確認しましょう。直接アクセスしてもOKです。
問題がないようであれば、最後に「3Googleに更新をリクエスト」することで、Googleに最新版のrobots.txtを伝えることができます。お疲れさまでした。

作業が完了しましたら

robots.txtの注意点

robots.txtを使用する上で、よくある注意点を挙げていきます。

①インデックスの制御のためには使用しない

指定されたページ、ディレクトリへのクロールをブロックするため、確かにインデックスはされにくいのですが、外部リンクなどにより、そのページを見つけた場合はインデックスされることもあります。
また、この場合はページ情報は取得(クロール)できないため、検索結果に表示される際の表示は特殊なものになります。

この場合はページ情報は取得(クロール)できないため、検索結果に表示される際の表示は特殊なものになります。

よって、インデックスさせたくない場合は、robots.txtを用いるのではなく、noindexを設定しましょう。
そして設定する際は、ブロックしたままだとnoindexを検知することができないため、ブロックを解除した上で設定しましょう。

②ユーザーは引き続きアクセス可能

robots.txtでアクセスをブロックできるのは、クローラーのみです。ユーザーは問題なくアクセスできるので注意しましょう。
よって、会員限定コンテンツや有料ページなどに対し、ユーザーのアクセスを禁じる意味で設定しても効果はないので、注意しましょう。

③ページ数の少ないサイトはそこまで気を配らない

冒頭でもお伝えしましたが、ページ数が少ないサイトではクロールの問題が起きにくいこと、robots.txtの設置が必須ではないことから、ページ数が少ないサイトでは対応優先度を下げても良いと考えています。

まとめ

robots.txtはクロールの制御を目的として設置されるファイルです。
ページ数の多いサイトではクローラビリティの改善などメリットもありますが、誤った記述をしてしまうとサイトの流入を大きく減らしてしまうため、robots.txtテスターなどを用い慎重に設置しましょう。
また、ページ数の少ないサイトなどでは、クロール制御が不要なことが多いため、無理に設置する必要はありません。

このようにrobots.txtはかなりテクニカルな領域であり、実務では「どうしたらよいのだろう」と困ることもあると思います。もしお困りでしたら弊社のコンサルタントがサポートいたします。

まずはお気軽に無料相談よりお問い合わせ下さい。

集客・コンバージョン数を増やしたい方へ

ナイルのSEOコンサルティングは流入数の改善はもちろん、売上に貢献するコンバージョンも増やします。予算未定でも構いません。ぜひお気軽にご相談下さい!

サービス紹介をダウンロードする

ナイルに無料相談する

SEOコンサルティングの支援実績や詳細は、ナイルのSEOコンサルティングサービスをご覧ください。

 

編集者情報

金子 光
金子 光(かねこ ひかる)
新卒で楽天グループ株式会社に入社。
営業管理として40人規模のチームをマネジメント。その後社員3人のベンチャー企業に入社し新規事業立ち上げを経験。
現在はナイルのマーケティング相談室編集長として、Webマーケティングに従事している。
無料相談はこちらから

監修者情報

ナイル編集部
ナイル編集部

2007年に創業し、約15年間で累計2,000社以上の会社にマーケティング支援を行う。また、会社としても様々な本を出版しており、業界へのノウハウ浸透に貢献している。(実績・事例はこちら

PIVOTにもスポンサード出演しました!

PIVOTにもスポンサード出演しました!
チャンネル登録者数が100万人を超えるYoutubeチャンネルPIVOTにスポンサード出演しました!
動画内では、マーケティング組織立ち上げのための新しい手段についてお話しています。
マーケティング組織に課題がある方はぜひご覧下さい。
動画を見る

関連記事

本日のSEOニュース(2021年2月17日収集分)

本日のSEOニュース?(2021年2月17日収集分)

Above-the-foldとは

Above the foldとは

本日のSEOニュース(2021年4月26日収集分)

ページエクスペリエンスアップデートの導入が21年6月中旬に延期

新着記事

【無料テンプレート付き】ロジックツリーの概要やメリット、作り方解説!

【無料テンプレート付き】ロジックツリーの概要やメリット、作り方解説!

動画で学ぶWebマーケティング【生成AI/ChatGPT編】

動画で学ぶWebマーケティング【生成AI/ChatGPT編】

サードパーティCookie廃止に伴う広告予算動向

【サードパーティCookie廃止に伴う広告予算の動向調査】

もっと効果的な集客施策
してみませんか?

Web戦略の情報を
定期的に受け取りたい方

取材・メディア掲載に関するお問い合わせは、こちらからお問い合わせください。