クローラーとは?SEOにおける6つのクローラーを意識すべきポイント

更新日: 公開日:

クローラーとは、コンテンツインデックスを作成することを目的に、Web上のデータを自動化された方法で取得するプログラムのことを指します。

この記事のポイント

  • クローラーが巡回したサイトがGoogleにインデックスされ、検索結果に表示される
  • クローラーのサイトの巡回しやすさをクローラビリティと言う
  • XMLサイトマップへの登録や内部リンクの最適化、ページ表示速度の改善などで対策する

クローラーとは

クローラーとは、コンテンツのインデックスを作成することなどを目的に、Web上のデータを自動化された方法で取得するプログラムのことを指します「スパイダー」「ボット」と呼ばれることもあります。このクローラーが巡回し、データを取得することをクロールと呼びます。

クローラーはリンクを辿ることで、ページを見つけます。

そして、ウェブサイトのソースを解析し、そこに書かれてあるテキスト、画像、PDF、リンクなどの情報を収集します。クローラーが収集した情報はデータベースに格納され、Googleの場合はそうしてクロールで得た情報をベースにインデックス、ランキング付けを行います。

クローラーは取得する情報に応じて複数のタイプが存在します。Googleであれば、幅広く情報を収集する「Googlebot」、画像用の「Googlebot-Image」、動画用の「Googlebot-Video」と、クローラーといっても取得するデータに応じたさまざまな種類があり、それぞれが日夜インターネットを巡回してデータを集め続けているのです。

Google検索におけるクロール

Googleのクローラーがインデックスするまでの流れを確認しましょう。

①クロールキュー

クロールの前段階としてXMLサイトマップや、過去のクロールによって得られたURLをリスト化するフェーズとして、クロールキューがあります。
Google Search Consoleのカバレッジ「検出」がこれに相当するイメージをもっていただけると良いと思います。

②クロール

上記で説明したようにクロール時にテキスト、画像、PDF、リンクなどの情報を取得する他、サイトの更新されたポイントなども取得します。
ここで見つけたリンクは辿ることができる場合、クロールキューに追加されていきます。

③HTMLパース・レンダリング

とても簡単に説明すると、「クロールして得た情報を元に、検索エンジンがブラウザで我々が見るように、コンテンツの表示を試みる」という作業が行われます。
この工程を行うことで、ユーザーと同じようにページを視覚的に理解することが可能になり、検索エンジンがインデックスするかしないかの判断をできるようになります。

④インデックス

インデックスは検索エンジンのデータベースにウェブページが登録されることを指します。「①~③で得た情報がGoogleのデータベースに登録される」という理解でも構いません。
インデックスされて初めて、検索結果に表示されるようになります。

⑤ランキング

インデックスされたページをキーワード毎に、どの順番で表示するかランキング付けを行います。いわゆる検索順位のことであり、ランキングアルゴリズムにより、自動的に順位付けがされていきます。

このようにGoogle検索におけるクロールは、検索結果を表示するための情報を収集する作業となります。例えば、クロールを検索エンジンがしない場合、永遠に同じページが検索結果に出続けることになり、我々ユーザーが役に立つ情報を得られなくなってしまいます。

一方で、この世の全てのURLをGoogleのクローラーがクロールすることは不可能であり、各サイト毎にクロールの割り当てが行われています。

参考:大規模サイト所有者向けのクロール割り当て管理ガイド | Google 検索セントラル | Google Developers

クロールの割り当てはサイトの人気、ユーザーにとっての価値などによって決定されますが、人気があったとしても1ページあたりのクロールの負荷が高い、クロールすべきページが必要以上に多い場合には、適切にクロールさせることができません。

そこで、以下の6つのポイントを参考に、クロールの最適化を目指しましょう。

SEOのためのクロール最適化6つのポイント

クローラーは必ずしも全てのウェブページをもれなく巡回できるわけではありませんし、公開したページをすぐに発見してくれるとも限りませんので、SEOを実施する上では、クローラーができるだけウェブサイト内を効率よく巡回しやすくするための工夫が求められます。

また、robots.txtなどを用いてクローラーの巡回を制御したり、URLの正規化を実施することも検索エンジンのクローラーに対する配慮として行っておく必要があります。

こういった検索エンジンクローラーのウェブサイトの巡回しやすさを総称して「クローラビリティ」と呼びます。1,000ページ以下のURL数しか持たないサイトにおいては、ほとんどの場合、クロールは効率的に行われるので意識はしなくていいでしょう。数万以上ページがある大規模サイトの場合は、ある程度クロールの優先順位を付けることが重要になり、「クローラビリティ」を意識する必要が出てきます。

1.XMLサイトマップの作成・登録

XMLサイトマップはクロールにとってサイトを巡回する参考になる

GoogleはXMLサイトマップに登録されているURLを、クロールを行う手がかりとしています。なお、XMLサイトマップに含めたからといって全てのURLが必ずクロールされるわけではありません。闇雲にURLを含むのではなく、クロールさせたいページをXMLサイトマップに含めるようにしましょう。

詳しく知りたい方へ:サイトマップとは?SEO効果、XMLサイトマップの作成方法を解説

2. 内部リンクの最適化

内部リンクをたどってクローラーは移動する

リンクはクロールを行う上でページ発見の手がかりとなります。

  • 内部リンクがほとんどないページを作らない
  • 検索エンジンが辿ることができない形式でリンクを設置しない

リンクはユーザー最優先の考え方で設置して構いませんが、最低限この2点だけは気を配りサイトにリンクを設置していきましょう。

関連:aタグとは?意味やSEO観点での最適な使用方法を初心者向けに解説

※Googleの検索エンジンはhref 属性が指定されたaタグのみ、リンクを辿ることができます。

3. robots.txtの設定

ステージング環境の未完成ページや、要ログインページ、会員限定コンテンツなどクロールさせる必要のないページが大量に存在している場合は、robots.txtでdisallowを設定しましょう。ただし、disallowを設定したとしても、外部リンクなどを元にインデックスされることがありますので、検索結果に表示させたくない場合は、noindexを付与しましょう。

4. URLパラメータの設定

重複ページはクロールされないようにする

サイト内で検索結果を持っているECサイトや求人サイトなどでは、大量のページが生成されます。その中には内容が重複しているページも大量に生成されるため、重要度が低いページはGoogleサーチコンソールのURLパラメータの制御を用いて特定のパラメータ、または特定の値が含まれたパラメータを含む URL がクロールされないように設定しましょう。

ただしパラメータを設定したからといって確実にクロールされなくなるわけではありません。クロールの効率化を助ける、という考え方が適切でしょう。

参考:パラメータ化された重複コンテンツのクロールをブロックする - Search Console ヘルプ

参考:ウェブマスターツールのURLパラメータの「クロールしない」はクロールしないわけではない | 海外SEO情報ブログ

5. ページ表示速度の改善

ページ表示速度を改善する

サイトの表示速度が高まるとユーザーの利便性が向上するだけでなく、クローラーのクロール速度も上がります。サーバエラーやタイムアウトが多い場合はサーバ状態に問題があるとみなされ、クロールが遅くなります。またサーバサイドの問題だけではなく、画像ファイル、CSS、Javascriptといったリソースについてもクローラビリティに影響を及ぼします。

参考(外部サイト):PageSpeed Insights

6. Javascriptの最適化

Googleのクローラーは最新バージョンのChromeと同等のレンダリング機能をもっており、概ねJavaScriptは実行できると考えていいでしょう。

しかし、ページ表示まで待ってくれるブラウザと異なり、レンダリング時にJavaScriptの実行に時間がかかる場合は、該当部分のレンダリングを行えない場合も発生し、最悪の場合インデックスされないこともあります。

また、検索エンジンはサイトのコンテンツをクリックできないため、クリックすることで実行されるJavaScriptなどは基本的にクロールできません。

とはいえ、以前に比べるとGoogleのクローラーのJavaScript処理能力は格段に上がり、あまり意識しないでも、クロール、インデックスは上手くされます。

しかし、JavaScriptを多用しているサイトなどで一切配慮しないと、インデックスに悪影響がある可能性もまだまだ高く、以下のヘルプなどを参考にポイントを押さえるようにしましょう。

参考:JavaScript SEO の基本を理解する | Google 検索セントラル | Google Developers

クローラーのアクセスを確認する方法

クローラーがクロールしてくれたかどうかは、見た目にはわかりません。ここでは実際にGoogle Search Consoleを用いてウェブサイトがクロールされているかどうかを確認する方法を紹介します。

なお、全てのサイトでクロールの確認が必要ではありません。「インデックスさせたいページがインデックスされない」「サイトのページ数が数十万と非常に多い」「サイトの構造上、内部リンクの数が少ない」など懸念がある場合に確認しましょう、

※サーバーログを確認する方法もありますが、今回は簡易的なSearch Consoleを用いる方法をご紹介します。

ページ単位で確認する

URL検査の機能を使えば、そのURLが最後にクロールされたタイミングを見ることができます。

手順としてはSearch Consoleを開き、サイドカラムの「URL検査」もしくはページ上部の入力窓をクリックし、確認したいページのURLを入力して下さい。

ページ単位で確認する1

なお、末尾のスラッシュのありなしなどでも別のURLとして認識されますので、確認する際には注意して下さい。

URL検査の「カバレッジ」タブ内に、前回のクロール日とその際の状況が記載されています。

ページ単位で確認する2

最近だから良い。全く来ていないからまずい。などは、サイトやページによって異なります。例えば、毎日更新されるランキングのページなどで、クロールの間隔がかなり空いているようであれば、クロールに問題がある可能性があります。なるべく最新のページ状態をクローラーに見せたいためです。

一方、言葉の意味が変わらない辞書のようなコンテンツのページであれば、クロールの頻度が空いていたとしても、大きな問題にならないことが多いです。クロールしたとしても、ページの更新がないためです。

サイト全体のクロール情報を確認する

サイト全体のクロールの情報を確認したい際には「クロールの統計情報」が便利です。

サイト全体のクロール情報を確認する

他サイトと比較できるようなものでもない上、施策に落とし込むことが難しいため、注目していただきたいのは以下の2点になります。

クロールさせたいページ数と1日のクロールリクエスト数の比較

クロールリクエストは、ウェブサイトの規模やそのほかの要因によって決定されるものであり、多ければ良いものというわけではありません。しかし、サイトのインデックスさせたいページ数と比較して、クロールリクエスト数が少ない状態が恒常的に続く場合は、サイト内にクロールを阻害する要因がある可能性があります。

また、クロールリクエストの回数が急激に低下したり上昇したりすることが続く場合は注意が必要です。クロール数が大幅に増減するのには何らかの原因があり、人為的なミスが隠れていることもあるからです。

例えば、robots.txtで新たに追加したルールが作用していたり、ページのHTMLが壊れていたり、サーバに負荷がかかってサイトが重くなっていたりといった原因が考えられます。クロール頻度がある日突然大きく変動したときは、その原因を探りましょう。

ホストのステータスでエラーが起きていないか

ここでは「robots.txtの取得」「DNSの解決」「サーバー接続」の3つの項目でエラーが発生していないかを確認することができます。エラーが発生している場合はクロールだけでなく、サイトそのもので問題が起きている可能性があるため、定期的に確認しましょう。

レスポンスの確認

「レスポンスの確認」ではクロール時に受け取ったレスポンスのデータを確認できます。

正常なサイトの場合はOK(200)や301、302リダイレクト、見つかりませんでした(404)などが中心になりますが、サーバーエラーやクライアントエラーの数が多い場合にはそれらのページを修正する必要があります。

※404エラー自体はどのサイトでも発生するものであり、意図的でない404エラーを除き、一定数あるのが通常です。

まとめ

ここまでクローラー、Google検索におけるクロール、クロールの最適化のポイント、クロールの確認方法などを解説しました。

改めて最後に明記しておくと、全てのサイトでクロールが問題になるわけではありません。数百ページほどのサイトであれば、Googleのクローラーは上手にクロールしてくれます。

しかし、サイトの立ち上げ時など、可能な限り検索エンジンフレンドリーなサイトを心がけるのと、そうでないのでは大きな違いになります。あまりSEOに力を入れない予定のサイトほど、最初のタイミングで可能な限り対応しましょう。

SEO対策の全体像を知りたい方は以下の記事も読んでみてください!

SEOとは?SEO対策を分かりやすく徹底解説!

検索エンジンの仕組み、リスティング広告との違い、技術要件、コンテンツ制作について1つ1つ解説しています。

関連記事

HTMLとは?HTMLタグの基本構造とSEOへの影響について

HTMLとは?HTMLタグの基本構造とSEOへの影響について

Googlebotとは?

Googlebotとは?

アイキャッチ

【事例】構造化データ「よくある質問」実装による順位・クリック数・セッション数などの改善事例

新着記事

マーケティング 集客

集客はマーケティングの1つ!押さえておきたい4つのポイントを紹介

ウェブ集客

ゼロからわかる!ウェブ集客の方法やメリット・デメリットを解説

リスティング広告

リスティング広告の6つのメリット・5つのデメリットを解説

サイト内検索