クローラーとは?SEOのための最適化ポイント9つも合わせて解説

クローラーとは?SEOのための最適化ポイント9つも合わせて解説

クローラーとは、インデックスを作成することを目的に、ウェブ上のデータを自動化された方法で取得するプログラムのことです。

クローラーがサイトを巡回し、必要な情報を収集することで検索結果に反映されるため、SEOにとって非常に重要な役割を担っています。

そこで本記事では、

  • クローラーの仕組みについて
  • SEOのためのクローラー最適化ポイント9つ
  • クローラーのアクセスを確認する方法

などについて解説します。

オウンドメディアやウェブサイトの運営をしている方はぜひ最後までご一読ください。

この記事のポイント

  • クローラーが巡回したサイトがGoogleにインデックスされ、検索結果に表示される
  • クローラーのサイトの巡回しやすさをクローラビリティと言う
  • XMLサイトマップへの登録や内部リンクの最適化、ページ表示速度の改善などで対策する

また、下記のバナーからはSEOを最適化するためのポイントをまとめた資料が無料ダウンロードできます。こちらもぜひ併せてご活用ください。

クローラーとは

クローラーとは、コンテンツのインデックスを作成することなどを目的に、ウェブ上のデータを自動化された方法で取得するプログラムのことです。

「スパイダー」や「ボット」と呼ばれることもあり、クローラーが巡回し、データを取得することを「クロール」と呼びます。

クローラープログラムの構図

クローラーの仕組み

クローラーはウェブサイトのソースを解析し、そこに書かれてあるテキストや画像、PDF、リンクなどの情報を収集するのが役割です。ウェブサイトのリンクをたどる(クローリングする)ことで、ページを見つけ、情報収集を行っています。

Googleの場合はクローラーが収集した情報をデータベースに格納し、クロールで得た情報をベースにインデックス、ランキング付けを行っています。

クローラーの役割

クローラーの種類

クローラーは取得する情報に応じて複数のタイプが存在し、Googleであれば以下の3つのクローラーが存在します。

  • 幅広く情報を収集する「Googlebot」
  • 画像用の「Googlebot-Image」
  • 動画用の「Googlebot-Video」

ほかにもYahooやBingなどブラウザごとにもクローラーがあります。

このように、クローラーといっても取得するデータに応じたさまざまな種類があり、それぞれが日夜インターネットを巡回してデータを集め続けているのです。

クローラーの重要性

クローラーが情報収集しないとインデックス(データベースに登録)されないため、検索結果にも載りません。検索結果に載らないとユーザーが記事に辿り着きにくくなってしまうため、読んでもらう機会が減ってしまいます。

また、クローラーが巡回することで検索順位が更新される(正確には、クローラーが集めてきた情報を元にGoogleが検索順位の再判定を行う)ため、記事やウェブページを更新したタイミングで再度クロールしてもらう必要があります。

このように、検索結果に乗るためにはまずクローラーに巡回してもらい、作成したページをインデックスしてもらわなければなりません。そのため、SEOにおいてクローラーは非常に重要な役割をになっています。

Google検索におけるクロールの流れ

Googleのクローラーがインデックスするまでの流れを確認しましょう。

Googleクローラーがインデックスするまでの流れ

【流れ1】クロールキュー

クロールの前段階としてXMLサイトマップや、過去のクロールによって得られたURLをリスト化するフェーズとして、クロールキューがあります。

Google Search Consoleのカバレッジ「検出」がこれに相当するイメージをもっていただけるとよいと思います。

【流れ2】クロール

上記で説明したようにクロール時にテキスト、画像、PDF、リンクなどの情報を取得する他、サイトの更新されたポイントなども取得します。

ここで見つけたリンクは辿ることができる場合、クロールキューに追加されていきます。

【流れ3】HTMLパース・レンダリング

簡単に説明すると、「クロールして得た情報を元に、検索エンジンが(私たちがブラウザで見るように)コンテンツの表示を試みる」という作業が行われます。

この工程を行うことで、ユーザーと同じようにページを視覚的に理解することが可能になり、検索エンジンがインデックスするかしないかの判断をできるようになります。

【流れ4】インデックス

インデックスは検索エンジンのデータベースにウェブページが登録されることを指します。「①〜③で得た情報がGoogleのデータベースに登録される」という理解でいいでしょう。

インデックスされて初めて、検索結果に表示されるようになるのです。

【流れ5】ランキング

インデックスされたページをキーワード毎に、どの順番で表示するかランキング付けを行います。いわゆる検索順位のことであり、ランキングアルゴリズムにより、自動的に順位付けがされていきます。

このようにGoogle検索におけるクロールは、検索結果を表示するための情報を収集する作業となります。例えば、クロールを検索エンジンがしない場合、永遠に同じページが検索結果に出続けることになり、ユーザーが役に立つ情報を得られなくなってしまいます。

一方で、この世の全てのURLをGoogleのクローラーがクロールすることは不可能であり、各サイト毎にクロールの割り当てが行われています。

参考:Google 検索セントラル

クロールの割り当てはサイトの人気、ユーザーにとっての価値などによって決定されます。しかし、人気があったとしても1ページあたりのクロールの負荷が高く、クロールすべきページが必要以上に多い場合には、適切にクロールさせることができません。

\SEOで成果につなげる!資料ダウンロードはこちらから/

SEOのためのクロール最適化9つのポイント

先ほどお伝えしたように、クローラーは必ずしも全てのウェブページをもれなく巡回できるわけではありませんし、公開したページをすぐに発見してくれるとも限りません。

そのため、SEOを実施する上では、クローラーができるだけウェブサイト内を効率よく巡回しやすくするための工夫が求められます。

こういった検索エンジンクローラーのウェブサイトの巡回しやすさを総称して「クローラビリティ」と呼びます。1,000ページ以下のURL数しか持たないサイトにおいては、ほとんどの場合、クロールは効率的に行われるので意識はしなくていいでしょう。

数万以上ページがある大規模サイトの場合は、ある程度クロールの優先順位を付けることが重要になり、「クローラビリティ」を意識する必要が出てきます。

ここからは、クローラビリティを高めるためのポイントを9つ紹介します。

SEOのためのクロール最適化9つのポイント

【ポイント1】XMLサイトマップの作成・登録

クローラー

GoogleはXMLサイトマップに登録されているURLを、クロールを行う手がかりとしています。なお、XMLサイトマップに含めたからといって全てのURLが必ずクロールされるわけではありません。闇雲にURLを含むのではなく、クロールさせたいページをXMLサイトマップに含めるようにしましょう。

 

【ポイント2】パンくずリストを設定する

パンくずリストとは、サイトの階層構造がわかる表記部分を指しています。

パンくずリスト例

パンくずリストがあれば、クローラーだけではなく読者も記事のカテゴリが把握しやすくなります。

例えばパンくずリストが以下の形になっている場合、「オウンドメディアのSEOに関するサイト設計の話」と理解しやすくありませんか?

「HOME>SEO>オウンドメディア>サイト設計で気をつけるべき◯つのこと」

このように読者にサイトを巡回するクローラーにも、今読んでいる記事がどういった記事で、どういったカテゴリーかを端的に伝えられるため設置しておくのがおすすめです。

なお、WordPressの場合、パンくずリストの設置はテンプレートのカテゴリー設定または、プラグインの導入で設置できます。ただし、すでに大量に記事がある状態でパンくずリストを設定する場合は、カテゴリー分けに悩んでしまうことがあるかもしれません。あらかじめサイト設計を見直したうえで、パンくずリストを設定することをおすすめします。

パンくずリストについては、下記の記事でも解説していますので併せてご参考にしてください。

【ポイント3】内部リンクの最適化

クローラー

リンクはクロールを行う上でページ発見の手がかりとなります。

  • 内部リンクがほとんどないページを作らない
  • 検索エンジンが辿ることができない形式でリンクを設置しない

リンクはユーザー最優先の考え方で設置して構いませんが、最低限この2点だけは気を配りサイトにリンクを設置していきましょう。

 

※Googleの検索エンジンはhref 属性が指定されたaタグのみ、リンクをたどることができます。

【ポイント4】robots.txtの設定

ステージング環境の未完成ページや、要ログインページ、会員限定コンテンツなどクロールさせる必要のないページが大量に存在している場合は、robots.txtでdisallowを設定しましょう。

ただし、disallowを設定したとしても、外部リンクなどを元にインデックスされることがありますので、検索結果に表示させたくない場合は、noindexを付与するのがおすすめです。

【ポイント5】URLを見直し統一する

「https://」や「www」が無かったり、URLが複数にわかれたりしている場合は「1つのページにまとめること」がおすすめです。具体的には、リダイレクトをして「このページに統一しました!」というお知らせをクローラーが把握できるようにしましょう。

以下の画像のように自社メディアの一文を選択して検索することで、重複している内容を確認できます。

▼自社メディアを選択し、右クリックすると選択部分をGoogleで検索できる

右クリックすると選択部分をGoogleで検索できる

また、URLの統一をするときのリダイレクトは、「301リダイレクト」がおすすめです。「302リダイレクト」はURLが一時的に変更された場合に使う方法なので、注意しましょう。なお、リダイレクトについては以下でも詳しく解説しているので、事前に詳しく知りたい方はご一読ください!

【ポイント6】URLパラメータの設定

クローラー

サイト内で検索結果を持っているECサイトや求人サイトなどでは、大量のページが生成されます。その中には内容が重複しているページも大量に生成されるため、重要度が低いページはGoogleサーチコンソールのURLパラメータの制御を用いて特定のパラメータ、または特定の値が含まれたパラメータを含む URL がクロールされないように設定しましょう。

ただし、パラメータを設定したからといって確実にクロールされなくなるわけではありません。「クロールの効率化を助ける」という考え方が適切でしょう。

参考:

Search Console ヘルプ

海外SEO情報ブログ

【ポイント7】リンク切れしているページは削除する

クローラーはリンクを辿ってサイト内を巡回しているので、リンク切れのページがあると本来巡回できたはずのページにたどり着けなくなってしまいます。

また、リンク切れがあまりに多いとウェブサイトを訪れた読者にストレスを与えてしまい、途中で離脱してしまうことにつながりかねません。その結果、SEOでマイナス評価となり、記事の順位が下がってしまう原因となることもあります。

そのため、日頃からリンク切れがないかリンク切れでたどり着けないページが発生していないかチェックするのがおすすめです。リンク切れしているページは、Googleサーチコンソールや無料のリンク切れチェックツールで簡単に確認できます。

リンク切れによる影響や具体的な確認方法については、以下をご一読ください!

【ポイント8】ページ表示速度の改善

クローラー

サイトの表示速度が高まるとユーザーの利便性が向上するだけではなく、クローラーのクロール速度も上がります。サーバーエラーやタイムアウトが多い場合はサーバー状態に問題があるとみなされ、クロールが遅くなります。

また、サーバサイドの問題だけではなく、画像ファイルやCSS、Javascriptといったリソースについてもクローラビリティに影響を及ぼします。

【ポイント9】Javascriptの最適化

Googleのクローラーは最新バージョンのChromeと同等のレンダリング機能を持っており、概ねJavaScriptは実行できると考えていいでしょう。

しかし、ページ表示まで待ってくれるブラウザと異なり、レンダリング時にJavaScriptの実行に時間がかかる場合は、該当部分のレンダリングを行えない場合も発生し、最悪の場合インデックスされないこともあります。

また、検索エンジンはサイトのコンテンツをクリックできないため、クリックすることで実行されるJavaScriptなどは基本的にクロールできません。

とはいえ、以前に比べるとGoogleのクローラーのJavaScript処理能力は格段に上がり、あまり意識しないでも、クロール・インデックスはされます。

しかし、JavaScriptを多用しているサイトなどで一切配慮しないと、インデックスに悪影響がある可能性もまだまだ高く、以下のヘルプなどを参考にポイントを押さえるようにしましょう。

参考:Google 検索セントラル

クローラーのアクセスを確認する3つの方法

最後に、クローラーが巡回してくれたか確認する方法も紹介します。

  • 【方法1】ページ単位で確認する
  • 【方法2】サイト全体のクロール情報を確認する
  • 【方法3】レスポンスの確認

【方法1】ページ単位で確認する

URL検査の機能を使えば、対象のURLが最後にクロールされたタイミングを見ることができます。手順としてはSearch Consoleを開き、サイドカラムの「URL検査」もしくはページ上部の入力窓をクリックし、確認したいページのURLを入力して下さい。

クローラー

なお、末尾のスラッシュのありなしなどでも別のURLとして認識されるため、確認する際には注意しましょう。URL検査の「カバレッジ」タブ内に、前回のクロール日とその際の状況が記載されています。

クローラー

最近だからよい。まったく来ていないからまずい。などは、サイトやページによって異なります。

例えば、毎日更新されるランキングのページなどで、クロールの間隔がかなり空いているようであれば、クロールに問題がある可能性があります。この場合は、Search consoleにてクローラーのリクエストを行いましょう。

一方、言葉の意味が変わらない辞書のようなコンテンツのページであれば、ページ更新頻度が低いため、クロールの頻度が空いていたとしても、大きな問題にならないことが多いです。

【方法2】サイト全体のクロール情報を確認する

サイト全体のクロールの情報を確認したい際には「クロールの統計情報」が便利です。

クローラー

他サイトと比較できるようなものでもない上、施策に落とし込むことが難しいため、注目していただきたいのは以下の2点になります。

クロールさせたいページ数と1日のクロールリクエスト数の比較

クロールリクエストは、ウェブサイトの規模やそのほかの要因によって決定されるものであり、多ければ良いというわけではありません。しかし、サイトのインデックスさせたいページ数と比較して、クロールリクエスト数が少ない状態が恒常的に続く場合は、サイト内にクロールを阻害する要因がある可能性があります。

また、クロールリクエストの回数が急激に低下したり上昇したりすることが続く場合は注意が必要です。クロール数が大幅に増減するのには何らかの原因があり、人為的なミスが隠れていることもあるからです。

例えば、robots.txtで新たに追加したルールが作用していたり、ページのHTMLが壊れていたり、サーバに負荷がかかってサイトが重くなっていたりといった原因が考えられます。クロール頻度がある日突然大きく変動したときは、その原因を探りましょう。

ホストのステータスでエラーが起きていないか

ここでは「robots.txtの取得」「DNSの解決」「サーバー接続」の3つの項目でエラーが発生していないかを確認することができます。エラーが発生している場合はクロールだけではなく、サイトそのもので問題が起きている可能性があるため、定期的に確認しましょう。

【方法3】レスポンスの確認

「レスポンスの確認」ではクロール時に受け取ったレスポンスのデータを確認できます。

正常なサイトの場合はOK(200)や301、302リダイレクト、見つかりませんでした(404)などが中心になりますが、サーバーエラーやクライアントエラーの数が多い場合にはそれらのページを修正する必要があります。

※404エラー自体はどのサイトでも発生するものであり、意図的でない404エラーを除き、一定数あるのが通常です。

クローラーはSEOの面でも重要な役割をになっている

ここまでクローラー、Google検索におけるクロール、クロールの最適化のポイント、クロールの確認方法などを解説しました。

あらためて最後に明記しておくと、全てのサイトでクロールが問題になるわけではありません。数百ページほどのサイトであれば、Googleのクローラーは上手にクロールしてくれます。

しかし、サイトの立ち上げ時など、可能な限り検索エンジンフレンドリーなサイトを心がけるのと、そうでないのでは大きな違いになります。

あまりSEOに力を入れない予定のサイトほど、最初のタイミングで可能な限り対応しましょう。

また、弊社ではSEOをメインとする支援サービスを行っています。以下の資料には、SEOに関したよくある間違いやSEOを成功させるための秘訣をまとめています。これからSEOに力を入れていきたい方はぜひ無料ダウンロードのうえ、ご活用ください。

  • SEO成功事例・法則資料
  • SEO1問1答 全30問
  • SEO内製化 (インハウスSEO) 進め方ロードマップ

関連記事

本日のSEOニュース (2021年3月29日収集分)

直帰率改善で意識したい9のこと

ディレクトリとは?のイメージ

ディレクトリとは?データ管理の理想的な構造でウェブサイトを最適化しよう

meta-keywords(メタキーワード)過去の使われ方から学ぶ不要になった背景

meta keywords(メタキーワード)過去の使われ方から学ぶ不要になった背景

新着記事

パラメータとは?のイメージ

パラメータとは?アクティブとパッシブの違いについて

ディレクトリとは?のイメージ

ディレクトリとは?データ管理の理想的な構造でウェブサイトを最適化しよう

サブドメインとは?のイメージ

サブドメインを活用しよう!意味やメリット、サブディレクトリとの使い分けを解説