クローラーとは?SEO対策に不可欠な基礎知識とクローラビリティを向上する方法

クローラーは、検索エンジンでの表示順位を決定するためにサイトの情報を収集する自動巡回ロボットです。クローラビリティの高いサイトは情報が適切に収集されるため、SEO対策が結果を出しやすくなります。この記事では、クローラーの詳細とともに、その重要性やクローラビリティを上げる方法をご紹介します。

クローラーとは

クローラーとは、Webサイトの情報を収集して検索データベースを作成する自動巡回ロボットのことです。這い回るという意味の【crawl】から、クローラーと呼ばれています。

クローラーの種類

役割はほぼ同じですが、検索エンジンごとにクローラーも異なるものです。名高い検索エンジンのクローラーは次のようになっています。

・Google→Googlebot
・bing →Bingbot
・Baidu(百度)→Baiduspider
・Yahoo!(日本以外)→Yahoo! Slurp
・Naver →Yetibot

以上のクローラー以外にも、SEOツールのクローラーや画像専門のクローラー、広告専門のクローラーが存在します。複数ある検索エンジンの中でもGoogleのシェアは世界トップで、日本でも80%以上のシェアを誇っています。Yahoo! JapanもGoogleの検索エンジンを使用しているため、SEO対策はGoogleに対して行うべきなのです。

クローリングの対象

クローラーはリンクを辿ってサイトを巡回(クローリング)してソースを解析した後、次のようなファイルを収集します。

・HTML
・テキストファイル
・CSSファイル
・JavaScriptファイル
・画像
・Flash
・PDF

収集したファイルは検索アルゴリズムが扱いやすいデータに変換し、データベースへ結果を登録します。

クローラビリティとは

クローラビリティは、サイト内におけるクローラーの巡回しやすさのことです。クローラーはサイト内の様々なファイルを解析・収集して、データベースに結果を登録します。クローラビリティがしっかりしていれば、クローラーがサイトの情報を適切に収集してくれるようになります。自社サイトの価値を100%過不足なく伝えるには、サイト内をクローラーが巡回しやすくなるようにサイトの構造を整えることが重要です。

クローラーの重要性

検索エンジンがユーザーに有益な検索結果を提供するためにも、クローラーがサイトの情報を正しく収集することが重要になります。クローラーが巡回せず、サイト情報が収集されなければ検索エンジンには表示されません。つまり、SEO対策をしていても意味がなくなってしまいます。検索結果に表示されるにはまず、クローラーにサイトをクローリングしてもらうことが必要です。

クロールバジェットについて

クロールバジェットは、クローラーが一定期間内でサイトをクロールする配分のことを指します。Googleのリソースにも限りがあり、クローラーが巡回できるページにも限りがあるということです。そのため、優先順位が高いページは積極的にクロールさせた方がよいでしょう。クロールバジェットはGoogle公式で使用される概念ではありませんが、それに近い判断基準が存在します。

リソースに限りがあるとはいえGoogleのリソースは膨大なため、ページ数が1,000を下回る小規模のサイトはクロールバジェットを気にする必要はありません。一方で、大規模のサイトや、URLパラメータでページを自動生成するサイトでは、クロールの対象となるページやクロールのタイミング、サイトを提供するサーバー内でクロールのリソース量に優先順位をつけることが重要となります。

クローラビリティを上げるための6つのポイント

サイトにクローラーが訪れた後で大切なのは、クローラーに正しくサイトの内容を理解してもらうことです。ここでは、Googleにおけるクローラビリティ向上のコツを紹介します。

XMLサイトマップの作成
内部リンクを最適化
パンくずリストの設置
ページ表示速度を高める
重複ページをなくす
Googleにクロールリクエストを送る

XMLサイトマップの作成

Googleのクローラーは、XMLサイトマップに設定されているURLをクローリングの手掛かりにしています。新規記事やリライトなどの更新があっても、XMLサイトマップを設置していれば検索エンジンに伝わるため、クロールさせたいページはXMLサイトマップへ登録しておくようにしましょう。

内部リンクを最適化

クローラーはリンクを辿ってサイト内をクローリングします。内部リンクが必要でない箇所を除き、内部リンクがないページを作らないようにしましょう。また、リンクは画像よりもテキストリンクでの設定がおすすめです。テキストリンクのほうがクローラーの巡回率は高いといわれています。

パンくずリストの設置

パンくずリストは、ユーザーが現在サイト内のどの位置にいるかを示したリストを指します。ページの上部または下部で階層順にリンクが並べられていることが多いです。パンくずリストが正しく設置されていると、クローラーもサイト内の現在地を認識できるためクローラビリティが上がります。

ページ表示速度を高める

ページの表示速度が高まるとクロールの速度も上がり、クローラビリティが向上します。クロールの速度が上がれば、余ったクロールのリソースを他のページに充当できるという利点もあります。表示速度を高めるには、ファイルのサイズを減らすことが有効です。画像やCSS、Javascriptなどのファイルを圧縮するだけでなく、不要なソースコードを削除しても表示速度の向上が見込めます。

重複ページをなくす

サイトの中には、同じページであっても「www.」が含まれるURLと含まれないURLが重複していることがあります。この場合、重複コンテンツとしてGoogleからの評価が下げられてしまう恐れがあるため、注意が必要です。さらに、クローラーには全ての重複ページがクロールされるため、他のページにクロールするのに時間がかかったりクローリングできなかったりします。重複ページは1つのURLに統一し、クローラビリティを上げましょう。

Googleにクロールリクエストを送る

Googleでは、Google Search ConsoleからURL検査ツールを使ってクロールをリクエストできます。ただし、クロールリクエストは個々のURLを送信するため、URLの数が少ないサイトでおすすめの方法です。URLが多い場合は、サイトマップの送信が推奨されています。クロールリクエストの手順は下記の通りです。

1.URL 検査ツールを使用して、URL を検査
2.[インデックス登録をリクエスト] を選択
3.問題が検出されなければ、ページがインデックス登録のキューに追加される
ページに問題が見つかった場合は、ページの修正を試みる

引用:https://developers.google.com/search/docs/advanced/crawling/ask-google-to-recrawl?hl=ja#guidelines

クローラーの巡回を確認する方法

クローラーがサイトを巡回し、正しく情報収集をしているかどうかを確認する方法をご紹介します。ただし、新規記事やクロールをリクエストしたばかりのページはインデックスされるまでに多少の時間を要するため、すぐに確認できるとは限りません。

・URLの前に「Site:」をつけて検索
・タイトルやメタディスクリプションを変更して確認
・クロールの統計情報を確認

URLの前に「Site:」をつけて検索

新規記事の公開後にクローリングされたかどうかを確認できる方法です。URLの前に「Site:」とつけてGoogle検索すると、クローラーが訪れていれば該当のページが表示されます。インデックスされていなければ、「一致する情報は見つかりませんでした」との表示が出てきます。新規記事が認識されていないようなら、クロールリクエストを行いましょう。

タイトルやメタディスクリプションを変更して確認

記事のリライトなどで更新された記事がクローリングされたかを確認するときに試せる方法です。更新前のタイトルやメタディスクリプションを変更し、更新後にsite:URLで確認します。ここで注意したいのが、変更すべきなのはタイトルやメタディスクリプションなどの「検索結果」で表示される部分だということです。検索結果には表示されない本文中の部分を変更していても、クローリングされたかは確認できません。

クロールの統計情報を確認

Googleサーチコンソール内のクロールの統計情報でも、クローラーの訪問を確認できます。サーチコンソールのメニューから「設定」を選択し、クロールの統計情報で「レポートを開く」をクリックすれば、当該サイトのクロールの統計情報が表示されます。ただし、この方法は日付別にクローラーが訪れたページの数を確認するものです。どのページにクローラーが訪れたかを知りたい場合は、上記2つの方法を試しましょう。

クローラーは審査員!クローラビリティを上げて価値あるサイトに

クローラーは、検索エンジンが表示順位を決定するためにサイト内の情報を収集する自動巡回ロボットです。クローラーによってサイトの情報が正しく収集されれば、データベースに結果が登録され、SEO対策が有効に働きます。クローラーが巡回しやすい(クローラビリティが高い)サイトを作成するためのポイントを押さえ、検索エンジンにとってもユーザーにとっても価値あるのサイトに育てていきましょう。