robots.txtとは?SEOにおける重要性や設定方法、設定時の注意点も解説!
robots.txtとは、「クローラー」の動作を制御するために記述するテキストファイル(.txt)です。今回は「robots.txt」に焦点を当て、その概要やSEOにおける重要性、作成方法、設定方法、動作確認方法、設定時の注意点などをご紹介します。気になるポイントを一挙確認しましょう。
robots.txtとは?
robots.txtとは、「クローラー」の動作を制御するために記述するテキストファイル(.txt)です。主に、サイト内の指定したURLをクロールできないようにする働きがあります。
robots.txtの重要性:SEOに有効
大前提として、robots.txtの設定は必須ではありません。しかし中・大規模なサイトでは、そのコンテンツ量の多さから、クローラーが適切にサイト内を巡回できない可能性があります。そこで、不必要なページの巡回を制御し、重要なページを優先的に巡回してもらえるように設定します。その結果、自社サイトのクローラビリティが向上し、検索エンジンから正当なSEO評価を受けられるようになります。
【設定すべきかを決めるポイント】
|
robots.txtとnoindexタグの違い
noindexとは、検索エンジンに自社サイトやページをインデックス登録させないようにするメタタグです。
|
robots.txtの書き方:4要素
robots.txtは、主に以下の4要素で構成されています。
要素 | 効果 |
---|---|
User-Agent | 制御するクローラーを指定する際に用いる |
Disallow | クロールを制御したいページを指定する際に用いる |
Allow | クロールを許可したいページを指定する際に用いる |
Sitemap | クローラーにサイトマップの場所を指定する際に用いる |
なお、細かいルールについてはこちらをご確認ください。
robots.txtの作成方法
ここでは、基本的な作成方法について簡単に解説します。
1.基本形
作成する際の基本形は以下です。
|
2.制御したいクローラーを指定する場合
例えば、Googleには「Googlebot」と呼ばれるメインのクローラー以外にも、「Googlebot-Image」や「Googlebot-News」「Googlebot-Video」など多数の種類のクローラーが存在します。「User-Agent」を用いて、制限したいクローラーを設定しましょう。
全てのクローラーを指定する場合 | Googleのクローラーを指定する場合 |
---|---|
User-Agent: * | User-agent: Googlebot |
Webサイト運用の初期段階では、全てのクローラーを対象にすることがほとんどかと思いますので、ワイルドカードの1つ「*(アスタリスク)」を指定しておけば問題ないでしょう。
なお、Googleクローラーの種類についてはこちらをご確認ください。
3.クロールを制限する場合
クロールを制限したいディレクトリやページには「Disallow」を設定しましょう。
サイト全体をブロック | 特定のディレクトリを制御 | 特定のページを制御 |
---|---|---|
User-Agent:* Disallow: / |
User-Agent:* Disallow: /〇〇.com/ |
User-Agent:* Disallow: /〇〇.com/sample.html |
なお、他にも多数の方法で細かくブロックできます。詳細な実例はこちらをご確認ください。
4.クロールを許可する場合
「Disallow」を設定したディレクトリやページの中に、例外的にクロールさせたいページがある場合は「Allow」で設定しましょう。
User-agent: * Disallow: /〇〇.com/ Allow: /〇〇.com/sample.html |
5.サイトマップを知らせる場合
サイトマップ(sitemap.xml)の場所を設定すれば、クローラーが自社サイトを巡回しやすくなります。必須ではありませんが、可能な限り設定することをおすすめします。
User-Agent:* Disallow:Sitemap: http://〇〇.com/sitemap.xml |
robots.txtの設定方法
作成したrobots.txtファイルは、FTPソフトを利用してルートディレクトリ(※)にアップロードしましょう。
例えば、自社サイトのアドレスが「http://〇〇.com/」の場合は以下の記述が正解です。
OK:http://〇〇.com/robots.txt NG:http://〇〇.com/sample/robots.txt |
ーーーー
※コンピュータファイルシステムのファイル階層の最上位に位置するディレクトリ
robots.txtの動作確認方法
ファイルのアップロード後は、正しく機能しているかどうかをテストしましょう。動作はGoogle Search Consoleに搭載された「robots.txtテスター」で確認できます。
|
robots.txtを設定する際の注意点
ここでは、設定する際の注意点について3点解説します。
1.すでにインデックス登録されているページは制御できない
すでにインデックス登録されてしまっているページは、robots.txtでブロックできません。ブロックしたい場合は、該当するサイトやページにnoindexタグを設定しましょう。その場合は、robots.txtの設定を一度解除する必要があります。noindexタグを設定後、再度robots.txtを設定することで該当ページへのクロールを制御できます。
2.制御できないクローラーもある
一部の検索エンジンのクローラーは、robots.txtで制御できないことがあります。その場合は、.htaccessを設定したり、ページをパスワードで保護したりなど別の方法を試してみましょう。
3.内容の反映には時間がかかる
Googleの場合、robots.txtの内容を変更しても反映されるまでに1,2週間かかります。Googleが前回使用していたキャッシュをクリアするまで気長に待ちましょう。しかし、できるだけ早急に反映してほしいという場合もあるでしょう。その場合は、変更したことを直接Googleに申請することができます。
【申請方法】
|
robots.txtを設定してSEO効果を高めよう!
このページでは、「robots.txt」に焦点を当て、その概要やSEOにおける重要性、作成方法、設定方法、動作確認方法、設定時の注意点などについて解説しました。
robots.txtの設定は必須ではありません。しかし、検索エンジンに自社サイトやページを適切に評価してもらうという観点から重要な要素でもあります。SEO対策として有効なので、特に中規模以上のサイトを運営する方は設定することをおすすめします。
株式企業ipeではSEOでの大手クライアント実績も多数ありますので、SEOを検討する際にはぜひ一度ご相談ください。
SEOに関するご相談があれば、ぜひipe(アイプ)へご相談ください。