コラム

SEO

robots.txtとは？robots.txtの役割と活用法

2023年11月17日

robots.txtとは何か

インターネット上のWebサイトを検索エンジンがインデックス化する際、その取り扱いを指示するためのプロトコルがrobots.txtです。Webサイトのどの部分がWebロボットの索引へのアクセスを許し、どの部分を制限すべきかを伝える重要な役割を果たします。特に制作するウェブページが敏感なコンテンツを含んでいた場合や、特定部分を公開から排除したい時などに活用されます。このテキストファイルはウェブサイトのルートディレクトリに配置され、ウェブロボットが最初に訪問する対象となります。

robots.txtの用途

まず、robots.txtの最も一般的な用途は特定のページをウェブロボットから隠すことです。もし特定のページを検索エンジンの索引から排除したい場合、そのページのURLをディスアロー指示で記述します。これにより、指定されたページはウェブロボットによってインデックス化されなくなります。また、ウェブサイト内の特定のリソースをブロックすることも可能です。例えば、画像やCSSといったリソースをクローラーからブロックしたい場合も、robots.txtを利用することができます。さらに、robots.txtはサイトマップへのリンクを記載するためにも使われます。これにより検索エンジンはサイトマップのロケーションを容易に知り、ウェブサイトのクロールを効率的に行うことが可能となります。

検索エンジンとrobots.txtの関係

検索エンジンがウェブサイトをクロールする際、最初に訪問するのがrobots.txtというテキストファイルです。ここに書かれている指示をもとに検索エンジンはウェブサイトをクロールします。したがって、robots.txtがなければ検索エンジンはウェブサイトの全てのページをクロールしインデックス化します。しかし、これだけでは完全には理解されないかもしれません。なぜなら、robots.txtがない場合やディスアロー指示がない場合でも、特定のページをクロールすることを拒否する機会はまだありますからです。それはHTMLのmetaタグを使用して行われます。robots.txtとHTMLのmetaタグ、両方を理解し活用することで、より効果的なSEO対策を構築することが可能となります。

正しいrobots.txtの設定方法

サイトの効率的なクローリングを行い、索引の最適化を行うためには、robots.txtの設定は欠かせません。これは、SHオットがウェブサイトへのアクセスを制御するための重要なプロトコルで、ボットにここを見て、あそこは見ないでといった具体的な指示を出すことができます。この考え方自体は非常に簡単で明瞭なものですが、書式や構造等、細かな部分については深く理解して設定をする必要があります。

基本的な書式と構造

robots.txtは一見すると難しく見えるかもしれませんが、実際は非常にシンプルなフォーマットで作成されています。基本的な構造としては、「User-agent」と「Disallow」の二部構造になります。例えば、「User-agent: *」「Disallow: /private/」という書式であれば、「すべてのボットに対して、/private/以下のページをクロールしないように指示している」ということになります。ここで、「User-agent: *」はすべてのボットを指す記述であり、「Disallow: /private/」は“/private/”以下のディレクトリをクロール禁止とする記述です。このような記述方法を理解し、適切にrobots.txtを設定することで、ウェブサイトのインデックス決定等、SEO向上に役立ちます。

特定のボットへの指示の追加

続いて、「特定のボットへの指示」の追加方法について説明します。特定のボットに対してだけアクセスを許可したり拒否したりする場合には「User-agent: ボット名」と指定をします。例えば「User-agent: Googlebot」のように記述することで、Googlebotのみが対象となります。その下に「Disallow: /」と記述することで、Googlebotのみが全体的なアクセスを制限されるという指定が可能となります。このように、明確に特定のボットに対するアクセス制限や許可を行うことをお勧めします。

sitemapの追記方法

最後に、sitemapの追加の仕方も説明しておきます。Sitemapはサイトの全ページの情報を持つため、これをrobots.txtに記載することで、クローラーによる効率的なインデクシングを開始するきっかけを作ることができます。具体的には、robots.txtの一番下に「Sitemap: ドメイン/sitemap.xml」と記載します。その上で、サイトマップのURL型式は絶対URLで記載するとより有効です。「Sitemap: https://www.あなたのサイト.com/sitemap.xml」のように記載すれば十分です。この方法を用いることで、ボットがより優れたインデクシング結果を得るための助けになります。以上が、robots.txtの設定方法の全てです。これらを覚えて、のSEO効果を高めましょう。

標準的なrobots.txtファイルの例

robots.txtとは、GoogleやYahoo!などの検索エンジンがウェブサイトの情報を収集、インデックスする際に、その挙動をガイドするためのテキストファイルです。ウェブサイトのルートディレクトリに配置され、特定のウェブクローラーやボットからのアクセスを許可したり、拒否したりする設定が可能です。これは、不必要にクロールさせたくないページやディレクトリを指定するためのものであり、サイト訪問者には見えませんが、サイトの運用やSEOに大きく影響します。

全ページをクロールする設定例

全てのページをクロールさせる設定をする場合の一例をご紹介します。以下のようにUser-agentとDisallowの指定を行います。 User-agent: * Disallow: ここで、”User-agent: *”は全てのクローラーを対象に指定しています。そして”Disallow: “の部分が空白になっていることで、全てのディレクトリがクロール可能となる設定となります。これは、特に特定のページをクロールさせたくないという場合がない、ウェブサイト上の全ての情報を検索エンジンにて利用可能にしたいと望むウェブマスターが利用する設定例となります。

一部ページをクロールさせない設定例

一部のページだけクロールさせたくないという要望がある場合、以下のように設定が可能です。 User-agent: * Disallow: /private/ この場合、”/private/”というディレクトリ内の全てのページがクロール対象から除外されます。”Disallow: “の後にあるパスが、クロールを拒否するディレクトリ・ファイルを指すためです。必要に応じて、Disallowの行を追加することで、複数のディレクトリやページをクロール除外対象に設定することが可能です。

特定のボットだけ除外する設定例

特定のボットだけを除外したい場合でも、それらを効果的に制御することができます。以下の例では、Googlebotだけをクロール対象から除外した設定を示しています。 User-agent: Googlebot Disallow: / ここで、”User-agent: Googlebot”と記述していることで、Googleのクローラー、Googlebotに対する設定を行っています。そして”Disallow: /”と指定することで、全てのパス（ウェブサイトの全領域）がGooglebotからのクロールを拒否する設定となります。さまざまなボットの行動を微調整したいというウェブマスターにとって、このような設定は非常に有用です。

robots.txtのエラーと問題の修正

robots.txtとはウェブサイトの運営者が検索エンジンのクローラーに対して、何を索引化すべきであり何を避けてほしいのかを指示するためのテキストファイルです。しかし、設定ミスや書き方によりエラーが起き、検索結果に影響を与えることがあります。そのため、問題が発生した際には、早急に対処することが重要です。

よくあるエラーとその対処法

robots.txtのエラーには大きく分けて2つ、すなわち「文法エラー」と「リンクエラー」があります。まず、「文法エラー」は、robots.txtが正しく書かれていないことによって生じます。例えば、「User-agent: *」あるいは「Disallow: /」などが適切に配置されていない場合に該当します。この修正法はシンプルで、エラーの部分を正しい記述方法に改めるだけです。次に、「リンクエラー」はウェブサイトの特定のページやディレクトリが存在しない、あるいは検索エンジンからアクセスできないことによるものです。この解決策は二つあり、1つ目は記述ミスを修正して正しいURLを指定すること、2つ目は設定していたURLが存在しない場合、それを削除もしくは変更することです。

Google Search Consoleを使用したエラーチェック

Google Search ConsoleはGoogleが提供するウェブマスターツールで、robots.txtのエラーチェック機能も備えています。まず、Google Search Consoleにログイン後、「検閲ツール」をクリックします。その後、「robots.txtテスター」を選択することにより、robots.txtの記述が適切であるかを確認することが可能です。検証結果にエラーが表示された場合、その箇所とエラー内容が詳しく説明されます。エラー箇所を修正した後、再度「テスト」ボタンをクリックしてエラーが解消されたかを確認しましょう。また、設定変更後は「送信」ボタンをクリックしてGoogleに通知することで、該当ページの再クローリングを早めることができます。これらの工程を経て、robots.txtのエラーチェックと修正を行うことができます。うまく活用し、サイトのSEO対策をしていきましょう。

robots.txtのテスト方法

robots.txtのテスト方法について紹介します。明確にロボットに対して、どのページをクロール（インデックス）しても良いか、アクセスして欲しくないかを指定するものがこのrobots.txtとなります。実は、このrobots.txtの記述ミスは、検索エンジンにまったく見て欲しくないページを誤って公開してしまったり、逆に、しっかりとクロールして欲しいページが検索エンジンから見られなくなる原因となります。ですので、robots.txtは定期的にテストを行って適切に設定しておくことが求められます。

Googleの無料ツールを使用したテスト

Googleの無料ツールである、Google Search Consoleを活用することで、robots.txtのテストが豊富に可能です。具体的にはテストツールでURLを入力し、「テスト」ボタンをクリックすれば、robots.txtファイルがGooglebotによって正しく読み取れるかがチェックできます。また、ツール上に表示される「詳細」欄では、robots.txtの各行がどのように解釈されるかを確認することができます。Googlebotの視点からのページへのアクセス許可状況も把握できるため、常にリアルタイムで状況を把握し、必要な修正を行っていくことが可能です。

テスト結果の読み方と対処

テストの結果、robots.txtの解釈に問題がある場合、具体的にどの行が問題を引き起こしているのかを記述しています。まずは、その原因を特定しご自身のサイトが何を目指しているのかを再確認します。例えば、検索エンジンに情報を提供したい場合、robots.txtでそのページをブロックしてしまっているのであれば、その行の設定を改めて確認し設定を見直したり、修正していきます。また、反対に、情報を閲覧されたくないページが検索エンジンに公開されてしまっている場合は、それらのページがrobots.txtによりきちんとブロックされているかを見直すことが求められます。このテストにより、検索エンジンからのサイトの評価を高め、より多くのユーザーへ自身のサイトを届ける手助けになります。

robots.txtの最適化で達成できること

robots.txtの最適化は、ウェブサイトのパフォーマンス向上に不可欠な要素です。具体的には、ウェブサイトのクロール効率を向上させることや、検索エンジンのインデックス対象ページを選択する際に重要な役割を果たします。正確に最適化されたrobots.txtは、サイトの視認性を向上させ、結果的にトラフィックやランキングを向上させる可能性があります。

ウェブサイトのクロール効率向上

robots.txtを適切に設定することで、検索エンジンがウェブサイトをクロールする効率を強化することができます。移行時間の短縮、サーバー負荷の軽減、価値の低いページへのクロールを避けるなど、様々な利点があります。特に、大規模サイトではこれらのメリットが顕著に現れるでしょう。クロールバジェットという考え方があり、検索エンジンはサイトをクロールする際に一定の時間とリソースを割くのですが、それは無限ではありません。例えば、無駄なページにクロール時間を浪費してしまうと、重要なページのクロールが遅れる恐れがあります。しかし、robots.txtの最適化によって、価値の低いページのクロールを防ぎ、クロールバジェットを有効に活用することが可能になります。

検索エンジンのインデックス対象ページの選択

また、robots.txtの設定によって、検索エンジンのインデックス対象ページを制御することも可能です。検索エンジンがクロールするページを選択することで、質の高いページが優先的にインデックスされ、ユーザーに対する情報提供の質を向上することが可能になります。たとえば、利用者には関係のない管理者ページや、重複した内容を持つページなどは、検索結果に表示させる必要がありません。そのようなページを検索エンジンから除外することで、ユーザーにとって価値ある情報だけを提供することが可能となり、ウェブサイトの評価を高められるでしょう。したがって、robots.txtの最適化は、サイトのパフォーマンス向上だけでなく、ユーザーエクスペリエンスの向上にも寄与する重要な要素と言えるでしょう。

デフォルトのrobots.txtからの移行方法

ウェブサイトにアクセスすべきでないWebクローラーを管理するためには、robots.txtが不可欠です。しかし、皆さんが新たなrobots.txtを用意した場合、デフォルトのrobots.txtからどのように移行すべきなのでしょうか。ここでは、その方法を詳しく解説します。

新規robots.txtの書き方

新規のrobots.txtを作成するには、まずテキストエディタを用いてファイルを作成します。その際、ファイル名を必ず「robots.txt」としましょう。ますます既存のUser-agentに基づく記述がある場合、その記述をアップデートしていきます。新たに追加するルールがある場合は、そのルールを適切な形式で記述します。例えば、特定のUser-agentをブロックしたい場合は、「User-agent: 〇〇」「Disallow: /」と記載します。〇〇の部分にはブロックしたいUser-agentの名前を記入します。「Disallow: /」は、そのUser-agentがウェブサイト全体にアクセスすることを禁止するという意味になります。ルールを全て記述したら、必ず保存を忘れずに行いましょう。ここで注意が必要なのは、一つのUser-agentに対して複数のルールを設ける場合、最初にマッチしたルールが適用されるという点です。したがって、記述の順序を考慮して作成することが重要です。

Webサーバーへのアップロード方法

次に、これまで作成した新規のrobots.txtをWebサーバーにアップロードする方法について説明します。まず、FTPクライアントを起動し、接続先のWebサーバー情報を入力します。IDやパスワード、ホスト名などが必要になるので、事前に用意しておきましょう。サーバーに接続したら、ウェブサイトのルートディレクトリ（通常は「public_html」や「htdocs」など）を開きます。その後、ローカルのパソコン上で作成した新規のrobots.txtを選択し、アップロードするボタンを押します。アップロードが完了したら、ブラウザから「http://あなたのドメイン名/robots.txt」にアクセスし、正常に表示されるかを確認します。これで、新規のrobots.txtのアップロードは完了です。

robots.txtの効果測定と改良

robots.txtとは、ウェブサイトの情報を収集するウェブクローラーに対して、一部ページへのアクセスを制限する情報を提供するファイルです。特に検索エンジンなどからの無駄なクローリングを防ぐために設置されることが多いです。しかし、あまりにも厳しくアクセスを制限してしまうと、ウェブページの情報が適切にインデックスされない、いわゆる探索エンジンの被覆率低下が起きる可能性もあります。そこで、robots.txtの効果を適切に測定し、必要な改良を重ねるための方法を解説していきます。

効果測定の基礎知識

robots.txtの効果を測定するためにはまず、ウェブログの分析が不可欠です。特に「Google Search Console」はこの分析に非常に役立ちます。Google Search Consoleでは「robots.txtのテスター」機能を使って、ウェブページが検索エンジンにどのように評価されているかを確認することができます。また、ここでエラーが見つかった場合、それがrobots.txtの影響かどうかを調べることも可能です。次に、実際のアクセス状況はウェブログから確認します。つまり、robots.txtで制限したはずのURLへのアクセス記録がないかどうかをチェックするのです。また、期待通りに検索エンジンなどがページを探索しているか確認するために、Sitemapの利用も効果的と言えるでしょう。これらの分析を基に、robots.txtが正しく効果を発揮しているかどうかを評価し、必要な調整を行うための情報を得ることができます。

測定結果を基にした改良例

robots.txtの測定結果をもとに改良を行うためには、まずエラーの解消が重要です。Google Search Consoleで認識されたエラーを基に、ミスがないかrobots.txtを再確認し、エラーが解消するまで試行錯誤を繰り返すことが求められます。また、既存の指示が正しく効果を発揮しているか試験的に一部削除や変更を行い、結果を比較検討していくのも有効な改良方法です。さらに、Sitemapの利用も改良に役立ちます。Sitemapを活用することで、ページの重要性や更新頻度などの情報を検索エンジンに伝えることができます。これにより、robots.txtによるアクセス制限がページの被覆率に与える影響を最小限に抑えることができます。これらを踏まえ、効果的なrobots.txtの設定方法と改良について、一つ一つ理解し、適切に適用していくことが大切です。