目次
robots.txtとは何か

robots.txtの用途
まず、robots.txtの最も一般的な用途は特定のページをウェブロボットから隠すことです。もし特定のページを検索エンジンの索引から排除したい場合、そのページのURLをディスアロー指示で記述します。これにより、指定されたページはウェブロボットによってインデックス化されなくなります。また、ウェブサイト内の特定のリソースをブロックすることも可能です。例えば、画像やCSSといったリソースをクローラーからブロックしたい場合も、robots.txtを利用することができます。 さらに、robots.txtはサイトマップへのリンクを記載するためにも使われます。これにより検索エンジンはサイトマップのロケーションを容易に知り、ウェブサイトのクロールを効率的に行うことが可能となります。検索エンジンとrobots.txtの関係
検索エンジンがウェブサイトをクロールする際、最初に訪問するのがrobots.txtというテキストファイルです。ここに書かれている指示をもとに検索エンジンはウェブサイトをクロールします。したがって、robots.txtがなければ検索エンジンはウェブサイトの全てのページをクロールしインデックス化します。 しかし、これだけでは完全には理解されないかもしれません。なぜなら、robots.txtがない場合やディスアロー指示がない場合でも、特定のページをクロールすることを拒否する機会はまだありますからです。それはHTMLのmetaタグを使用して行われます。robots.txtとHTMLのmetaタグ、両方を理解し活用することで、より効果的なSEO対策を構築することが可能となります。正しいrobots.txtの設定方法

基本的な書式と構造
robots.txtは一見すると難しく見えるかもしれませんが、実際は非常にシンプルなフォーマットで作成されています。基本的な構造としては、「User-agent」と「Disallow」の二部構造になります。例えば、「User-agent: *」「Disallow: /private/」という書式であれば、「すべてのボットに対して、/private/以下のページをクロールしないように指示している」ということになります。ここで、「User-agent: *」はすべてのボットを指す記述であり、「Disallow: /private/」は“/private/”以下のディレクトリをクロール禁止とする記述です。このような記述方法を理解し、適切にrobots.txtを設定することで、ウェブサイトのインデックス決定等、SEO向上に役立ちます。特定のボットへの指示の追加
続いて、「特定のボットへの指示」の追加方法について説明します。特定のボットに対してだけアクセスを許可したり拒否したりする場合には「User-agent: ボット名」と指定をします。例えば「User-agent: Googlebot」のように記述することで、Googlebotのみが対象となります。その下に「Disallow: /」と記述することで、Googlebotのみが全体的なアクセスを制限されるという指定が可能となります。このように、明確に特定のボットに対するアクセス制限や許可を行うことをお勧めします。sitemapの追記方法
最後に、sitemapの追加の仕方も説明しておきます。Sitemapはサイトの全ページの情報を持つため、これをrobots.txtに記載することで、クローラーによる効率的なインデクシングを開始するきっかけを作ることができます。具体的には、robots.txtの一番下に「Sitemap: ドメイン/sitemap.xml」と記載します。その上で、サイトマップのURL型式は絶対URLで記載するとより有効です。「Sitemap: https://www.あなたのサイト.com/sitemap.xml」のように記載すれば十分です。この方法を用いることで、ボットがより優れたインデクシング結果を得るための助けになります。以上が、robots.txtの設定方法の全てです。これらを覚えて、のSEO効果を高めましょう。標準的なrobots.txtファイルの例

全ページをクロールする設定例
全てのページをクロールさせる設定をする場合の一例をご紹介します。以下のようにUser-agentとDisallowの指定を行います。 User-agent: * Disallow: ここで、”User-agent: *”は全てのクローラーを対象に指定しています。そして”Disallow: “の部分が空白になっていることで、全てのディレクトリがクロール可能となる設定となります。これは、特に特定のページをクロールさせたくないという場合がない、ウェブサイト上の全ての情報を検索エンジンにて利用可能にしたいと望むウェブマスターが利用する設定例となります。一部ページをクロールさせない設定例
一部のページだけクロールさせたくないという要望がある場合、以下のように設定が可能です。 User-agent: * Disallow: /private/ この場合、”/private/”というディレクトリ内の全てのページがクロール対象から除外されます。”Disallow: “の後にあるパスが、クロールを拒否するディレクトリ・ファイルを指すためです。必要に応じて、Disallowの行を追加することで、複数のディレクトリやページをクロール除外対象に設定することが可能です。特定のボットだけ除外する設定例
特定のボットだけを除外したい場合でも、それらを効果的に制御することができます。以下の例では、Googlebotだけをクロール対象から除外した設定を示しています。 User-agent: Googlebot Disallow: / ここで、”User-agent: Googlebot”と記述していることで、Googleのクローラー、Googlebotに対する設定を行っています。そして”Disallow: /”と指定することで、全てのパス(ウェブサイトの全領域)がGooglebotからのクロールを拒否する設定となります。さまざまなボットの行動を微調整したいというウェブマスターにとって、このような設定は非常に有用です。robots.txtのエラーと問題の修正

よくあるエラーとその対処法
robots.txtのエラーには大きく分けて2つ、すなわち「文法エラー」と「リンクエラー」があります。 まず、「文法エラー」は、robots.txtが正しく書かれていないことによって生じます。例えば、「User-agent: *」あるいは「Disallow: /」などが適切に配置されていない場合に該当します。この修正法はシンプルで、エラーの部分を正しい記述方法に改めるだけです。 次に、「リンクエラー」はウェブサイトの特定のページやディレクトリが存在しない、あるいは検索エンジンからアクセスできないことによるものです。この解決策は二つあり、1つ目は記述ミスを修正して正しいURLを指定すること、2つ目は設定していたURLが存在しない場合、それを削除もしくは変更することです。Google Search Consoleを使用したエラーチェック
Google Search ConsoleはGoogleが提供するウェブマスターツールで、robots.txtのエラーチェック機能も備えています。 まず、Google Search Consoleにログイン後、「検閲ツール」をクリックします。その後、「robots.txtテスター」を選択することにより、robots.txtの記述が適切であるかを確認することが可能です。 検証結果にエラーが表示された場合、その箇所とエラー内容が詳しく説明されます。エラー箇所を修正した後、再度「テスト」ボタンをクリックしてエラーが解消されたかを確認しましょう。また、設定変更後は「送信」ボタンをクリックしてGoogleに通知することで、該当ページの再クローリングを早めることができます。 これらの工程を経て、robots.txtのエラーチェックと修正を行うことができます。うまく活用し、サイトのSEO対策をしていきましょう。robots.txtのテスト方法

Googleの無料ツールを使用したテスト
Googleの無料ツールである、Google Search Consoleを活用することで、robots.txtのテストが豊富に可能です。具体的にはテストツールでURLを入力し、「テスト」ボタンをクリックすれば、robots.txtファイルがGooglebotによって正しく読み取れるかがチェックできます。また、ツール上に表示される「詳細」欄では、robots.txtの各行がどのように解釈されるかを確認することができます。Googlebotの視点からのページへのアクセス許可状況も把握できるため、常にリアルタイムで状況を把握し、必要な修正を行っていくことが可能です。テスト結果の読み方と対処
テストの結果、robots.txtの解釈に問題がある場合、具体的にどの行が問題を引き起こしているのかを記述しています。まずは、その原因を特定しご自身のサイトが何を目指しているのかを再確認します。例えば、検索エンジンに情報を提供したい場合、robots.txtでそのページをブロックしてしまっているのであれば、その行の設定を改めて確認し設定を見直したり、修正していきます。また、反対に、情報を閲覧されたくないページが検索エンジンに公開されてしまっている場合は、それらのページがrobots.txtによりきちんとブロックされているかを見直すことが求められます。このテストにより、検索エンジンからのサイトの評価を高め、より多くのユーザーへ自身のサイトを届ける手助けになります。robots.txtの最適化で達成できること

ウェブサイトのクロール効率向上
robots.txtを適切に設定することで、検索エンジンがウェブサイトをクロールする効率を強化することができます。移行時間の短縮、サーバー負荷の軽減、価値の低いページへのクロールを避けるなど、様々な利点があります。特に、大規模サイトではこれらのメリットが顕著に現れるでしょう。 クロールバジェットという考え方があり、検索エンジンはサイトをクロールする際に一定の時間とリソースを割くのですが、それは無限ではありません。例えば、無駄なページにクロール時間を浪費してしまうと、重要なページのクロールが遅れる恐れがあります。しかし、robots.txtの最適化によって、価値の低いページのクロールを防ぎ、クロールバジェットを有効に活用することが可能になります。検索エンジンのインデックス対象ページの選択
また、robots.txtの設定によって、検索エンジンのインデックス対象ページを制御することも可能です。検索エンジンがクロールするページを選択することで、質の高いページが優先的にインデックスされ、ユーザーに対する情報提供の質を向上することが可能になります。 たとえば、利用者には関係のない管理者ページや、重複した内容を持つページなどは、検索結果に表示させる必要がありません。そのようなページを検索エンジンから除外することで、ユーザーにとって価値ある情報だけを提供することが可能となり、ウェブサイトの評価を高められるでしょう。 したがって、robots.txtの最適化は、サイトのパフォーマンス向上だけでなく、ユーザーエクスペリエンスの向上にも寄与する重要な要素と言えるでしょう。デフォルトのrobots.txtからの移行方法

新規robots.txtの書き方
新規のrobots.txtを作成するには、まずテキストエディタを用いてファイルを作成します。その際、ファイル名を必ず「robots.txt」としましょう。ますます既存のUser-agentに基づく記述がある場合、その記述をアップデートしていきます。新たに追加するルールがある場合は、そのルールを適切な形式で記述します。例えば、特定のUser-agentをブロックしたい場合は、「User-agent: 〇〇」「Disallow: /」と記載します。〇〇の部分にはブロックしたいUser-agentの名前を記入します。「Disallow: /」は、そのUser-agentがウェブサイト全体にアクセスすることを禁止するという意味になります。 ルールを全て記述したら、必ず保存を忘れずに行いましょう。ここで注意が必要なのは、一つのUser-agentに対して複数のルールを設ける場合、最初にマッチしたルールが適用されるという点です。したがって、記述の順序を考慮して作成することが重要です。Webサーバーへのアップロード方法
次に、これまで作成した新規のrobots.txtをWebサーバーにアップロードする方法について説明します。まず、FTPクライアントを起動し、接続先のWebサーバー情報を入力します。IDやパスワード、ホスト名などが必要になるので、事前に用意しておきましょう。 サーバーに接続したら、ウェブサイトのルートディレクトリ(通常は「public_html」や「htdocs」など)を開きます。その後、ローカルのパソコン上で作成した新規のrobots.txtを選択し、アップロードするボタンを押します。 アップロードが完了したら、ブラウザから「http://あなたのドメイン名/robots.txt」にアクセスし、正常に表示されるかを確認します。これで、新規のrobots.txtのアップロードは完了です。robots.txtの効果測定と改良
