GLOSSARY

robots.txt

robots.txt

用語解説

robots.txtとは、ウェブサイトのルートディレクトリに置かれるテキストファイルで、クローラー(Googlebotなど)に対してアクセスを許可・禁止するURLのルールを指定するファイルです。

クロールを「許可・禁止」するものであり、インデックスをコントロールするものではありません。robots.txtでブロックされたページはクロールされませんが、外部サイトからリンクされていればURLがインデックスに残ることがあります(インデックスを防ぐにはnoindexが必要)。

robots.txtの記述例

  • User-agent: * → 全クローラーに適用
  • Disallow: /admin/ → /admin/ 配下をクロール禁止
  • Disallow: /search?q= → 検索パラメータURLをクロール禁止
  • Allow: / → それ以外は全許可
  • Sitemap: https://example.com/sitemap.xml → サイトマップの場所を指示

どんな場面で活用するか

管理画面・内部ツールのブロック

WordPressの `/wp-admin/` など管理画面URLをrobots.txtでブロックし、クロールバジェットの無駄遣いを防ぎます。セキュリティ上の理由でも不要なURLはブロックすることが推奨されます

URLパラメータページのブロック

ECサイトやブログで `?sort=` `?page=` などのパラメータURLが大量に生成される場合、robots.txtでブロックして重複クロールを防ぎます。

よくある誤解

❌ 誤解1:robots.txtでブロックすればインデックスされない

robots.txtはクロールのブロックですが、外部リンクがあるページはインデックスに残ることがあります。インデックスを防ぐにはnoindexタグの使用が確実です。

❌ 誤解2:robots.txtは一度設定したら変更不要

CMSの更新・新機能追加・URLの再設計のたびに見直しが必要です。誤って重要ページをブロックしていないか定期確認してください。

判断のヒント

以下に当てはまる場合はrobots.txtの確認が必要です。

  • Search Consoleでクロールエラーが出ている
  • 重要ページがインデックスされていない(robots.txtでのブロックが原因の可能性)
  • サイトリニューアル後にrobots.txtの見直しをしていない

「この用語を自社で活用できるか確認したい」
「どの施策から始めるべきか相談したい」

無料相談で最適な活用方法をご提案します。