用語解説
robots.txtとは、ウェブサイトのルートディレクトリに置かれるテキストファイルで、クローラー(Googlebotなど)に対してアクセスを許可・禁止するURLのルールを指定するファイルです。
クロールを「許可・禁止」するものであり、インデックスをコントロールするものではありません。robots.txtでブロックされたページはクロールされませんが、外部サイトからリンクされていればURLがインデックスに残ることがあります(インデックスを防ぐにはnoindexが必要)。
robots.txtの記述例
User-agent: *→ 全クローラーに適用Disallow: /admin/→ /admin/ 配下をクロール禁止Disallow: /search?q=→ 検索パラメータURLをクロール禁止Allow: /→ それ以外は全許可Sitemap: https://example.com/sitemap.xml→ サイトマップの場所を指示
どんな場面で活用するか
管理画面・内部ツールのブロック
WordPressの `/wp-admin/` など管理画面URLをrobots.txtでブロックし、クロールバジェットの無駄遣いを防ぎます。セキュリティ上の理由でも不要なURLはブロックすることが推奨されます。
URLパラメータページのブロック
ECサイトやブログで `?sort=` `?page=` などのパラメータURLが大量に生成される場合、robots.txtでブロックして重複クロールを防ぎます。
よくある誤解
判断のヒント
以下に当てはまる場合はrobots.txtの確認が必要です。
- Search Consoleでクロールエラーが出ている
- 重要ページがインデックスされていない(robots.txtでのブロックが原因の可能性)
- サイトリニューアル後にrobots.txtの見直しをしていない