robots.txt란 무엇인가 — 크롤러 접근 제어의 기본
robots.txt 파일의 역할, 작성법, 주요 크롤러별 설정 방법을 설명합니다. AI 크롤러(GPTBot, ClaudeBot 등)의 접근 제어도 다룹니다.
robots.txt란 무엇인가?
robots.txt는 웹사이트의 루트 디렉토리에 위치하는 텍스트 파일로, 검색엔진 크롤러에게 어떤 페이지를 수집해도 되고 어떤 페이지는 수집하면 안 되는지를 알려주는 역할을 합니다. 검색엔진뿐 아니라 AI 크롤러(GPTBot, ClaudeBot 등)의 접근도 이 파일로 제어할 수 있습니다.
robots.txt 기본 문법
# 모든 크롤러에게 전체 사이트 허용 User-agent: * Allow: / # 관리자 페이지 차단 User-agent: * Disallow: /admin/ Disallow: /api/ # 사이트맵 위치 안내 Sitemap: https://example.com/sitemap.xml
주요 디렉티브
| 디렉티브 | 역할 | 예시 |
|---|---|---|
| User-agent | 규칙을 적용할 크롤러 지정 | User-agent: Googlebot |
| Allow | 크롤링 허용 경로 | Allow: /public/ |
| Disallow | 크롤링 차단 경로 | Disallow: /private/ |
| Sitemap | 사이트맵 URL 안내 | Sitemap: https://example.com/sitemap.xml |
AI 크롤러 접근 제어
AI 시대에는 전통 검색엔진 크롤러 외에도 AI 학습·검색용 크롤러의 접근을 관리해야 합니다.
# AI 크롤러별 접근 설정 예시 User-agent: GPTBot Allow: / User-agent: ClaudeBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: /
흔한 실수와 주의사항
- 전체 차단 실수 —
Disallow: /를 모든 크롤러에 적용하면 검색 결과에서 완전히 사라집니다 - robots.txt는 강제가 아닌 권고 — 대부분의 주요 크롤러는 준수하지만, 악의적인 봇은 무시할 수 있습니다
- 민감한 정보 보호 수단이 아님 — 비밀 페이지를 숨기려면 인증을 사용하세요. robots.txt의 URL 자체가 공개됩니다
- CSS/JS 차단 주의 — 렌더링에 필요한 리소스를 차단하면 검색엔진이 페이지를 제대로 이해하지 못합니다
SearchLens에서 확인하기
SearchLens의 Technical SEO 모듈은 robots.txt의 존재 여부와 주요 크롤러 차단 여부를 점검합니다. AI Visibility 모듈은 GPTBot, ClaudeBot 등 AI 크롤러의 접근 허용 상태를 확인합니다.