아커스 - AWEKERS

Robots.txt

2023.11.26

웹 사이트 내에 존재하는 파일로, 크롤러가 가장 먼저 도달하는 위치

Robot.txt란 무엇인가?

검색엔진이 우리 웹 사이트에 접근할때 가장 먼저 도달하는 곳이 바로 Robots.txt 파일 이라는 곳입니다.

파일이 등록 되어 있다면, 주소창에 “자신의 도메인/robots.txt” 를 검색하면 누구나 접근이 가능합니다.

Robots.txt 파일 예시

주소창에서 fourward.co.kr/robots.txt 를 검색하면 위 이미지와 같은 내용을 확인할 수 있습니다.

Robots.txt는 검색로봇에게 웹 사이트의 페이지를 수집하도록 제한하거나 허용하도록 설정할 수 있습니다. 쉽게 말해, 검색엔진 로봇에게 접근을 제어할 수 있는 “출입국 통제 사무소”와 같은 역할을 하는 곳입니다.

검색엔진에 노출을 원치 않을 경우 해당 파일을 활용하여 안내문에 형식으로 크롤링을 특정 경로에 대해서 자제 시키도록 권고할 수 있습니다.

반대로, Robots.txt 파일을 아무런 설정하지 않았다면, 구글과 네이버 이외의 얀덱스(러시아), 바이두(중국) 등 모든 검색엔진 로봇들은 우리의 웹 사이트의 모든 정보를 읽게되고 검색엔진 결과에 반영하여 노출하게 됩니다.

대부분의 웹 사이트에서는 검색 노출을 많이 하기 위해서 보통은 제한하지 않고 모든 페이지를 허용하고 있습니다.

하지만, 검색엔진에서 robots.txt 파일 유무 또한 파악하고 이에 해당하는 로직 점수를 부여하기 때문에 전문적인 robot.txt을 파일로 설정하여 진행하는 것이 올바르다고 할 수 있습니다.

Robots.txt 를 설정해야 하는 3가지 주요 이유

비공개 페이지 차단
- 사이트에 색인 생성을 원하지 않는 페이지가있는 경우가 있습니다. 예를들어, 로그인이 필요한 페이지의 경우 검색엔진에 노출될 필요가 없습니다. 사람들은 페이지에 접속과 동시에 로그인 페이지에 도착한다면, 99%는 이탈을 하게 될것 입니다. 문제는 이탈률(Bounce Rate) 이 높은 페이지의 경우 구글의 랭킹을 하락 시키기 때문에 robots.txt를 사용하여 검색엔진 크롤러 및 봇으로부터 이러한 페이지를 차단해야 합니다.

크롤링 예산 최대화
- 검색엔진 로봇은 여러분의 웹 사이트의 모든 페이지를 크롤링하고 색인하지 않습니다. 색인을 생성하는 데 어려움을 겪고 있다면 크롤링 예산 문제가있을 수 있습니다. robots.txt로 중요하지 않은 페이지를 차단함으로써 Googlebot은 실제로 중요한 페이지에 더 많은 크롤링 예산을 지출 할 수 있습니다.

Sitemap.xml 경로 지정
- Robots.txt 파일 제일 하단 Site: */sitemap.xml 경로를 지정해주면 검색엔진 로봇은 이를 참고하여 사이트맵 경로를 통해 웹 페이지들을 색인하는데 도움을 가질수 있습니다.

Robots.txt 잘못된 예시

아래 2가지 항목에 해당 된다면, 설정이 잘못되었기 때문에 수정을 권장 합니다.

1. robots.txt 파일이 없는 경우

2. robots.txt 파일 경로가 잘못 되어 있는 경우

브라우저에서 “메인 도메인/robots.txt” 검색시 미적용의 경우, 현재 파일이 존재하지 않거나 경로가 잘못 설정되어 있습니다.

Robot.txt 설정하는 방법 (카페24, 메이크샵, 워드프레스 등 플랫폼 제외)

Robots.txt 파일은 웹 사이트 내부 페이지를 생성해서 만드는 것이 아닌, 자신의 컴퓨터/노트북을 이용하여 텍스트 파일(TXT)로 작성하면 됩니다. 그리고 이 파일은 여러분의 웹 사이트 루트 디렉토리 최상단에 위치해야 합니다. 만약 다른 곳에 업로드 했을시 검색엔진은 해당 파일을 찾을수 없습니다.

로봇파일 Robots.txt

요소	설명
User-agent	사이트를 크롤링하는 크롤러 명시 (e.g. Googlebot, Yandexbot, Yeti) (* 사용으로 모든 크롤러 설정 가능)
Allow	크롤러의 접근 허용 범위 명시 (/* 사용으로 /이후 모든 페이지 URL에 대한 접근 허용)
Disallow	크롤러들의 접근 제한 범위 명시 (/* 사용으로 /이후 모든 페이지 URL에 대한 접근 제한)
#Sitemap files	등록 된 sitemap.xml 파일 경로 명시 검색엔진 크롤링 봇이 sitemap.xml에 빠르게 접근할 수 있도록 하여 사이트 내 페이지가 인덱스 될 수 있도록 정보 제공

Robots.txt 규칙 예제를 참고

모든 검색엔진의 로봇에 접근을 허용할 경우(Allow)

User-agent: *
Allow: /

모든 검색엔진의 로봇에 접근을 허용하지 않을경우 (Disallow)

User-agent: *
Disallow: /

다른 검색엔진 로봇의 수집은 허용하지 않고, 구글 검색엔진의 로봇만 허용할 경우

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

검색엔진 로봇에게 Sitemap.xml 파일의 위치를 알려주며, 모든 검색엔진의 로봇에 접근을 허용할 경우

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

동의어

Robot.txt란 무엇인가?

Robots.txt 를 설정해야 하는 3가지 주요 이유

비공개 페이지 차단

크롤링 예산 최대화

Sitemap.xml 경로 지정

Robots.txt 잘못된 예시

Robot.txt 설정하는 방법 (카페24, 메이크샵, 워드프레스 등 플랫폼 제외)

Robots.txt 규칙 예제를 참고