robots.txt가 뭔가요? (Feat. 티스토리 애드센스 크롤러 오류 해결 불가?)

robots.txt가 뭔가요? 질문 하시는 분들이 많아요.

블로그를 운영하면서 애드센스를 함께 하시는 분들이라면 robots.txt에 대한 오류에 대해서 많이 보셨을 겁니다.

광고 크롤러에 오류가 있으며, 이 때문에 수익 손실이 발생할 수 있습니다.

애드센스 오류 문구 중

수익 손실이라는 문구 때문에 덜컥 겁을 먹거나 할 수 있는데, 꽉잡스가 이번 글에서 자세히 설명해 드릴테니 끝까지 읽어보시면 도움이 많이 될거에요.

robots.txt가 뭔가요?

robots.txt가 뭔가요?
robots.txt가 뭔가요?

robots.txt 란? 웹 크롤러 또는 자동 에이전트 앱과 통신하기 위해 사용되는 파일입니다. 보통 웹 사이트에서 사용됩니다.

이 파일은 웹 사이트의 루트 디렉토리(최상위 폴더)에 위치하며, 사이트의 어떤 페이지나 섹션에 접근 하거나 검색 엔진이 색인을 생성하면 안되는 페이지에 대한 정보를 봇에게 알려주는 역할을 합니다.

예를 들어서 공지사항을 검색 했을 때는 노출 시키고 싶지 않다면 이를 제외하는 방법을 robots.txt에 기재하면 됩니다.

이는 검색 엔진이 개발 중 이거나 미공개할 페이지를 인덱싱하지 않도록 방지할 수 있고 민감한 정보를 비공개로 유지하는데 유용하게 사용될 수 있습니다.

개인 블로그에서 robots.txt 를 수정하는 방법

티스토리나 개인 블로그(워드프레스) 같은 곳에서 robots.txt 를 수정하기 위해서는 일반적으로 아래와 같은 방법을 따릅니다.

  1. 웹 사이트가 호스팅 되는 서버에 접근해야합니다.
  2. FTP 또는 비슷한 관리 툴을 제공받아 서버에 로그인하여 해당 파일을 찾습니다.
  3. 텍스트 편집기 등을 통해 내용을 원하는 대로 수정합니다.
  4. 업로드 및 업데이트 하여 반영합니다.

티스토리 아직 미지원

robots.txt 와 SEO
robots.txt 와 SEO

하지만 카카오(다음)에서 제공하는 티스토리 관리 툴에서는 아직 robots.txt 에 대해 공식적으로 수정할 수 있는 권한을 제공하지 않고 있습니다. (2023-01-16 기준)

그런데 앞으로도 제공하지 않을 가능성이 큽니다. 기업에 속하고 세세한 설정까지 유저에게 권한을 넘길 생각은 없는 것으로 보여집니다.

하지만 구글 애드센스와 현재 적극 협력하는 것으로 보여지며 향후에는 robots.txt 에 대한 문제도 해결될 것으로 긍정적인 입장으로 생각해볼 수 있습니다.

때문에 애드센스에서 크롤러 오류로 메일이 오거나 경고 알림이 뜨더라도 현재로써는 마땅히 해결할 수 있는 방법이 없습니다. 티스토리 팀에서 빠른 시일 내에 해결해주기를 기다려봐야겠습니다.

만약 새로운 소식이 업데이트 된다면 이 글에 업데이트 해두도록 하겠습니다.

개인 서버 워드프레스 대응

개인 서버에서 워드프레스 등 블로그를 운영하고 있다면 대응 방법은 어렵지 않습니다.

서버 루트에 접속하여 최상위 폴더에 있는 robots.txt 를 수정하거나 업로드해서 대응하면 됩니다.

robots.txt 예시 (sample)

Robots.txt 소개
Google 검색센터 가이드 일부

적용하시는 분들을 위해서 robots.txt 예시를 설명해드릴게요.

아래 코드는 robots.txt 형식을 가지는 간단한 텍스트 파일입니다.

User-agent: *
Disallow: /private/
Disallow: /tmp/
Disallow: /admin/

위 내용을 해석해보면 모든 웹 크롤러에 대해서 Disallow 에 해당하는 디렉토리(경로)에 접근하지 않도록 지시합니다.

즉, private, tmp, admin 경로에 대해 인덱싱하지 않도록 설정합니다.

또는 차단하거나 허용하려는 특정 크롤링 봇을 지정할 수 있습니다. 예를 들면 아래와 같습니다.

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /private/

위 같이 작성하면 구글 봇에 대하여 모든 경로를 인덱싱 하도록 허용합니다. 하지만 나머지 웹 크롤러의 경우에는 private 경로에 접근하지 못하도록 합니다.

하지만 모든 웹 크롤러가 robots.txt의 규칙을 따르는 것은 아닙니다. 이는 이를 완전히 무시하고 크롤링할 수 있다는 의미입니다.

또한 모든 robots.txt는 웹 사이트의 루트에 존재해야 합니다.

ex) www.wellmadeinfo.com/robots.txt

즉, 누구나 볼 수 있습니다.

요약

robots.txt가 뭔가요? 요약하면 아래와 같습니다.

  1. robots.txt 파일은 웹 크롤러 및 기타 에이전트 봇과 통신하기 위해 웹 사이트에서 사용 된다.
  2. 사이트의 어느 페이지나 섹션에 접근하거나 인덱싱 하면 안되는 지 기술한다.
  3. 파일은 웹 사이트의 루트 디렉토리(최상위)에 있어야 하며 모든 웹 크롤러가 항상 준수하는 것은 아니다.

Leave a Comment

Share via
Copy link
Powered by Social Snap