모든 것을 허용하도록 robots.txt를 구성하는 방법은 무엇입니까?
robots.txt
Google 웹 마스터 도구에서 내 값은 다음과 같습니다.
User-agent: *
Allow: /
무슨 뜻인가요? 그것에 대해 충분한 지식이 없으므로 도움을 찾으십시오. 모든 로봇이 내 웹 사이트를 크롤링하도록 허용하고 싶습니다. 이것이 올바른 구성입니까?
이 파일을 사용하면 모든 크롤러가 액세스 할 수 있습니다
User-agent: *
Allow: /
기본적으로 모든 사용자 에이전트 (*)가 사이트의 모든 부분 (/)에 허용됩니다.
모든 봇이 모든 것을 크롤링하도록하려면 robots.txt에이를 지정하는 가장 좋은 방법입니다.
User-agent: *
Disallow:
이 Disallow
필드에는 빈 값이 있으며 이는 사양에 따라 다릅니다 .
빈 값은 모든 URL을 검색 할 수 있음을 나타냅니다.
귀하의 방식 ( ) Allow: /
대신 Disallow:
작동하지만 원래 robots.txt 사양의Allow
일부는 아니므 로 모든 봇에서 지원하지는 않습니다 ( Googlebot과 같은 많은 인기있는 사람들이 지원합니다 ). 즉, 인식 할 수없는 필드는 무시해야하며 인식하지 못하는 봇의 경우 어쨌든 결과는 동일합니다 : 크롤링이 금지 된 경우 ( )가 있으면 크롤링이 허용됩니다. 그러나 공식적으로 (원래 사양에 따라) 적어도 하나의 필드가 필요 하기 때문에 유효하지 않은 레코드 입니다.Allow
Disallow
Disallow
레코드에 하나 이상의 Disallow 필드가 있어야합니다.
나는 이것이 꽤 오래된 질문이며 꽤 좋은 답변을 가지고 있음을 이해합니다. 그러나 여기에 완전성을 기하기위한 2 센트가 있습니다.
공식 문서 에 따르면 로봇이 사이트에 액세스 할 수있는 네 가지 방법이 있습니다.
깨끗한 :
@unor에서 언급 한 바와 같이 disallow 세그먼트가있는 글로벌 매처를 지정하십시오. 그래서 당신의 /robot.txt
모습은 이렇습니다.
User-agent: *
Disallow:
해킹 :
/robot.txt
내용이없는 파일을 만듭니다 . 기본적으로 모든 유형에 대해 모두를 허용합니다 Bots
.
난 상관 없어 :
/robot.txt
완전히 만들지 마십시오 . 위의 두 결과와 정확히 동일한 결과를 얻을 수 있습니다.
못난이 :
로부터 메타 태그 로봇 문서 , 당신은 수 있도록 사이트의 모든 페이지에 다음 메타 태그를 사용하여 Bots
이 페이지가 색인되지 않는 것으로 알고 있습니다.
<META NAME="ROBOTS" CONTENT="NOINDEX">
이 내용이 전체 사이트에 적용 되려면 모든 페이지에이 메타 태그를 추가해야합니다. 이 태그는 HEAD
페이지 의 태그 아래 에 있어야합니다. 이 메타 태그에 대한 자세한 내용은 여기를 참조하십시오 .
즉, 모든 (- *
) 사용자 에이전트 / 크롤러가 /
사이트 의 루트 ( )에 액세스 할 수 있습니다. 당신은 괜찮아.
참고 URL : https://stackoverflow.com/questions/4276957/how-to-configure-robots-txt-to-allow-everything
'development' 카테고리의 다른 글
이동 중에지도 [키]를 삭제 하시겠습니까? (0) | 2020.08.02 |
---|---|
file_get_contents (“php : // input”) 또는 $ HTTP_RAW_POST_DATA, JSON 요청의 본문을 얻는 것이 더 좋은 방법은 무엇입니까? (0) | 2020.08.02 |
TSQL-문자열을 정수로 캐스트하거나 기본값을 리턴 (0) | 2020.08.02 |
C ++에서 delete vs delete [] 연산자 (0) | 2020.08.02 |
json.Marshal (struct)는“{}”을 반환합니다. (0) | 2020.08.02 |