[검색 Q&A 극장]은 "바이두 스파이더" 에 대한 포괄적인 분석을 제공하여 다양한 상황에서 "바이두 스파이더"의 역할을 명확하게 이해하고 웹사이트 전반의 운영을 위한 기초를 마련하는 데 도움을 드립니다.
A: 바이두 스파이더(Baidu Spider)는 바이두 검색 엔진의 자동 검색 프로그램입니다. 인터넷 웹페이지를 방문하고 색인 데이터베이스를 구축하여 사용자가 바이두 검색 엔진에서 웹사이트 관련 콘텐츠를 검색할 수 있도록 하는 것이 이 프로그램의 기능입니다.
답변: Baidu Spider를 식별하는 방법은 두 가지가 있습니다.
방법 1: UA 정보 보기
UA 정보가 정확하지 않으면 바이두 검색 스파이더가 아니라는 것을 직접 확인할 수 있습니다. 현재 UA는 모바일, PC , 미니 프로그램의 세 가지 적용 시나리오로 나뉩니다. 이 세 가지 채널의 UA는 다음과 같습니다.
모바일 UA:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML, like Gecko)Version/5.1 Mobile Safari/10600.6.3 (호환; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
또는
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1과 유사 Mac OS
PC UA:
Mozilla/5.0(호환; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
또는
Mozilla/5.0 (호환; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
미니 프로그램 UA:
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1과 유사 Mac OS
방법 2: 양방향 DNS 확인 인증
1단계: IP 주소에 대한 DNS 역방향 조회 . 개발자는 로그에 있는 액세스 서버의 IP 주소에 대해 역방향 DNS 조회를 실행 하여 스파이더가 Baidu 검색 엔진에서 온 것인지 확인할 수 있습니다. Baiduspider의 호스트 이름은 *.baidu.com 또는 *.baidu.jp 형식입니다. *.baidu.com 또는 *.baidu.jp가 아닌 경우 사칭으로 간주됩니다.
검증 방법은 플랫폼에 따라 다릅니다. 예를 들어 Linux, Windows, OS에 대한 검증 방법은 다음과 같습니다.
① Linux에서는 host ip 명령을 사용하여 IP 주소를 역순으로 변경하여 Baiduspider에서 생성된 것인지 확인할 수 있습니다. Baiduspider의 호스트 이름은 *.baidu.com 또는 *.baidu.jp 형식으로 지정됩니다. *.baidu.com 또는 *.baidu.jp가 아니면 사칭입니다.
② Windows 또는 IBM OS/2 플랫폼 에서는 nslookup ip 명령을 사용하여 IP 주소를 역추적하여 Baiduspider에 의해 캡처되었는지 확인할 수 있습니다.
③ Mac OS에서는 dig 명령어를 사용하여 IP 주소를 역추적하여 Baiduspider에 의해 캡처되는지 확인할 수 있습니다.
2단계: 도메인 이름에 대해 정방향 DNS 조회를 실행합니다 . 1단계의 명령으로 검색된 도메인 이름에 대해 정방향 DNS 조회를 실행하여 도메인 이름이 로그에 기록된 액세스 서버의 원래 IP 주소와 일치하는지 확인합니다. IP 주소가 일치하면 스파이더가 바이두 검색 엔진에서 온 것임을 확인할 수 있습니다. IP 주소가 일치하지 않으면 사칭 공격입니다.
자세한 내용은 "Baidu 스파이더를 빠르게 식별하는 방법을 알려주는 두 가지 간단한 단계" 문서를 참조하세요.
A: 일반적으로 웹사이트가 새로운 리소스를 계속 생성하고 콘텐츠를 업데이트하면 스파이더는 계속해서 크롤링합니다. 웹사이트가 바이두 스파이더의 크롤링이 필요한 경우 , 차단하지 마십시오 . (차단에 대한 자세한 내용은 다음 내용을 참조하십시오.)
또한, 웹사이트 접속 로그를 확인하여 올바른 바이두 스파이더를 신속하게 식별함으로써 누군가가 바이두 스파이더를 사칭하여 웹사이트를 자주 크롤링하는 것을 방지할 수 있습니다.
A: 바이두 스파이더가 자주 크롤링하는 것을 발견하면 다음과 같은 이유가 있을 수 있습니다.
① 웹사이트에는 새로운 제작 리소스와 업데이트된 콘텐츠가 있어 이를 포착하여 업데이트해야 합니다.
② 바이두 스파이더를 악의적으로 사칭하는 행위 가 있을 수 있습니다. 위 질문 2 "정상적인 바이두 스파이더 식별 방법" 의 방법을 따라 문제를 해결할 수 있습니다.
바이두 스파이더 크롤링 빈도가 너무 높아 웹사이트 서비스 이상이 발생할 경우, 검색 리소스 플랫폼의 [ 크롤링 빈도] 도구 를 통해 빈도를 조절할 수 있습니다.
A: 바이두 스파이더는 인터넷 로봇 프로토콜을 준수합니다. 웹마스터는 robots.txt 파일을 업데이트하여 바이두 스파이더가 리소스나 디렉토리에 접근하는 것을 원하지 않음을 명시하고, 검색 리소스 플랫폼 인 [로봇 ] 도구 를 통해 로봇 파일을 적시에 제출할 수 있습니다.
로봇 파일이 업데이트되어 제출된 후에는 검색 엔진이 점진적으로 업데이트를 완료해야 하므로, 바이두 스파이더가 웹페이지 크롤링을 즉시 중단하지 않습니다. 잠시 기다려 주시기 바랍니다.
답변: 해당 웹사이트는 양질의 리소스를 보유하고 있으며, 다른 위반 사항도 없습니다 . 하지만 다음과 같은 상황이 존재합니다.
① 바이두 스파이더에서는 크롤링 기록이 발견되지 않았습니다.
②바이두 검색에 포함되거나 표시되지 않습니다 .
③ 해당 웹사이트/디렉토리의 트래픽이 비정상적으로 감소하고 있습니다.
④ 검색 결과 요약에 "로봇 차단됨 "이라고 표시됩니다.
위와 같은 상황이 발견되면, 먼저 Baidu Spider 차단에 문제가 있는지 확인하고, 적절한 시기에 차단을 해제하세요(차단 해제 방법은 QA7 참조). 그리고 복구될 때까지 기다리세요.
A: 일반적인 차단 동작에는 로봇 차단, 바이두 UA 차단, 바이두 IP 차단 등이 있습니다. 이러한 동작들을 하나씩 확인하고 해결할 수 있습니다.
(1) robots.txt 파일을 확인하여 차단 기록이 있는지 확인하세요. (일반적으로 robots.txt 파일은 웹사이트 루트 디렉토리에 위치합니다.)
(2) 로봇파일에는 이상이 없으며, 바이두 UA가 정지 되었는지 확인하기 위해 추가 조사를 진행합니다.
솔루션 1: curl --head --user-agent 'Mozilla/5.0 (호환; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'를 실행합니다.
참고: 일반적인 반환 코드는 200 이며, 다른 상황은 비정상적입니다.
솔루션 2: 브라우저 UA 검증 변경
(3) 상기 검증 결과 이상이 없을 경우, IP급 차단 조치가 있는지 추가적으로 검증합니다.
일반적인 IP 차단은 웹사이트의 방화벽 시스템 구성에서 발생합니다 . Baidu Spider에 대한 IP 차단 조치가 있는지 확인하려면 방화벽 구성 시스템 배경을 확인해야 합니다.
자세한 내용은 "개발자가 Baidu Spider 차단을 해제하는 방법" 을 참조하세요.
유사 제품 추천