"바이두 스파이더" 종합 분석

출시일:2022-09-09
조회수:

[검색 Q&A 극장]은 "바이두 스파이더" 에 대한 포괄적인 분석을 제공하여 다양한 상황에서 "바이두 스파이더"의 역할을 명확하게 이해하고 웹사이트 전반의 운영을 위한 기초를 마련하는 데 도움을 드립니다.


【크롤링】

1. 바이두스파이더란 무엇인가요?

A: 바이두 스파이더(Baidu Spider)는 바이두 검색 엔진의 자동 검색 프로그램입니다. 인터넷 웹페이지를 방문하고 색인 데이터베이스를 구축하여 사용자가 바이두 검색 엔진에서 웹사이트 관련 콘텐츠를 검색할 수 있도록 하는 것이 이 프로그램의 기능입니다.



2. 질문: 현재 크롤링이 올바른 Baidu 스파이더인지 어떻게 확인할 수 있나요?

답변: Baidu Spider를 식별하는 방법은 두 가지가 있습니다.

방법 1: UA 정보 보기

UA 정보가 정확하지 않으면 바이두 검색 스파이더가 아니라는 것을 직접 확인할 수 있습니다. 현재 UA는 모바일, PC , 미니 프로그램의 세 가지 적용 시나리오로 나뉩니다. 이 세 가지 채널의 UA는 다음과 같습니다.


모바일 UA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML, like Gecko)Version/5.1 Mobile Safari/10600.6.3 (호환; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

또는

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1과 유사 Mac OS


PC UA:

Mozilla/5.0(호환; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

또는

Mozilla/5.0 (호환; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)


미니 프로그램 UA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1과 유사 Mac OS

방법 2: 양방향 DNS 확인 인증

1단계: IP 주소에 대한 DNS 역방향 조회 . 개발자는 로그에 있는 액세스 서버의 IP 주소에 대해 역방향 DNS 조회를 실행 하여 스파이더가 Baidu 검색 엔진에서 온 것인지 확인할 수 있습니다. Baiduspider의 호스트 이름은 *.baidu.com 또는 *.baidu.jp 형식입니다. *.baidu.com 또는 *.baidu.jp가 아닌 경우 사칭으로 간주됩니다.


검증 방법은 플랫폼에 따라 다릅니다. 예를 들어 Linux, Windows, OS에 대한 검증 방법은 다음과 같습니다.

Linux에서는 host ip 명령을 사용하여 IP 주소를 역순으로 변경하여 Baiduspider에서 생성된 것인지 확인할 수 있습니다. Baiduspider의 호스트 이름은 *.baidu.com 또는 *.baidu.jp 형식으로 지정됩니다. *.baidu.com 또는 *.baidu.jp가 아니면 사칭입니다.

Windows 또는 IBM OS/2 플랫폼 에서는 nslookup ip 명령을 사용하여 IP 주소를 역추적하여 Baiduspider에 의해 캡처되었는지 확인할 수 있습니다.

Mac OS에서는 dig 명령어를 사용하여 IP 주소를 역추적하여 Baiduspider에 의해 캡처되는지 확인할 수 있습니다.



2단계: 도메인 이름에 대해 정방향 DNS 조회를 실행합니다 . 1단계의 명령으로 검색된 도메인 이름에 대해 정방향 DNS 조회를 실행하여 도메인 이름이 로그에 기록된 액세스 서버의 원래 IP 주소와 일치하는지 확인합니다. IP 주소가 일치하면 스파이더가 바이두 검색 엔진에서 온 것임을 확인할 수 있습니다. IP 주소가 일치하지 않으면 사칭 공격입니다.


자세한 내용은 "Baidu 스파이더를 빠르게 식별하는 방법을 알려주는 두 가지 간단한 단계" 문서를 참조하세요.

3. 질문: Baidu Spider는 항상 내 웹사이트를 크롤링할까요?

A: 일반적으로 웹사이트가 새로운 리소스를 계속 생성하고 콘텐츠를 업데이트하면 스파이더는 계속해서 크롤링합니다. 웹사이트가 바이두 스파이더의 크롤링이 필요한 경우 , 차단하지 마십시오 . (차단에 대한 자세한 내용은 다음 내용을 참조하십시오.)

또한, 웹사이트 접속 로그를 확인하여 올바른 바이두 스파이더를 신속하게 식별함으로써 누군가가 바이두 스파이더를 사칭하여 웹사이트를 자주 크롤링하는 것을 방지할 수 있습니다.



4. 질문: 바이두 스파이더가 웹사이트에 자주 접속하여 웹사이트 서버에 큰 부담을 주고 있습니다. 어떻게 해야 하나요?

A: 바이두 스파이더가 자주 크롤링하는 것을 발견하면 다음과 같은 이유가 있을 수 있습니다.

① 웹사이트에는 새로운 제작 리소스와 업데이트된 콘텐츠가 있어 이를 포착하여 업데이트해야 합니다.

바이두 스파이더를 악의적으로 사칭하는 행위 가 있을 수 있습니다. 위 질문 2 "정상적인 바이두 스파이더 식별 방법" 의 방법을 따라 문제를 해결할 수 있습니다.

바이두 스파이더 크롤링 빈도가 너무 높아 웹사이트 서비스 이상이 발생할 경우, 검색 리소스 플랫폼의 [ 크롤링 빈도] 도구 를 통해 빈도를 조절할 수 있습니다.


[ 금지된 기사]

1. 질문: 바이두 스파이더가 웹사이트 리소스 중 일부에 접근하는 것을 원치 않습니다. 어떻게 해야 하나요?

A: 바이두 스파이더는 인터넷 로봇 프로토콜을 준수합니다. 웹마스터는 robots.txt 파일을 업데이트하여 바이두 스파이더가 리소스나 디렉토리에 접근하는 것을 원하지 않음을 명시하고, 검색 리소스 플랫폼 인 [로봇 ] 도구 를 통해 로봇 파일을 적시에 제출할 수 있습니다.

로봇 파일이 업데이트되어 제출된 후에는 검색 엔진이 점진적으로 업데이트를 완료해야 하므로, 바이두 스파이더가 웹페이지 크롤링을 즉시 중단하지 않습니다. 잠시 기다려 주시기 바랍니다.




2. 질문: 웹사이트에서 Baidu Spider를 금지하면 어떤 영향이 있을까요?

답변: 해당 웹사이트는 양질의 리소스를 보유하고 있으며, 다른 위반 사항도 없습니다 . 하지만 다음과 같은 상황이 존재합니다.

① 바이두 스파이더에서는 크롤링 기록이 발견되지 않았습니다.

②바이두 검색에 포함되거나 표시되지 않습니다 .

③ 해당 웹사이트/디렉토리의 트래픽이 비정상적으로 감소하고 있습니다.

④ 검색 결과 요약에 "로봇 차단됨 "이라고 표시됩니다.

위와 같은 상황이 발견되면, 먼저 Baidu Spider 차단에 문제가 있는지 확인하고, 적절한 시기에 차단을 해제하세요(차단 해제 방법은 QA7 참조). 그리고 복구될 때까지 기다리세요.



3. 질문: Baidu Spider 차단을 해제하려면 어떻게 해야 하나요?

A: 일반적인 차단 동작에는 로봇 차단, 바이두 UA 차단, 바이두 IP 차단 등이 있습니다. 이러한 동작들을 하나씩 확인하고 해결할 수 있습니다.

(1) robots.txt 파일을 확인하여 차단 기록이 있는지 확인하세요. (일반적으로 robots.txt 파일은 웹사이트 루트 디렉토리에 위치합니다.)


(2) 로봇파일에는 이상이 없으며, 바이두 UA가 정지 되었는지 확인하기 위해 추가 조사를 진행합니다.

솔루션 1: curl --head --user-agent 'Mozilla/5.0 (호환; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'를 실행합니다.

참고: 일반적인 반환 코드는 200 이며, 다른 상황은 비정상적입니다.

솔루션 2: 브라우저 UA 검증 변경


(3) 상기 검증 결과 이상이 없을 경우, IP급 차단 조치가 있는지 추가적으로 검증합니다.

일반적인 IP 차단은 웹사이트의 방화벽 시스템 구성에서 발생합니다 . Baidu Spider에 대한 IP 차단 조치가 있는지 확인하려면 방화벽 구성 시스템 배경을 확인해야 합니다.

자세한 내용은 "개발자가 Baidu Spider 차단을 해제하는 방법" 을 참조하세요.

제출

유사 제품 추천