Рекомендуем

Комплексный анализ "Паука Baidu"

Дата выхода:2022-09-09
Виды:

[Search Q&A Theater] предлагает вам всесторонний анализ «Baidu Spider» , помогая вам четко понять роль «Baidu Spider» в различных сценариях и заложить основу для общей работы веб-сайта.


【Ползание】

1. Что такое Baiduspider?

A: Baiduspider, также известный как Baidu spider, является автоматической программой поисковой системы Baidu. Ее функция заключается в посещении веб-страниц в Интернете и создании индексной базы данных , чтобы пользователи могли искать контент, связанный с веб-сайтом, в поисковой системе Baidu.



2. В: Как определить, что текущий поисковый робот — это правильный поисковик Baidu?

A: Есть два способа идентифицировать Baidu Spider.

Метод 1: Просмотр информации UA

Если информация UA неверна, вы можете напрямую определить, что это не поисковый паук Baidu. В настоящее время UA делится на три сценария применения: мобильный, ПК и мини-программы . UA этих трех каналов следующие:


Мобильный UA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML, как Gecko)Version/5.1 Mobile Safari/10600.6.3 (совместимый; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

или

Mozilla/5.0 (iPhone; Процессор iPhone OS 9_1 как Mac OS


ПК УА:

Mozilla/5.0 (совместимо; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

или

Mozilla/5.0 (совместимо; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)


Мини-программа UA:

Mozilla/5.0 (iPhone; Процессор iPhone OS 9_1 как Mac OS

Метод 2: Двунаправленная аутентификация разрешения DNS

Шаг 1: Обратный поиск DNS IP . Разработчики могут определить, является ли паук поисковой системой Baidu, запустив обратный поиск DNS по IP-адресу сервера доступа в журнале. Имя хоста Baiduspider имеет формат *.baidu.com или *.baidu.jp. Если это не *.baidu.com или *.baidu.jp, это подмена.


Методы проверки различаются в зависимости от платформы. Например, методы проверки для Linux, Windows и ОС следующие:

В Linux вы можете использовать команду host ip для переворота IP, чтобы определить, принадлежит ли он Baiduspider. Имя хоста Baiduspider имеет формат *.baidu.com или *.baidu.jp. Если это не *.baidu.com или *.baidu.jp, это подмена.

② На платформах Windows или IBM OS/2 вы можете использовать команду nslookup ip, чтобы изменить IP-адрес и определить, захвачен ли он Baiduspider.

В Mac OS вы можете использовать команду dig для реверсирования IP-адреса и определения, захвачен ли он Baiduspider.



Шаг 2: Запустите прямой DNS-поиск по доменному имени . Запустите прямой DNS-поиск по доменному имени, полученному командой на шаге 1, чтобы проверить, соответствует ли доменное имя исходному IP-адресу сервера, к которому обращаются в вашем журнале. Если IP-адрес соответствует, можно подтвердить, что паук исходит из поисковой системы Baidu. Если IP-адрес не соответствует, это подмена.


Более подробную информацию можно найти в документе: «Два простых шага, которые научат вас быстро распознавать пауков Baidu».

3. В: Будет ли Baidu Spider всегда сканировать мой сайт?

A: Обычно, если веб-сайт продолжает производить новые ресурсы и обновлять контент, паук будет продолжать сканировать. Следует отметить, что если веб-сайту требуется паук Baidu для сканирования , не блокируйте его . (Для получения дополнительной информации о блокировке, пожалуйста, обратитесь к следующему контенту)

Кроме того, вы также можете проверить журнал доступа к веб-сайту, чтобы быстро определить правильного поискового робота Baidu и предотвратить попытки кого-либо злонамеренно выдавать себя за поискового робота Baidu и часто сканировать ваш веб-сайт.



4. В: Пауки Baidu часто посещают сайт, создавая большую нагрузку на сервер сайта. Что мне делать?

A: Если вы заметили, что паук Baidu часто ползает, это может быть связано с тем, что

① На веб-сайте имеются новые производственные ресурсы и обновленный контент , который необходимо собирать и обновлять;

② Возможно, имеет место вредоносная имитация Baidu Spider . Вы можете устранить проблему, следуя методу в Q2 «Как определить нормального Baidu Spider» выше;

Если частота сканирования поисковым роботом Baidu слишком высока, что приводит к сбоям в работе веб-сайта, вы можете отрегулировать частоту с помощью инструмента [Частота сканирования] на платформе поисковых ресурсов .


[ Запрещенные статьи]

1. В: Я не хочу, чтобы некоторые ресурсы сайта были доступны паукам Baidu. Что мне делать?

A: Пауки Baidu соответствуют протоколу интернет-роботов. Веб-мастера могут обновить файл robots.txt, четко указав, что они не хотят, чтобы пауки Baidu получали доступ к ресурсам или каталогам, и своевременно отправить файл robots через платформу поисковых ресурсов - инструмент [Robots] .

Следует отметить, что после обновления и отправки файла robots поисковая система должна постепенно завершить обновление, поэтому паук Baidu не прекратит сканирование веб-страниц немедленно. Пожалуйста, подождите терпеливо.




2. В: Какие последствия может иметь запрет Baidu Spider на каком-либо веб-сайте?

A: На сайте имеются качественные ресурсы и нет других нарушений , но имеют место следующие ситуации:

① Baidu Spider не обнаружил записей сканирования.

②Он не включен и не отображается в поиске Baidu.

③ На сайте/каталоге наблюдается аномальное снижение трафика .

④ В результатах поиска будет отображаться сводка «роботы заблокированы ».

Если вы столкнулись с описанной выше ситуацией, вы можете сначала проверить, нет ли проблем с блокировкой Baidu Spider, и вовремя снять бан (см. QA7 для снятия бана) и дождаться восстановления.



3. В: Как разблокировать Baidu Spider?

A: Распространенные блокирующие поведения включают блокировку роботов, блокировку Baidu UA и блокировку Baidu IP . Вы можете проверить и решить их по одному:

(1) Проверьте файл robots.txt на предмет наличия блокирующих записей. (Обычно файл robots.txt размещается в корневом каталоге веб-сайта.)


(2) В файле robots.txt нет никаких отклонений, и проводится дальнейшее расследование, чтобы определить, был ли заблокирован Baidu UA ;

Решение 1: Выполните curl --head --user-agent 'Mozilla/5.0 (совместимый; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'

Примечание: нормальный код возврата — 200 , другие ситуации являются ненормальными.

Решение 2: Изменить проверку UA браузера;


(3) Если в ходе вышеуказанных проверок не выявлено никаких отклонений, проверьте далее, нет ли запрета на уровне IP;

Распространенная блокировка IP происходит из-за конфигурации системы брандмауэра веб-сайта . Вам необходимо проверить системный фон конфигурации брандмауэра, чтобы проверить, есть ли меры блокировки на уровне IP для Baidu Spider.

Подробную информацию см. в разделе «Как разработчики могут разблокировать Baidu Spider».

Онлайн сообщение

Похожие рекомендации