Платформа интеллектуального маркетинга и создания сайтов Иинбао!
[Search Q&A Theater] предлагает вам всесторонний анализ «Baidu Spider» , помогая вам четко понять роль «Baidu Spider» в различных сценариях и заложить основу для общей работы веб-сайта.
A: Baiduspider, также известный как Baidu spider, является автоматической программой поисковой системы Baidu. Ее функция заключается в посещении веб-страниц в Интернете и создании индексной базы данных , чтобы пользователи могли искать контент, связанный с веб-сайтом, в поисковой системе Baidu.
A: Есть два способа идентифицировать Baidu Spider.
Метод 1: Просмотр информации UA
Если информация UA неверна, вы можете напрямую определить, что это не поисковый паук Baidu. В настоящее время UA делится на три сценария применения: мобильный, ПК и мини-программы . UA этих трех каналов следующие:
Мобильный UA:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML, как Gecko)Version/5.1 Mobile Safari/10600.6.3 (совместимый; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
или
Mozilla/5.0 (iPhone; Процессор iPhone OS 9_1 как Mac OS
ПК УА:
Mozilla/5.0 (совместимо; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
или
Mozilla/5.0 (совместимо; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
Мини-программа UA:
Mozilla/5.0 (iPhone; Процессор iPhone OS 9_1 как Mac OS
Метод 2: Двунаправленная аутентификация разрешения DNS
Шаг 1: Обратный поиск DNS IP . Разработчики могут определить, является ли паук поисковой системой Baidu, запустив обратный поиск DNS по IP-адресу сервера доступа в журнале. Имя хоста Baiduspider имеет формат *.baidu.com или *.baidu.jp. Если это не *.baidu.com или *.baidu.jp, это подмена.
Методы проверки различаются в зависимости от платформы. Например, методы проверки для Linux, Windows и ОС следующие:
① В Linux вы можете использовать команду host ip для переворота IP, чтобы определить, принадлежит ли он Baiduspider. Имя хоста Baiduspider имеет формат *.baidu.com или *.baidu.jp. Если это не *.baidu.com или *.baidu.jp, это подмена.
② На платформах Windows или IBM OS/2 вы можете использовать команду nslookup ip, чтобы изменить IP-адрес и определить, захвачен ли он Baiduspider.
③ В Mac OS вы можете использовать команду dig для реверсирования IP-адреса и определения, захвачен ли он Baiduspider.
Шаг 2: Запустите прямой DNS-поиск по доменному имени . Запустите прямой DNS-поиск по доменному имени, полученному командой на шаге 1, чтобы проверить, соответствует ли доменное имя исходному IP-адресу сервера, к которому обращаются в вашем журнале. Если IP-адрес соответствует, можно подтвердить, что паук исходит из поисковой системы Baidu. Если IP-адрес не соответствует, это подмена.
Более подробную информацию можно найти в документе: «Два простых шага, которые научат вас быстро распознавать пауков Baidu».
A: Обычно, если веб-сайт продолжает производить новые ресурсы и обновлять контент, паук будет продолжать сканировать. Следует отметить, что если веб-сайту требуется паук Baidu для сканирования , не блокируйте его . (Для получения дополнительной информации о блокировке, пожалуйста, обратитесь к следующему контенту)
Кроме того, вы также можете проверить журнал доступа к веб-сайту, чтобы быстро определить правильного поискового робота Baidu и предотвратить попытки кого-либо злонамеренно выдавать себя за поискового робота Baidu и часто сканировать ваш веб-сайт.
A: Если вы заметили, что паук Baidu часто ползает, это может быть связано с тем, что
① На веб-сайте имеются новые производственные ресурсы и обновленный контент , который необходимо собирать и обновлять;
② Возможно, имеет место вредоносная имитация Baidu Spider . Вы можете устранить проблему, следуя методу в Q2 «Как определить нормального Baidu Spider» выше;
Если частота сканирования поисковым роботом Baidu слишком высока, что приводит к сбоям в работе веб-сайта, вы можете отрегулировать частоту с помощью инструмента [Частота сканирования] на платформе поисковых ресурсов .
A: Пауки Baidu соответствуют протоколу интернет-роботов. Веб-мастера могут обновить файл robots.txt, четко указав, что они не хотят, чтобы пауки Baidu получали доступ к ресурсам или каталогам, и своевременно отправить файл robots через платформу поисковых ресурсов - инструмент [Robots] .
Следует отметить, что после обновления и отправки файла robots поисковая система должна постепенно завершить обновление, поэтому паук Baidu не прекратит сканирование веб-страниц немедленно. Пожалуйста, подождите терпеливо.
A: На сайте имеются качественные ресурсы и нет других нарушений , но имеют место следующие ситуации:
① Baidu Spider не обнаружил записей сканирования.
②Он не включен и не отображается в поиске Baidu.
③ На сайте/каталоге наблюдается аномальное снижение трафика .
④ В результатах поиска будет отображаться сводка «роботы заблокированы ».
Если вы столкнулись с описанной выше ситуацией, вы можете сначала проверить, нет ли проблем с блокировкой Baidu Spider, и вовремя снять бан (см. QA7 для снятия бана) и дождаться восстановления.
A: Распространенные блокирующие поведения включают блокировку роботов, блокировку Baidu UA и блокировку Baidu IP . Вы можете проверить и решить их по одному:
(1) Проверьте файл robots.txt на предмет наличия блокирующих записей. (Обычно файл robots.txt размещается в корневом каталоге веб-сайта.)
(2) В файле robots.txt нет никаких отклонений, и проводится дальнейшее расследование, чтобы определить, был ли заблокирован Baidu UA ;
Решение 1: Выполните curl --head --user-agent 'Mozilla/5.0 (совместимый; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'
Примечание: нормальный код возврата — 200 , другие ситуации являются ненормальными.
Решение 2: Изменить проверку UA браузера;
(3) Если в ходе вышеуказанных проверок не выявлено никаких отклонений, проверьте далее, нет ли запрета на уровне IP;
Распространенная блокировка IP происходит из-за конфигурации системы брандмауэра веб-сайта . Вам необходимо проверить системный фон конфигурации брандмауэра, чтобы проверить, есть ли меры блокировки на уровне IP для Baidu Spider.
Подробную информацию см. в разделе «Как разработчики могут разблокировать Baidu Spider».
Похожие рекомендации