「百度蜘蛛」総合分析

発売日2022-09-09

ビュー：

【検索Q&Aシアター】では、 「Baidu Spider」を総合的に分析し、さまざまなシーンにおける「Baidu Spider」の役割を明確に理解し、ウェブサイト全体の運用の基礎を築くのに役立ちます。

【ハイハイ】

1. Baiduspiderとは何ですか？

A: Baiduspider（別名Baiduスパイダー）は、Baidu検索エンジンの自動プログラムです。インターネット上のウェブページを訪問し、インデックスデータベースを構築することで、ユーザーがBaidu検索エンジンでウェブサイト関連のコンテンツを検索できるようにします。

2. Q: 現在のクロールが正しい Baidu スパイダーであることをどのように識別できますか?

A: Baidu Spider を識別する方法は 2 つあります。

方法1: UA情報を表示する

UA情報に誤りがある場合、Baiduの検索スパイダーではないことが直接的に判断できます。現在、UAはモバイル、PC 、ミニプログラムの3つの適用シナリオに分かれています。これらの3つのチャネルのUAは次のとおりです。

モバイルUA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML、Gecko など) バージョン/5.1 Mobile Safari/10600.6.3 (互換; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

または

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 Mac OSのような

PC UA:

Mozilla/5.0 (互換; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

または

Mozilla/5.0 (互換; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

ミニプログラムUA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 Mac OSのような

方法2: 双方向DNS解決認証

ステップ1：IPアドレスのDNS逆引き。開発者は、ログに記録されたアクセスサーバーのIPアドレスに対してDNS逆引きを実行することで、スパイダーがBaidu検索エンジンのスパイダーかどうかを判断できます。Baiduspiderのホスト名は*.baidu.comまたは*.baidu.jpの形式です。*.baidu.comまたは*.baidu.jpでない場合は、なりすましです。

検証方法はプラットフォームによって異なります。例えば、Linux、Windows、OSごとの検証方法は以下の通りです。

① Linuxでは、 host ipコマンドを使ってIPアドレスを逆順にすることで、Baiduspiderからのアクセスかどうかを判断できます。Baiduspiderのホスト名は*.baidu.comまたは*.baidu.jpの形式です。*.baidu.comまたは*.baidu.jpでない場合は、なりすましです。

② Windows または IBM OS/2プラットフォームでは、nslookup ip コマンドを使用して IP アドレスを逆にし、Baiduspider によってキャプチャされているかどうかを確認できます。

③ Mac OSでは、 digコマンドを使用してIPアドレスを逆にし、Baiduspiderによってキャプチャされているかどうかを確認できます。

ステップ2：ドメイン名に対してDNSフォワードルックアップを実行します。ステップ1のコマンドで取得したドメイン名に対してDNSフォワードルックアップを実行し、ドメイン名がログに記録されているアクセス元のサーバーのIPアドレスと一致しているかどうかを確認します。IPアドレスが一致している場合、スパイダーはBaidu検索エンジンから来ていることが確認できます。IPアドレスが一致していない場合は、なりすましです。

詳細については、「Baiduスパイダーを素早く見分ける方法を説明する2つの簡単な手順」という文書を参照してください。

3. Q: Baidu Spider は常に私の Web サイトをクロールしますか?

A: 一般的に、ウェブサイトが新しいリソースを作成し、コンテンツを更新し続ける限り、スパイダーはクロールを継続します。ただし、ウェブサイトがBaiduスパイダーによるクロールを必要とする場合は、ブロックしないでください。（ブロックの詳細については、以下のコンテンツを参照してください。）

さらに、ウェブサイトのアクセスログをチェックして正しい Baidu スパイダーをすぐに特定し、誰かが悪意を持って Baidu スパイダーになりすましてウェブサイトを頻繁にクロールするのを防ぐこともできます。

4. Q: Baiduスパイダーがウェブサイトを頻繁に訪問し、ウェブサイトサーバーに大きな負荷をかけています。どうすればよいでしょうか？

A: Baiduスパイダーが頻繁にクロールしている場合は、次のような理由が考えられます。

① ウェブサイトには、キャプチャして更新する必要がある新しい制作リソースと更新されたコンテンツがあります。

② Baidu Spider の悪意あるなりすましの可能性があります。上記のQ2 「正常な Baidu Spider の見分け方」の手順に従って問題を解決してください。

Baiduスパイダーのクロール頻度が高すぎると、ウェブサイトのサービスに異常が発生する場合は、検索リソースプラットフォームの[クロール頻度]ツールを使用して頻度を調整できます。

[禁止記事]

1. Q: ウェブサイトの一部のリソースをBaiduスパイダーがアクセスできないようにしたいのですが、どうすればよいでしょうか？

A: Baiduスパイダーはインターネットロボットプロトコルに準拠しています。ウェブマスターはrobots.txtファイルを更新し、Baiduスパイダーによるリソースやディレクトリへのアクセスを禁止する旨を明記し、検索リソースプラットフォームの[Robots ]ツールを通じてロボットファイルを適時に送信することができます。

なお、robots ファイルを更新して送信した後、検索エンジンは段階的に更新を完了する必要があるため、Baidu スパイダーはすぐにウェブページのクロールを停止しません。しばらくお待ちください。