「百度蜘蛛」総合分析

発売日2022-09-09
ビュー:

【検索Q&Aシアター】では、 「Baidu Spider」を総合的に分析し、さまざまなシーンにおける「Baidu Spider」の役割を明確に理解し、ウェブサイト全体の運用の基礎を築くのに役立ちます。


【ハイハイ】

1. Baiduspiderとは何ですか?

A: Baiduspider(別名Baiduスパイダー)は、Baidu検索エンジンの自動プログラムです。インターネット上のウェブページを訪問し、インデックスデータベースを構築することで、ユーザーがBaidu検索エンジンでウェブサイト関連のコンテンツを検索できるようにします。



2. Q: 現在のクロールが正しい Baidu スパイダーであることをどのように識別できますか?

A: Baidu Spider を識別する方法は 2 つあります。

方法1: UA情報を表示する

UA情報に誤りがある場合、Baiduの検索スパイダーではないことが直接的に判断できます。現在、UAはモバイル、PC 、ミニプログラムの3つの適用シナリオに分かれています。これらの3つのチャネルのUAは次のとおりです。


モバイルUA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML、Gecko など) バージョン/5.1 Mobile Safari/10600.6.3 (互換; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

または

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 Mac OSのような


PC UA:

Mozilla/5.0 (互換; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

または

Mozilla/5.0 (互換; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)


ミニプログラムUA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 Mac OSのような

方法2: 双方向DNS解決認証

ステップ1:IPアドレスのDNS逆引き。開発者は、ログに記録されたアクセスサーバーのIPアドレスに対してDNS逆引きを実行することで、スパイダーがBaidu検索エンジンのスパイダーかどうかを判断できます。Baiduspiderのホスト名は*.baidu.comまたは*.baidu.jpの形式です。*.baidu.comまたは*.baidu.jpでない場合は、なりすましです。


検証方法はプラットフォームによって異なります。例えば、Linux、Windows、OSごとの検証方法は以下の通りです。

Linuxでは host ipコマンドを使ってIPアドレスを逆順にすることで、Baiduspiderからのアクセスかどうかを判断できます。Baiduspiderのホスト名は*.baidu.comまたは*.baidu.jpの形式です。*.baidu.comまたは*.baidu.jpでない場合は、なりすましです。

Windows または IBM OS/2プラットフォームでは、nslookup ip コマンドを使用して IP アドレスを逆にし、Baiduspider によってキャプチャされているかどうかを確認できます。

Mac OSでは digコマンドを使用してIPアドレスを逆にし、Baiduspiderによってキャプチャされているかどうかを確認できます。



ステップ2:ドメイン名に対してDNSフォワードルックアップを実行しますステップ1のコマンドで取得したドメイン名に対してDNSフォワードルックアップを実行し、ドメイン名がログに記録されているアクセス元のサーバーのIPアドレスと一致しているかどうかを確認します。IPアドレスが一致している場合、スパイダーはBaidu検索エンジンから来ていることが確認できます。IPアドレスが一致していない場合は、なりすましです。


詳細については、 「Baiduスパイダーを素早く見分ける方法を説明する2つの簡単な手順」という文書を参照してください。

3. Q: Baidu Spider は常に私の Web サイトをクロールしますか?

A: 一般的に、ウェブサイトが新しいリソースを作成し、コンテンツを更新し続ける限り、スパイダーはクロールを継続します。ただし、ウェブサイトがBaiduスパイダーによるクロールを必要とする場合は、ブロックしないでください。(ブロックの詳細については、以下のコンテンツを参照してください。)

さらに、ウェブサイトのアクセス ログをチェックして正しい Baidu スパイダーをすぐに特定し、誰かが悪意を持って Baidu スパイダーになりすましてウェブサイトを頻繁にクロールするのを防ぐこともできます。



4. Q: Baiduスパイダーがウェブサイトを頻繁に訪問し、ウェブサイトサーバーに大きな負荷をかけています。どうすればよいでしょうか?

A: Baiduスパイダーが頻繁にクロールしている場合は、次のような理由が考えられます。

① ウェブサイトには、キャプチャして更新する必要がある新しい制作リソースと更新されたコンテンツがあります。

Baidu Spider の悪意あるなりすましの可能性があります。上記のQ2 「正常な Baidu Spider の見分け方」の手順に従って問題を解決してください。

Baiduスパイダーのクロール頻度が高すぎると、ウェブサイトのサービスに異常が発生する場合は、検索リソースプラットフォームの[クロール頻度]ツールを使用して頻度を調整できます。


[禁止記事]

1. Q: ウェブサイトの一部のリソースをBaiduスパイダーがアクセスできないようにしたいのですが、どうすればよいでしょうか?

A: Baiduスパイダーはインターネットロボットプロトコルに準拠しています。ウェブマスターはrobots.txtファイルを更新し、Baiduスパイダーによるリソースやディレクトリへのアクセスを禁止する旨を明記し、検索リソースプラットフォーム[Robots ]ツールを通じてロボットファイルを適時に送信することができます。

なお、robots ファイルを更新して送信した後、検索エンジンは段階的に更新を完了する必要があるため、Baidu スパイダーはすぐにウェブページのクロールを停止しません。しばらくお待ちください。




2. Q: ウェブサイトが Baidu Spider を禁止した場合、どのような影響があるでしょうか?

A:ウェブサイトには高品質のリソースがあり、その他の違反はありませんが、次のような状況があります。

① Baidu Spiderによるクロール記録は見つかりませんでした。

②百度検索には含まれず、表示もされません

③ ウェブサイト/ディレクトリのトラフィックが異常に減少しています

④検索結果の概要に「ロボットがブロックされました」と表示されます。

上記の状況に遭遇した場合は、まずBaidu Spiderのブロックに問題があるかどうかを確認し、適時に禁止を解除し(禁止の解除についてはQA7を参照)、回復を待つことができます。



3. Q: Baidu Spider のブロックを解除するにはどうすればよいですか?

A: よくあるブロック動作には、ロボットブロック、Baidu UAブロック、Baidu IPブロックなどがあります。これらを一つずつ確認して解決してください。

(1) robots.txtファイルにブロック記録がないか確認します。(通常、robots.txtファイルはウェブサイトのルートディレクトリに配置されます。)


(2)ロボットファイルに異常はなく、 Baidu UAが禁止されているかどうかを判断するために更なる調査が行われます。

解決策 1: curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx' を実行します。

注意:正常な戻りコードは200であり、他の状況は異常です。

解決策 2: ブラウザの UA 検証を変更します。


(3)上記の検証で異常がなければ、さらにIPレベルの禁止がないか確認する。

一般的なIPブロックは、ウェブサイトのファイアウォールシステム設定に起因します。Baidu Spiderに対してIPレベルのブロック対策が施されているかどうかを確認するには、ファイアウォールシステム設定の背景を確認する必要があります。

詳細については、 「開発者がBaidu Spiderのブロックを解除する方法」を参照してください。

送信

類似のおすすめ