操作上の注意: クモがどのように這うのかを理解しましょう。インクルージョンの謎を解明する

操作上の注意: クモがどのように這うのかを理解しましょう。インクルージョンの謎を解明する

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス

SEO を行う際、多くの人はスパイダークローリングの原理やインクルードインデックスの関係を理解し​​ていません。この記事では主に、実戦におけるスパイダーとインクルードの関係について説明します。原理についてではなく、乾物と経験についてのみ説明します。

まず、スパイダーというと、次のような IP を思い浮かべるかもしれません。

220.181.108.89 は、ホームページの IP ウェイト セグメントをクロールする専用です。一般的な戻りコードは 304 0 0 で、更新されていないことを意味します。

220.181.108.94 は、ホームページの IP ウェイト セグメントをクロールする専用です。一般的な戻りコードは 304 0 0 で、更新されていないことを意味します。

220.181.108.97 は、ホームページの IP ウェイト セグメントをクロールする専用です。一般的な戻りコードは 304 0 0 で、更新されていないことを意味します。

220.181.108.80 は、ホームページの IP ウェイト セグメントをクロールする専用です。一般的な戻りコードは 304 0 0 で、更新されていないことを意味します。

220.181.108.77 は、ホームページをキャプチャするための専用の IP ウェイト セグメントです。一般的な戻りコードは 304 0 0 で、更新されていないことを意味します。

理解するのは難しいでしょうか?しかし、ネットワークメンテナンスや LAN ネットワークの構築を行ったことがある人なら、各 IP がコンピューターに対応し、各サーバーグループがネットワークセグメントに対応していることを理解できるでしょう。

たとえば、ネットワーク セグメント 220.181.108.x を収集サーバー グループと呼びます。このサーバー グループの下には、コンピューター ABCDE と対応する IP アドレスがあります。各コンピューターには、対応する収集プログラムがインストールされています。

これで分かりましたか? たとえば、Baidu にリンクを送信すると、インデックス サーバー グループのコンピューター C にこのリンクを送信するのと同じになります。

たとえば、リンク 1、2、3 を送信した場合、これら 3 つのリンクは、含まれているサーバー グループ内のコンピューター C、D、E にそれぞれ送信されています。そのため、ログを確認すると、これら 3 つのリンクが異なる IP アドレス、つまり異なるコンピューターに対応していることがわかります。

なぜ 3 つのリンクが 3 台の異なるコンピューターに送信されているのでしょうか。私の推測では、送信されたデータが多すぎて同じコンピューターで処理できないため、分散処理方式が採用されているのではないかと思います。 (これは単なる私の推測であり、研究による証明ではありませんが、おそらくそれに対処するより高度な方法です)。

昨日テストをして、オリジナル記事を 3 つ書きました。公開後、最短時間でスパイダーのクローリング状況を確認しました。この 3 つの記事の IP アドレスは次の通りです。

116.179.32.135 – サーバー 1

220.181.108.122 – サーバー 2

220.181.108.180 – サーバー 3

最初の記事を書き終えると、数分以内にインデックスに含まれました。その後、最初の記事の執筆フレームワークを真似て、2番目の記事を書き続けました。2番目の記事も数分以内にインデックスに含まれました。その後、3番目の記事を書き続けました。残念ながら、3番目の記事は含まれませんでした。

しかし翌日には 3 つの記事がすべて掲載され、3 番目の記事が 1 日おきに掲載されたことになります。

もう一度、IP 116.179.32.135 を確認しました。この IP は、山西省陽泉市の China Unicom に属しています。116.179.32.X ネットワーク セグメントにスパイダーが存在する理由を疑問に思う人は多いでしょう。これで、このネットワーク セグメントが Baidu スパイダーであることが確実になりました。nslookup 検証に加えて、次の点も証拠となります。

蜘蛛があなたの体を這うのは良いニュースですか?蜘蛛が這う原理を理解する時が来ました!収集問題を明らかに!

さらに、百度の李社長の出身地も陽泉市なので、検索サーバーの一部も山西省に移されたことを示す証拠がいくつかある。

上記の実際の経験と、以前の収集とクロールのスパイダー分析を組み合わせると、リンクが 116.179.32.135、または 220.181.108.122、220.181.108.180 などに送信されている限り、リンクは確実にインクルードされます。したがって、インクルード パスワードのロックを解除する際の唯一の難しさは、制御リンクがこれらのサーバーに送信されているかどうかです。

220 で始まるのが公式スパイダースで、116 で始まるのが地元のスパイダースだと冗談を言う人もいました。ハハ、大物たちがこの問題を一緒に研究してくれるといいですね。

この記事は最初にZhengjingshuoによって公開されました:zhanzhang/779.html

起業レポートを申請し、優れた起業アイデアを共有しましょう。新しい起業の機会について一緒に話し合うには、ここをクリックしてください。

元のタイトル: 運用上の注意: スパイダークローリングの原理を理解するときが来ました!インクルージョンの謎を解明する

キーワード: Baidu スパイダー、検索エンジン スパイダー

<<:  運用メモ: SEOクイックランキングについて!

>>:  新しいウェブサイトのキーワードをより最適化するにはどうすればよいでしょうか?

推薦する

列車キーワードデータ分析のためのシンプルな方法とツール

現在、スループロモーションを行うほとんどの人は、依然としてキーワードプロモーションを主に使用していま...

cmivps: 香港 VPS、100M 帯域幅、中国本土向けに最適化された帯域幅、月額 8 米ドル

cmivps は、香港データセンター、KVM 仮想化、純粋な SSD、100Mbps 帯域幅、中国本...

伝統的なSEOの崩壊と非伝統的なSEO手法の「合法化」について語る

導入:この記事はあくまでも個人的な意見を述べたものであり、あらゆるコメントを歓迎します。 SEO、ウ...

企業向けショッピングモールシステム構築の3つのポイントを簡単に説明します。

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています以前は、シ...

エッジコンピューティングはモノのインターネット時代の主役です

広義のクラウドサービスオブジェクトと比較すると、IoTデバイスのニーズは異なります。たとえば、IoT...

一目でわかる「分散ロック」の原理

分散ロックの原理は、私たちが普段話しているロックと基本的に同じです。目的は、複数のスレッドが同時に実...

クラウドコンピューティングがビジネスとITの関係をどのように再定義するか

企業が業務をクラウドに移行するという決定は、業務をデータセンター インフラストラクチャからクラウドに...

セオアー、何を考えてるの?

これは18日間かけて書いた、完全に手作りの記事です。初心者SEO担当者として、最初に関わる仕事は、会...

ライブ配信でグッズ販売できるチャンネルが12個!

前回は、商品を販売できる友人の輪をどのように構築するか、どのチャネルを使用して商品を購入するか、購入...

オンラインローン広告の「低さ」の背景には顧客獲得への不安がある

JD Finance は、公式とは思えないほど低俗な一連の広告のおかげで、主要プラットフォームで話題...

P4 が NAT64 と出会うと、UCloud はどのようにして IPv4 から IPv6 に迅速に進化するのでしょうか?

IPv4 には、アドレス枯渇、セキュリティやサービス品質の確保の難しさ、経路拡張など、現時点では多く...

xvmlabs - $26.71/年/1G メモリ/100g SSD/300g トラフィック/7IPv4

it7の実験プラットフォームxvmlabsに特別版VPSが2つ追加されました。ハードディスクは以前よ...

2010年5月18日のBaiduスナップショットの更新日は間違っている

サイトナビゲーションネットワークのリーダーは、Baiduに「中央ラジオテレビ大学の登録電話番号」を入...

ジャック・マーが起業家精神について語る: 地に足のついたことをして、ベンチャーキャピタルにウェブサイトを見つけてもらう

アリババは、他のインターネット企業がとってきた、資金を調達し、人材を採用し、物事を実行するという古い...

競合他社の方針、方法、戦略を分析し発見する方法

競争があってこそ、より大きな進歩が実現します。国を外界から隔離する政策は、もはや社会の発展には適して...