スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教えます

スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教えます

日常のウェブサイトの運用とメンテナンスでは、スパイダーのクローリング状況を把握し、日常業務を調整するために、スペースの www ログを使用する必要があることがよくあります。以下では、ログの設定方法とスパイダーのクローリング機能の分析を段階的に詳しく説明します。これにより、各パラメータの意味を十分に理解し、独自の調整と変更の参考にすることができます。

まず、仮想ホストまたはサーバーでログ機能が有効になっていることを確認する必要があります。一般的に、仮想空間プロバイダーはコントロールパネルにwwwログ記録機能を備えており、ウェブマスターにダウンロードと分析を提供しています。以下はエディターが使用するログスタイルです。空間プロバイダーごとに手順と操作方法が異なるため、ここでは参考としてのみ使用します。

まず、図 1 をクリックするか、図 2 のインターフェイスに入ります。クリックしてウェブログをダウンロードすると、図 3 と図 4 のインターフェイスが表示されます。図 4 の各 TXT は年月日で名前が付けられ、ログのサイズが記録されます。クリックして詳細情報を表示します。

2番目:コード内でスパイダーの痕跡を見つけます。TXTログは数百KBまたは数千行に及ぶため、1つ1つ確認するのは非現実的です。スパイダーの特性を十分に理解し、クエリ機能を通じて素早く見つけ出す必要があります。スパイダーのコードはスパイダーであるため、スパイダーを検索すると、Baidu、Google、360など、スパイダーの訪問がすべて表示されます。Baiduスパイダーの特性はbaiduspiderです。ここでは、Baiduスパイダーの状況に焦点を当てます。

まず、メモ帳を使用してダウンロードしたTXT文書を開き、編集検索機能(図5)を使用してすばやく検索します。検索ボックスにbaiduと入力して確認を押すと、Baidu Spiderのクロールコードが見つかります(図6)。

3番目:Baidu Spiderのクローリングラインを見つけた後、エディターは各パラメータを説明し、対応する状況を示します(例の画像を参照)。

パラメータ 1: これは、Baidu スパイダーがコンテンツをクロールする時間です。この時間は通常、コンピューターの時間と 8 時間異なります。これは主に、ログ時間が北京時間と 8 時間異なるグリニッジ標準時を使用しているためです。つまり、対応する北京時間を取得するには、時間に 8 時間を追加する必要があります。したがって、スパイダーがクロールしたときにパラメータ 1 に表示される時間は、5 月 23 日の 13:08 です。

パラメータ 2: コンテンツをクロールする方法。GET はクロールを意味し、それに続く /index.html はクロールされたページです。これは、スパイダーがホームページをクロールしたことを意味します。GET の後に /-- が続く場合、スパイダーが何もクロールしていないことを意味します。この時点で、Web サイトの保守担当者の注意を引く必要があります。コンテンツに問題があるか、Web サイトのホームページのレイアウト、コンテンツと記事などに問題がある可能性があります。具体的な問題は具体的に分析する必要があります。

パラメータ 3: これは、スパイダーがコンテンツをクロールするときのサーバーの IP アドレスです。現在、多くのドメイン名が CNAME を使用して解決されているため、多くのウェブマスターは自分の Web サイトの IP アドレスさえ知りません。この IP アドレスは、スペース プロバイダーがスパイダーにコンテンツをクロールさせる IP アドレスです。Web サイトに問題がある場合は、この IP アドレスの Web サイトの数と含まれる Web サイトの数を確認することで、関係があるかどうかを判断できます。

パラメータ 4: このパラメータはプロトコルのステータスを示します。通常、200 は正常、404 はファイルが見つからない、500 は内部サーバー エラーを意味します。通常、Web サイトのすべてのページが 200 であれば正しいはずです。バージョンが改訂されると、通常 404 エラーが発生します。ここでは、さまざまな戻り値に基づいて具体的な理由を照会する必要があります。

話題から外れますが、ウェブマスターは新しいウェブサイトがオンラインになった後、スパイダーがクロールしてインデックスを付け、ウェブサイトのランキングが高くなるのを心待ちにしています。しかし、現在のBaiduスパイダーによる新しいウェブサイトのレビューは非常に厳しく、その時間は通常20日以上です。そのため、Baiduスパイダーにコンテンツをクロールさせて良いランキングを獲得することはますます難しくなっています。スパイダーがますます賢くなるにつれて、欺瞞やブラックハットの方法でスパイダーの信頼を得ることは容易ではありません。たとえ成功したとしても、Baiduの不正防止センターによるウェブサイトの詳細な検査で発見され、不正行為の程度に応じて不正行為のウェブサイトは罰せられます。したがって、ウェブマスターには、ウェブサイトを着実に構築し、ホワイトハットの専門家になることに集中することをお勧めします。そうすれば、管理している企業ウェブサイトのランキングが心配になることはありません。

上記の記事は、A 5 に Sichuan Boric Acid http://www.cdxzhg.com によって最初に公開されました。すべてのウェブマスターと共有したいと考えています。転載する必要がある場合は、出典を明記してください。ご協力ありがとうございます。


元のタイトル: スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教える

キーワード:

<<:  動画サイトの現状とサイト最適化運用方法

>>:  SEOとは何だと思いますか?

推薦する

製品設計におけるユーザーの「Gスポット」 ユーザーとともに製品を開発

ユーザーの「Gスポット」とは何でしょうか? ここでは、この G スポットを次のように定義します: ユ...

Kubernetesの代替品の必要性

​k8s はコンテナ オーケストレーションの分野ではよく知られるようになりました。多くの開発者にとっ...

「パーフェクトダイアリー」ブランドマーケティング戦略

ストレート男性でも、「パーフェクトダイアリー」という4つの単語は聞いたことがあるかもしれません。この...

「Lee on line」第1話:外部リンクを拒否するツールとGreen Radishアルゴリズムに関するQ&A

3月12日のウェブマスターネットワーク(www.admin5.com)によると、2月下旬、百度はウェ...

中小規模の電子商取引企業はどのようにして独自のブランドを構築するのでしょうか?

昨年、ブランドの概念は電子商取引企業によって真剣に受け止められました。また、ほとんどの企業は、チャネ...

buyvm: 年間 20 ドル、KVM/512M メモリ/無制限トラフィック + 「超格安」ブロック ストレージ

buyvm は KVM スライス シリーズに新しいモデルを追加しました。これも 20 ドルと非常に安...

CIOがクラウドサービスプロバイダーについて知っておくべき5つのこと

クラウド サービス プロバイダーは、展開速度の向上や将来の柔軟性の確保など、IT リーダーが運用を成...

仮想化とクラウド コンピューティングの後、エンタープライズ ローカル展開には何が残るのでしょうか?

組織の IT 処理能力 (プロセッサ、ストレージ、ネットワークを含む) のどの程度を仮想化してクラウ...

検索エンジンのアルゴリズムアップデートなんてクソくらえ

英語ウェブサイトのプロモーターとして、私たちは常に変化する検索エンジンアルゴリズムの更新に対応するた...

sugarhosts-Webホスティング/クリスマス30%オフ

Sugarhosts は中小規模のホスティング会社ですが、私の意見では非常に信頼性が高く、比較的購入...

中科紅旗の生と死

中科紅旗(正式名称:北京中科紅旗ソフトウェア技術有限公司)は、2000年6月に設立されました。中国科...

Alibaba Cloud クラウド監視リアルタイムデータを自社構築の Prometheus に接続

すでにクラウド内に完全なエンタープライズ IT 管理システムを導入しているお客様もおり、統合監視のた...

Baidu スナップショットの秘密について語る

Baidu 検索をよく使用する人は、Baidu 検索結果項目の右下隅に「Baidu スナップショット...

bgpto: シンガポール直接接続 100M 帯域幅サーバー、月額 99 ドルから。日本無制限トラフィックサーバー、月額 120 ドルから。

BGPTO は公式ウェブサイトでプロモーションを実施しており、アジアのデータセンターの独立サーバーの...

モバイルマーケティングは広告市場のブルーオーシャンに:来年爆発的に拡大する可能性

新浪科技新聞、11月20日午後、Domob、Millward Brown、Miaozhen Syst...