スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教えます

スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教えます

日常のウェブサイトの運用とメンテナンスでは、スパイダーのクローリング状況を把握し、日常業務を調整するために、スペースの www ログを使用する必要があることがよくあります。以下では、ログの設定方法とスパイダーのクローリング機能の分析を段階的に詳しく説明します。これにより、各パラメータの意味を十分に理解し、独自の調整と変更の参考にすることができます。

まず、仮想ホストまたはサーバーでログ機能が有効になっていることを確認する必要があります。一般的に、仮想空間プロバイダーはコントロールパネルにwwwログ記録機能を備えており、ウェブマスターにダウンロードと分析を提供しています。以下はエディターが使用するログスタイルです。空間プロバイダーごとに手順と操作方法が異なるため、ここでは参考としてのみ使用します。

まず、図 1 をクリックするか、図 2 のインターフェイスに入ります。クリックしてウェブログをダウンロードすると、図 3 と図 4 のインターフェイスが表示されます。図 4 の各 TXT は年月日で名前が付けられ、ログのサイズが記録されます。クリックして詳細情報を表示します。

2番目:コード内でスパイダーの痕跡を見つけます。TXTログは数百KBまたは数千行に及ぶため、1つ1つ確認するのは非現実的です。スパイダーの特性を十分に理解し、クエリ機能を通じて素早く見つけ出す必要があります。スパイダーのコードはスパイダーであるため、スパイダーを検索すると、Baidu、Google、360など、スパイダーの訪問がすべて表示されます。Baiduスパイダーの特性はbaiduspiderです。ここでは、Baiduスパイダーの状況に焦点を当てます。

まず、メモ帳を使用してダウンロードしたTXT文書を開き、編集検索機能(図5)を使用してすばやく検索します。検索ボックスにbaiduと入力して確認を押すと、Baidu Spiderのクロールコードが見つかります(図6)。

3番目:Baidu Spiderのクローリングラインを見つけた後、エディターは各パラメータを説明し、対応する状況を示します(例の画像を参照)。

パラメータ 1: これは、Baidu スパイダーがコンテンツをクロールする時間です。この時間は通常、コンピューターの時間と 8 時間異なります。これは主に、ログ時間が北京時間と 8 時間異なるグリニッジ標準時を使用しているためです。つまり、対応する北京時間を取得するには、時間に 8 時間を追加する必要があります。したがって、スパイダーがクロールしたときにパラメータ 1 に表示される時間は、5 月 23 日の 13:08 です。

パラメータ 2: コンテンツをクロールする方法。GET はクロールを意味し、それに続く /index.html はクロールされたページです。これは、スパイダーがホームページをクロールしたことを意味します。GET の後に /-- が続く場合、スパイダーが何もクロールしていないことを意味します。この時点で、Web サイトの保守担当者の注意を引く必要があります。コンテンツに問題があるか、Web サイトのホームページのレイアウト、コンテンツと記事などに問題がある可能性があります。具体的な問題は具体的に分析する必要があります。

パラメータ 3: これは、スパイダーがコンテンツをクロールするときのサーバーの IP アドレスです。現在、多くのドメイン名が CNAME を使用して解決されているため、多くのウェブマスターは自分の Web サイトの IP アドレスさえ知りません。この IP アドレスは、スペース プロバイダーがスパイダーにコンテンツをクロールさせる IP アドレスです。Web サイトに問題がある場合は、この IP アドレスの Web サイトの数と含まれる Web サイトの数を確認することで、関係があるかどうかを判断できます。

パラメータ 4: このパラメータはプロトコルのステータスを示します。通常、200 は正常、404 はファイルが見つからない、500 は内部サーバー エラーを意味します。通常、Web サイトのすべてのページが 200 であれば正しいはずです。バージョンが改訂されると、通常 404 エラーが発生します。ここでは、さまざまな戻り値に基づいて具体的な理由を照会する必要があります。

話題から外れますが、ウェブマスターは新しいウェブサイトがオンラインになった後、スパイダーがクロールしてインデックスを付け、ウェブサイトのランキングが高くなるのを心待ちにしています。しかし、現在のBaiduスパイダーによる新しいウェブサイトのレビューは非常に厳しく、その時間は通常20日以上です。そのため、Baiduスパイダーにコンテンツをクロールさせて良いランキングを獲得することはますます難しくなっています。スパイダーがますます賢くなるにつれて、欺瞞やブラックハットの方法でスパイダーの信頼を得ることは容易ではありません。たとえ成功したとしても、Baiduの不正防止センターによるウェブサイトの詳細な検査で発見され、不正行為の程度に応じて不正行為のウェブサイトは罰せられます。したがって、ウェブマスターには、ウェブサイトを着実に構築し、ホワイトハットの専門家になることに集中することをお勧めします。そうすれば、管理している企業ウェブサイトのランキングが心配になることはありません。

上記の記事は、A 5 に Sichuan Boric Acid http://www.cdxzhg.com によって最初に公開されました。すべてのウェブマスターと共有したいと考えています。転載する必要がある場合は、出典を明記してください。ご協力ありがとうございます。


元のタイトル: スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教える

キーワード:

<<:  動画サイトの現状とサイト最適化運用方法

>>:  SEOとは何だと思いますか?

推薦する

Webmaster.com からの毎日のレポート: Sina Micro-mission のオンライン鉄道チケット購入がピークに達する

1. Sina: サードパーティのWeiboサービスプロバイダーに損害を与えないでください北京ニュー...

フォーブス2013年テクノロジー富豪リスト: スリムが1位、ゲイツが2位

メキシコの通信業界の大物カルロス・スリム・ヘル新浪科技報、北京時間3月5日、米『フォーブス』誌は火曜...

アリババクラウドは深夜に再びダウンした。クラウド サービス プロバイダーの 99.99% のセキュリティはどの程度信頼できるのでしょうか?

原題:アリババクラウドが再びダウン、修復はすべて完了したと回答アリババクラウドは補償の詳細を明らかに...

ユーザーがどのようにウェブサイトを閲覧しているかご存知ですか?

実は、多くの人が、ユーザーが自分のウェブサイトを閲覧するときにどのような心理や習慣を持っているかを知...

ウェブサイトの包含率を上げる5つの方法

記事の包含率は、ウェブサイトの成功にとって非常に重要です。私が従事している医療業界を例に挙げてみまし...

レンレンビデオ&シューターゲートウェイステーション

本日、アメリカの有名なドラマ字幕グループRenren FilmsとShooter.comが同時に閉鎖...

公式アカウントのファン獲得方法、サイト運営の考え方、ファン獲得の実践スキル

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス1. 背景著者は以前、あ...

ソフト商品のプロモーションはマーケティングの新たな人気となり、企業の発展を加速し、評判を獲得する

インターネットの急速な普及と発展に伴い、より多くの企業がオンライン チャネルを通じて自社の製品やブラ...

WeChatのボーナス期間を振り返る:チャネルの沈没、ソーシャルeコマース、消費のアップグレード!

VC である限り、転職したいときには必ず、次のような致命的な質問が待っています。「過去数年間で推進し...

思考と行動の有機的な統一は、タオバオの良き顧客になるための前提条件です。

タオバオアフィリエイトの運営がますます難しくなっているのは紛れもない事実です。タオバオアフィリエイト...

タオバオの悪評を覆すライター:一団のオオカミが新規出品者を包囲し、月に1万元以上を稼ぐ

「彼らは毎日、潜在的な犠牲者を探し、彼らを『肉』と呼んでいます。一度誰かを見つけると、グループで手配...

グリーンラディッシュアルゴリズムの第2フェーズがSEO業界に与える影響

緑大根アルゴリズムのリリースからわずか数か月で、緑大根2号が再び稼働し始めました。基本的には、大規模...

Dockerfile は組み込みのシェル スクリプトをサポートし、&& リンク シンボルは不要になりました。

数日前、私はDockerfile[1]のHere-Doc構文をテストしましたが、役に立たないことがわ...

ローカル分類ウェブサイト: 最もシンプルで実用的かつ収益性の高い運用のヒント

インターネット上には先人たちが書いた運営秘訣がたくさんありますが、それらはQQグループのプロモーショ...