日常のウェブサイトの運用とメンテナンスでは、スパイダーのクローリング状況を把握し、日常業務を調整するために、スペースの www ログを使用する必要があることがよくあります。以下では、ログの設定方法とスパイダーのクローリング機能の分析を段階的に詳しく説明します。これにより、各パラメータの意味を十分に理解し、独自の調整と変更の参考にすることができます。 まず、仮想ホストまたはサーバーでログ機能が有効になっていることを確認する必要があります。一般的に、仮想空間プロバイダーはコントロールパネルにwwwログ記録機能を備えており、ウェブマスターにダウンロードと分析を提供しています。以下はエディターが使用するログスタイルです。空間プロバイダーごとに手順と操作方法が異なるため、ここでは参考としてのみ使用します。 まず、図 1 をクリックするか、図 2 のインターフェイスに入ります。クリックしてウェブログをダウンロードすると、図 3 と図 4 のインターフェイスが表示されます。図 4 の各 TXT は年月日で名前が付けられ、ログのサイズが記録されます。クリックして詳細情報を表示します。 2番目:コード内でスパイダーの痕跡を見つけます。TXTログは数百KBまたは数千行に及ぶため、1つ1つ確認するのは非現実的です。スパイダーの特性を十分に理解し、クエリ機能を通じて素早く見つけ出す必要があります。スパイダーのコードはスパイダーであるため、スパイダーを検索すると、Baidu、Google、360など、スパイダーの訪問がすべて表示されます。Baiduスパイダーの特性はbaiduspiderです。ここでは、Baiduスパイダーの状況に焦点を当てます。 まず、メモ帳を使用してダウンロードしたTXT文書を開き、編集検索機能(図5)を使用してすばやく検索します。検索ボックスにbaiduと入力して確認を押すと、Baidu Spiderのクロールコードが見つかります(図6)。 3番目:Baidu Spiderのクローリングラインを見つけた後、エディターは各パラメータを説明し、対応する状況を示します(例の画像を参照)。 パラメータ 1: これは、Baidu スパイダーがコンテンツをクロールする時間です。この時間は通常、コンピューターの時間と 8 時間異なります。これは主に、ログ時間が北京時間と 8 時間異なるグリニッジ標準時を使用しているためです。つまり、対応する北京時間を取得するには、時間に 8 時間を追加する必要があります。したがって、スパイダーがクロールしたときにパラメータ 1 に表示される時間は、5 月 23 日の 13:08 です。 パラメータ 2: コンテンツをクロールする方法。GET はクロールを意味し、それに続く /index.html はクロールされたページです。これは、スパイダーがホームページをクロールしたことを意味します。GET の後に /-- が続く場合、スパイダーが何もクロールしていないことを意味します。この時点で、Web サイトの保守担当者の注意を引く必要があります。コンテンツに問題があるか、Web サイトのホームページのレイアウト、コンテンツと記事などに問題がある可能性があります。具体的な問題は具体的に分析する必要があります。 パラメータ 3: これは、スパイダーがコンテンツをクロールするときのサーバーの IP アドレスです。現在、多くのドメイン名が CNAME を使用して解決されているため、多くのウェブマスターは自分の Web サイトの IP アドレスさえ知りません。この IP アドレスは、スペース プロバイダーがスパイダーにコンテンツをクロールさせる IP アドレスです。Web サイトに問題がある場合は、この IP アドレスの Web サイトの数と含まれる Web サイトの数を確認することで、関係があるかどうかを判断できます。 パラメータ 4: このパラメータはプロトコルのステータスを示します。通常、200 は正常、404 はファイルが見つからない、500 は内部サーバー エラーを意味します。通常、Web サイトのすべてのページが 200 であれば正しいはずです。バージョンが改訂されると、通常 404 エラーが発生します。ここでは、さまざまな戻り値に基づいて具体的な理由を照会する必要があります。 話題から外れますが、ウェブマスターは新しいウェブサイトがオンラインになった後、スパイダーがクロールしてインデックスを付け、ウェブサイトのランキングが高くなるのを心待ちにしています。しかし、現在のBaiduスパイダーによる新しいウェブサイトのレビューは非常に厳しく、その時間は通常20日以上です。そのため、Baiduスパイダーにコンテンツをクロールさせて良いランキングを獲得することはますます難しくなっています。スパイダーがますます賢くなるにつれて、欺瞞やブラックハットの方法でスパイダーの信頼を得ることは容易ではありません。たとえ成功したとしても、Baiduの不正防止センターによるウェブサイトの詳細な検査で発見され、不正行為の程度に応じて不正行為のウェブサイトは罰せられます。したがって、ウェブマスターには、ウェブサイトを着実に構築し、ホワイトハットの専門家になることに集中することをお勧めします。そうすれば、管理している企業ウェブサイトのランキングが心配になることはありません。 上記の記事は、A 5 に Sichuan Boric Acid http://www.cdxzhg.com によって最初に公開されました。すべてのウェブマスターと共有したいと考えています。転載する必要がある場合は、出典を明記してください。ご協力ありがとうございます。 元のタイトル: スパイダークローリング機能を分析し、ウェブサイトの運用状況を把握する方法を教える キーワード: |
1. Sina: サードパーティのWeiboサービスプロバイダーに損害を与えないでください北京ニュー...
メキシコの通信業界の大物カルロス・スリム・ヘル新浪科技報、北京時間3月5日、米『フォーブス』誌は火曜...
A5 Webmaster Network (www.admin5.com) は3月28日、3月ももう...
原題:アリババクラウドが再びダウン、修復はすべて完了したと回答アリババクラウドは補償の詳細を明らかに...
実は、多くの人が、ユーザーが自分のウェブサイトを閲覧するときにどのような心理や習慣を持っているかを知...
記事の包含率は、ウェブサイトの成功にとって非常に重要です。私が従事している医療業界を例に挙げてみまし...
本日、アメリカの有名なドラマ字幕グループRenren FilmsとShooter.comが同時に閉鎖...
ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス1. 背景著者は以前、あ...
インターネットの急速な普及と発展に伴い、より多くの企業がオンライン チャネルを通じて自社の製品やブラ...
VC である限り、転職したいときには必ず、次のような致命的な質問が待っています。「過去数年間で推進し...
タオバオアフィリエイトの運営がますます難しくなっているのは紛れもない事実です。タオバオアフィリエイト...
「彼らは毎日、潜在的な犠牲者を探し、彼らを『肉』と呼んでいます。一度誰かを見つけると、グループで手配...
緑大根アルゴリズムのリリースからわずか数か月で、緑大根2号が再び稼働し始めました。基本的には、大規模...
数日前、私はDockerfile[1]のHere-Doc構文をテストしましたが、役に立たないことがわ...
インターネット上には先人たちが書いた運営秘訣がたくさんありますが、それらはQQグループのプロモーショ...