異常なスパイダーページクロールに対処するためのウェブサイトの最適化

2018年最もホットなプロジェクト：テレマーケティングロボットがあなたの参加を待っています

インクルードとは、Web ページが検索エンジンによってクロールされ、検索エンジンのライブラリに配置されることを意味します。ユーザーが関連語を検索すると、検索結果ページに表示されるリストに、インクルードされたページとページ情報が表示されます。「Web ページが含まれている」とは、検索結果ページに関連ページが表示されることを意味します。逆に、「ウェブページが含まれない」という問題はより複雑です。検索結果ページに該当ページが表示されないということは、ウェブページが検索エンジンのライブラリにない、または含まれていないことを意味するわけではないからです。ウェブページが現在の検索用語で上位にランクされず、760件のレコードの外側にあるため、表示されない可能性があります。

インクルージョンには、Web ページが検索エンジンスパイダーによってクロールされ、検索エンジンのインデックスライブラリにコンパイルされ、フロントエンドでユーザーが検索するという一連のプロセスが含まれます。 SEO 担当者や、自分の Web サイトを最適化したい非専門家の SEO 担当者にとって、検索エンジンがページをインデックスする方法と検索エンジンのインデックス作成の原則を理解することは非常に役立ちます。これにより、Web サイトの SEO を実行するときにインデックス作成のルールにできるだけ従うことができ、インデックスされる Web サイトの割合を増やすことができます。

検索エンジンが Web ページをクロールするときには、いくつかのページは正常にクロールされ、他のページは失敗するなど、さまざまな状況が発生することがあります。ページの実際のクロール結果を表示するにはどうすればよいでしょうか。主に、クロールが成功したかどうか、および発生した問題を表す戻りコードによって示されます。たとえば、ページを開いたときに、ページが空白で 404 だけが表示されることがよくあります。ここでの 404 は戻りコードであり、現在クロールされているページの有効期限が切れていることを意味します。404 が表示されているページに遭遇した場合、スパイダーが短期間の検索中にこの URL を再度見つけた場合、そのページはクロールされません。

場合によっては、503 が返されます。503 の戻りコードは、Web サイトが一時的にアクセスできないことを意味します。Web サイトサーバーがシャットダウンされているか、その他の一時的な措置により Web ページにアクセスできない可能性があります。一般的に、スパイダーは数回クロールを続けます。サイトが通常の状態に戻った場合、URL は引き続き通常の URI として扱われます。サーバーが常にアクセス不能な場合、検索エンジンはこれらの URL をライブラリから完全に削除します。これにより、Web サイトの安定性を維持し、一時的な閉鎖を回避する必要があります。リターンコード 403 は、アクセス禁止状態を示します。一般的に、503 と同様に、ページが複数回アクセスされた後もアクセス禁止状態のままである場合、そのページは検索エンジンのデータベースから削除されます。

戻りコードの中には、特別な注意が必要なタイプが 1 つあります。それは 301 です。301 は永久削除を意味し、現在の URL は別の URL に永久にリダイレクトされます。一般的に、改訂の理由により、一部の URL は新しい URL に恒久的に置き換える必要があり、戻りコード 301 を使用して処理する必要があります。これにより、重量が軽減され、Web サイトのトラフィック損失を回避できます。

戻りコード 301 を書き込むための最適化された方法は次のとおりです。

（1）htaccess.txtファイルを作成します。

（２）htaccess内txtに、戻りコード30lのジャンプ情報を書き込みます。

古い URL が abc.com であり、www.abc.com にリダイレクトする必要がある場合、ファイルに次の情報を書き込む必要があります。

RewriteEngineオン

書き換え条件 %{http_host}abc.com[NC]

RewriteRule^(．*)$ (3) htaccess.txtをFTPにアップロードし、htaccess.txtを.htaccessに変更します。

htaccess は現在 Linux システムにのみ適用可能であり、仮想ホストのサポートが必要であることに注意してください。したがって、htaccess ファイル処理の戻りコード 301 を検討する場合は、仮想ホストが完全にそれをサポートしているかどうかを確認する必要があります。

実際、リダイレクトを処理する方法はたくさんあります。簡単に言えば、リダイレクトは、http30x リダイレクト、メタリフレッシュリダイレクト、js リダイレクトに分けられます。さらに、Google や Baidu などの大手検索エンジン企業も、Canonical タグのサポートを表明しています。権威あるページを作成することで、スパイダーが 1 つの権威あるページのみをインデックスするように誘導できます。実際的には、これも間接的なリダイレクトです。実際のクロールプロセス中に、スパイダーはさまざまなリダイレクト効果を識別します。

リダイレクトする方法は多数ありますが、SEO の観点から、永続的なリダイレクトページの場合は、戻りコード 301 を使用するようにしてください。さらに、

長期にわたる結果から判断すると、Baidu の Canonical に対するサポートは Google ほど良くなく、Canonical を採用しても必ずしも期待どおりの結果が得られない可能性があります。一部のウェブサイトは同じ

1 つのページに複数の URL が存在する場合があります。このような状況に直面した場合、処理スキルが必要になる場合があります。Canonical の使用テクニックについては、本書の Canonical の特別説明を参照してください。

外部リンクなどの要素は検索ランキングに影響を与えますが、クローリングプロセスにも影響を与えるのでしょうか？ Baidu のクローリングポリシーには優先順位の説明があり、「深さ優先トラバーサル戦略、幅優先トラバーサル戦略、PR 優先戦略、バックリンク戦略、ソーシャル共有誘導戦略など」の実装が含まれています。同時に、これは各戦略にそれぞれ長所と短所があることも示しています。実際の状況では、最良のクローリング効果を実現するために、複数の戦略を組み合わせて使用することがよくあります。この公式の説明からは、PR優先戦略、バックリンク戦略、ソーシャルシェアリングなどの言葉が見られます。Baiduは実際にクロール時にこれらの要素を考慮していると推測できますが、重みは異なる場合があります。したがって、WebページのPRを高め、より高品質の外部リンクを増やし、高品質のソーシャルシェアリングを行うことは、WebサイトのSEO作業にとってプラスになります。

さらに、インターネット上には「海賊版」や「収集された」Web ページが多数存在するため、クロールプロセス中に、スパイダーはテクノロジを使用して、ページが以前にクロールされたことがあるかどうかを判断し、URI をチェックします。異なるが実際のコンテンツが同じページの URL は正規化され、1 つの URL として扱われます。これは、SEO 担当者に、大量のページを作成して検索リソースをさらに獲得しないように指示することです。ページ数は多いが、各ページのコンテンツが非常に重複していたり、複数のページを実現するために URI に無効なパラメータしか含まれていない場合、検索エンジンはこれらの URI をそのまま処理します。 URL として扱うと、Web サイトのページが多ければ多いほど良いというわけではありません。実用的な方法で Web ページをつなぎ合わせて、ロングテールページを大量に展開しても、ページの品質が心配であれば、効果は逆効果になります。このようなページが大量に検索エンジンから低品質ページと判断されてしまうと、サイト全体のSEO効果に影響を及ぼす可能性があります。

クモが這うプロセスは、実際にはリンクに基づいて下に向かって継続的に探索するプロセスです。リンク間に短絡があると、クモは前に這うことができません。実際のウェブサイト運営では、多くのウェブページが実はウェブサイトのバックエンドに隠れていて、スパイダーがクロールできないことがわかります。例えば、予約済みのエントリーリンクがなかったり、エントリーリンクが無効だったりします。これらのクロールできないコンテンツや情報はスパイダーにとって孤立した島であり、SEO担当者にとってはトラフィックを引き付けるコンテンツの役割が十分に活用されていません。同時に、ネットワーク環境やウェブサイトの仕様により、スパイダーがクロールできない場合もあります。

情報が取得されない問題をどのように解決しますか? 実行可能な解決策をいくつか紹介します。

・検索エンジンプラットフォームが提供する開発プラットフォームなどのデータアップロードチャネルを利用して、独自にデータを入稿することが可能です。

・サイトマップ送信方式をご利用ください。大規模なウェブサイトや特殊な構造を持つウェブサイトには、膨大な数の過去のページが蓄積されています。これらの過去のページの多くは SEO 価値がありますが、スパイダーは通常のクロールではそれらを捕捉できません。これらのページについては、サイトマップファイルを作成し、Baidu などの検索エンジンに送信することが非常に重要です。

スパイダーが Web サイトをクロールする場合、どの Web ページが検索エンジンによってクロールできるか、どの Web ページが検索エンジンによるクロールが許可されていないかなど、Web サイトのクロールプロトコルに従います。一般的なプロトコルには、HTTP プロトコル、HTTPS プロトコル、Robots プロトコルなどがあります。

HTTP プロトコルは、クライアントとサーバーの要求と応答の標準を指定します。クライアントは通常、エンドユーザーを指し、サーバーは Web サイトを指します。端末ユーザーは、ブラウザやスパイダーなどを通じて、サーバーの指定されたポートに HTTP リクエストを送信します。 HTTP リクエストを送信すると、成功したかどうか、サーバーの種類、Web ページの最終更新時刻など、対応する HTTP ヘッダー情報が返されます。

HTTPS は、一般的にユーザーの安全なデータの送信を保証する暗号化プロトコルです。 HTTPS は HTTP に SSL レイヤーを追加します。このタイプのページは主に、支払いや社内の機密情報に関連する Web ページで使用されます。スパイダーは、このタイプの Web ページを自動的にクロールしません。したがって、SEO の観点から、Web サイトを構築する際には、ページの性質を区別し、機密性のないページで HTTP 処理を実行して、Web ページをクロールしてインデックスを作成するようにしてください。

この記事は凌創網菏澤ウェブサイト建設会社によるものです。原文、著作権は留保されています。転載する場合は出典を明記し、このリンクを残してください。よろしくお願いいたします。

元のタイトル: 異常なスパイダーページクロールに対処するためのウェブサイトの最適化

キーワード: ウェブサイト最適化計画、検索エンジンスパイダー

<<: テキストコンテンツ以外に、ユーザーがウェブサイトをクリックする主な理由となるものはありますか?

>>: 機密情報ネットワークをプロモーションに活用する方法