ウェブマスターはロボットの使用を決して無視してはならない

これまで、私は常に細部の最適化を強調してきました。はい、現在、Baidu の Web サイトに対する要件は、細部をどれだけうまく行っているかを確認することです。コード、タグなどは細部であり、Robots も Web サイトの詳細の一部です。これをうまく行うことは、Web サイトにとって大きな助けになります。Robots が何であるかを知らない新しい Web マスターはたくさんいるかもしれません。では、Robots の操作についていくつかのポイントを説明します。

1. robots.txt の起源

まず、ロボットはコマンドや指示ではないことを理解する必要があります。ロボットは、Web サイトと検索エンジン間のサードパーティ契約です。契約の内容は、Robots.txt の内容です。これは、初期の Web サイトのプライバシー保護に使用されていました。これは、Web サイトのルートディレクトリに存在する txt ファイルです。

2. Robots.txtの役割

ウェブサイトを立ち上げると、検索エンジンによって多くの魅力的な要素がリリースされます。これにより、ウェブページの品質が全体的に低下し、検索エンジンにおけるウェブサイトの印象が悪くなります。ロボットの役割は、これらの魅力的な要素をブロックし、スパイダーがそれらをリリースするのを防ぐことです。では、具体的にどのページをブロックすればよいのでしょうか。

1. コンテンツのないページをブロックする: わかりやすくするために、登録ページ、ログインページ、ショッピングページ、投稿ページ、メッセージページ、検索ホームページなどの例を挙げます。404 エラーページを作成している場合は、そのページもブロックする必要があります。

2. 重複ページをブロックする: ウェブサイトに同じ内容でパスが異なるページが 2 つあることがわかった場合は、ロボットを使用して 1 つのページをブロックする必要があります。スパイダーは引き続きそのページをクロールしますが、解放しません。ブロックされたページの数は、Google ウェブマスターツールで直接確認できます。

3. リンク切れページをブロックする

共通の機能を持つページのみをブロックする必要があります。スパイダーがクロールできないということは、アドレスをキャプチャできないということではありません。アドレスをキャプチャできることと、キャプチャできるかどうかは、2 つの異なる概念です。もちろん、処理できるデッドリンクをブロックする必要はありませんが、処理できないパスによって発生したデッドリンクはブロックする必要があります。

4. 長いパスをブロックする: ロボットを使用して、URL 入力ボックスを超える長いパスをブロックできます。

3. Robots.txtの使用

1. Robots.txtの確立

ローカルで新しいメモ帳ファイルを作成し、Robots.txt という名前を付けて、このファイルをルートディレクトリに配置します。このようにして、Robots.txt が作成されます。Dreamweaver などの一部のオープンソースプログラムには、Robots が付属しています。これを変更する場合は、ルートディレクトリからダウンロードするだけです。

2. 共通文法

User-agent 構文は、検索エンジンのクローラーを定義するために使用されます。許可しないは禁止を意味します。許可とは許可することを意味します。

まず、検索エンジンのクローラー、つまりスパイダーやロボットについて知っておきましょう。

BaiduspiderをRobotsに、GooglebotをGooglebotに書きます

書き方を紹介しましょう。最初の行は検索エンジンを定義することです。

ユーザーエージェント: Baiduspider (Robots を書くときはコロンの後にスペースが必要であることに特に注意してください。すべての検索エンジンを定義する場合は、Baiduspider の代わりに * を使用する必要があります)

許可しない: /admin/

この文は、Baidu スパイダーに、自分の Web サイトの admin フォルダー内の Web ページを含めないように指示することを意味します。admin の後のスラッシュを削除すると、意味が完全に変わります。これは、Baidu スパイダーに、自分のルートディレクトリ内の admin フォルダー内のすべての Web ページを含めないように指示することを意味します。

allow は許可するという意味であり、禁止するという意味ではありません。一般的には、単独で使用されることはありません。Disallow と一緒に使用されます。これらを一緒に使用する目的は、ディレクトリシールドの柔軟な適用を容易にし、コードの使用を減らすことです。たとえば、/seo/ フォルダーに 100,000 個のファイルがあり、クロールする必要があるファイルが 2 つある場合、何万ものコードを書くことはできません。数行の連携だけで済みます。

ユーザーエージェント: * (すべての検索エンジンを定義)

禁止: /seo/ (seo フォルダーの包含を禁止)

許可: /seo/ccc.php

許可: /seo/ab.html

同時に、この 2 つのファイルをクロールしてインクルードできるようにすることで、4 行のコードで問題を解決できます。Disallow を最初に置くべきか、Allow を最初に置くべきか、あるいは Disallow を最初に置く方が標準化されているのか疑問に思う人もいるかもしれません。

この記事は http://www.51diaoche.net によって作成されたものです。自由に転載してください。元の著者を明記してください。

元のタイトル: ウェブマスターはロボットの使用を決して無視してはならない

キーワード: ウェブマスター、ロボット、ウェブサイト、ウェブサイトのプロモーション、収益化

<<: ウェブサイトのテキストリンクをより効果的にする方法

>>: 統合インターネットマーケティングは幼い頃から始めることもできます - 楽しい記事

ウェブマスターはロボットの使用を決して無視してはならない

ピンドゥオドゥオの「100億補助金」攻防

5万元のオンラインマーケティングキャンペーンの企画経験を共有

Gcr、Quay、DockerHub イメージのダウンロードの問題を完全に解決します。

ドメイン名登録会社は「金儲けは簡単ではない」と嘆き、やめたいと考えている

第 1 四半期のモバイル広告トレンドに関する洞察

Baidu が Taobao Affiliate を放棄したのには理由があります。Taobao Affiliate が生き残るにはどうすればよいかを考えてみましょう。

百度の体重を早く回復させる方法についての実践的な経験の共有

G業界における仮想化ハイパーコンバージェンスアーキテクチャの実践に関する簡単な議論

クラウドコンピューティングがIT部門だけの責任ではない理由

Frontrangehosting-簡易レビュー（768MメモリKVM）-取得しました

推薦する

エッジで生活し、エッジコンピューティングビジネスを行っていますか?

検索エンジンのブラックハット不正行為から逃れ、サイトランキングの自然な向上を促す方法（パート2）

周鴻毅はモバイル検索を展開する予定、老李は戦いに復帰

メガレイヤー：香港専用サーバー199元/月、e3-1230/8gメモリ/240gSSDまたは1THDD/10Mcn2または15M直接接続または20M国際/3IP、高防御をサポート

レポートは次のように指摘している: クラウドコンピューティングは収益成長の新たな原動力である

クロスリージョンシナリオで分散システムの一貫性を解決するにはどうすればよいでしょうか?

RUSHMAIL: 電子メールマーケティングの目的は、顧客を引き付けることですか、それともブランドを維持することですか?

dogyun: 米国の高速 VPS、中国電信 CN2、中国聯通 CU2、中国移動 CMI、最低 44 元/月、Windows システム内蔵

パーフェクトダイアリーのストップロスの瞬間

Maxthon ホスティング: すべての VPS が 25% オフ、香港/日本の 10 のデータセンター、CN2/CUII などのハイエンド回線、111 ドル使うと 111 ドル無料、1111 ドル使うと 511 ドル無料

クラウドコンピューティングコアテクノロジー Dockerチュートリアル: Dockerデーモン dockerd 安全でないレジストリ

ロボットによるブロックに関する百度と淘宝網間の問題の図解

病院ネットワークマーケティングの将来を多角的に分析する

Jingan「高速クラウドサーバー」レビュー、高性能/BGPネットワーク/クラウド

Hosthatch: 香港に 11 のデータセンター、1Gbps 帯域幅の VPS は年間 17.5 ドルから、ストレージタイプ 10T の大容量ハードディスクの VPS は年間 135 ドルから