これまで、私は常に細部の最適化を強調してきました。はい、現在、Baidu の Web サイトに対する要件は、細部をどれだけうまく行っているかを確認することです。コード、タグなどは細部であり、Robots も Web サイトの詳細の一部です。これをうまく行うことは、Web サイトにとって大きな助けになります。Robots が何であるかを知らない新しい Web マスターはたくさんいるかもしれません。では、Robots の操作についていくつかのポイントを説明します。 1. robots.txt の起源 まず、ロボットはコマンドや指示ではないことを理解する必要があります。ロボットは、Web サイトと検索エンジン間のサードパーティ契約です。契約の内容は、Robots.txt の内容です。これは、初期の Web サイトのプライバシー保護に使用されていました。これは、Web サイトのルート ディレクトリに存在する txt ファイルです。 2. Robots.txtの役割 ウェブサイトを立ち上げると、検索エンジンによって多くの魅力的な要素がリリースされます。これにより、ウェブページの品質が全体的に低下し、検索エンジンにおけるウェブサイトの印象が悪くなります。ロボットの役割は、これらの魅力的な要素をブロックし、スパイダーがそれらをリリースするのを防ぐことです。では、具体的にどのページをブロックすればよいのでしょうか。 1. コンテンツのないページをブロックする: わかりやすくするために、登録ページ、ログイン ページ、ショッピング ページ、投稿ページ、メッセージ ページ、検索ホームページなどの例を挙げます。404 エラー ページを作成している場合は、そのページもブロックする必要があります。 2. 重複ページをブロックする: ウェブサイトに同じ内容でパスが異なるページが 2 つあることがわかった場合は、ロボットを使用して 1 つのページをブロックする必要があります。スパイダーは引き続きそのページをクロールしますが、解放しません。ブロックされたページの数は、Google ウェブマスター ツールで直接確認できます。 3. リンク切れページをブロックする 共通の機能を持つページのみをブロックする必要があります。スパイダーがクロールできないということは、アドレスをキャプチャできないということではありません。アドレスをキャプチャできることと、キャプチャできるかどうかは、2 つの異なる概念です。もちろん、処理できるデッド リンクをブロックする必要はありませんが、処理できないパスによって発生したデッド リンクはブロックする必要があります。 4. 長いパスをブロックする: ロボットを使用して、URL 入力ボックスを超える長いパスをブロックできます。 3. Robots.txtの使用 1. Robots.txtの確立 ローカルで新しいメモ帳ファイルを作成し、Robots.txt という名前を付けて、このファイルをルート ディレクトリに配置します。このようにして、Robots.txt が作成されます。Dreamweaver などの一部のオープン ソース プログラムには、Robots が付属しています。これを変更する場合は、ルート ディレクトリからダウンロードするだけです。 2. 共通文法 User-agent 構文は、検索エンジンのクローラーを定義するために使用されます。許可しないは禁止を意味します。許可とは許可することを意味します。 まず、検索エンジンのクローラー、つまりスパイダーやロボットについて知っておきましょう。 BaiduspiderをRobotsに、GooglebotをGooglebotに書きます 書き方を紹介しましょう。最初の行は検索エンジンを定義することです。 ユーザーエージェント: Baiduspider (Robots を書くときはコロンの後にスペースが必要であることに特に注意してください。すべての検索エンジンを定義する場合は、Baiduspider の代わりに * を使用する必要があります) 許可しない: /admin/ この文は、Baidu スパイダーに、自分の Web サイトの admin フォルダー内の Web ページを含めないように指示することを意味します。admin の後のスラッシュを削除すると、意味が完全に変わります。これは、Baidu スパイダーに、自分のルート ディレクトリ内の admin フォルダー内のすべての Web ページを含めないように指示することを意味します。 allow は許可するという意味であり、禁止するという意味ではありません。一般的には、単独で使用されることはありません。Disallow と一緒に使用されます。これらを一緒に使用する目的は、ディレクトリシールドの柔軟な適用を容易にし、コードの使用を減らすことです。たとえば、/seo/ フォルダーに 100,000 個のファイルがあり、クロールする必要があるファイルが 2 つある場合、何万ものコードを書くことはできません。数行の連携だけで済みます。 ユーザーエージェント: * (すべての検索エンジンを定義) 禁止: /seo/ (seo フォルダーの包含を禁止) 許可: /seo/ccc.php 許可: /seo/ab.html 同時に、この 2 つのファイルをクロールしてインクルードできるようにすることで、4 行のコードで問題を解決できます。Disallow を最初に置くべきか、Allow を最初に置くべきか、あるいは Disallow を最初に置く方が標準化されているのか疑問に思う人もいるかもしれません。 この記事は http://www.51diaoche.net によって作成されたものです。自由に転載してください。元の著者を明記してください。 元のタイトル: ウェブマスターはロボットの使用を決して無視してはならない キーワード: ウェブマスター、ロボット、ウェブサイト、ウェブサイトのプロモーション、収益化 |
>>: 統合インターネットマーケティングは幼い頃から始めることもできます - 楽しい記事
ウェブサイトにトラフィックがあるからといって、それが成功を意味するわけではなく、それは成功の始まりに...
クラウド コンピューティングが 2021 年に持続的な成長の傾向を示すことは明らかです。しかし、クラ...
優れたウェブサイトを運営するウェブマスターは、自分のウェブサイト構築を評価する際に、多くの認識を持っ...
2022年7月19日、VMware(NYSE:VMW)は徐州医科大学付属病院がマルチクラウドソリュー...
ウェブマスターの皆様へ:こんにちは、みんな。最近、6月22日と6月28日の事件についてネット上で多く...
9月3日、Tencent Cloud音声合成チームは、すべてのユーザー向けに合成オーディオプラットフ...
9元でどんなクラウドサーバーが買えますか? ftlcloud は自社の宣伝 (および市場獲得) を目...
hubhost はロシアのホスティング会社 (オフィスとデータセンターはモスクワにあります) で、2...
toshost は英国に登録されているホスティング会社です。主な事業は「仮想ホスティング、VPS、専...
1. データ統合の発展と現状Ideal Auto のデータ統合の開発は、次の 4 つの段階を経てきま...
onetechcloud は現在、全製品が 20% オフになるプロモーションを実施しています。選択で...
ginernet は 2006 年に Hostingcat に登場しました。今日は、ginernet...
acroservers は 2016 年 8 月に新しく設立され、ポーランドに登録されました (NI...
数日前、私のWeChatパブリックアカウントのフォロワーが、最近の面接について不満を述べるメッセージ...
近年、科学技術の急速な進歩に伴い、新興の情報技術が医療・ヘルスケアの分野で広く利用されるようになり、...