Zhuying Qingfeng は、何年にもわたって Web サイトを作成してきました。Web マスターの友人からのリクエストにより、今日は私の経験の一部を皆さんと共有したいと思います。今日のトピックは robots.txt に焦点を当てます。ウェブマスターの友人は robots.txt にあまり注意を払わないかもしれませんが、robots.txt をうまく活用すれば、ウェブサイトに間違いなく利益をもたらし、害はありません。 免責事項:この記事は初心者向けです。ベテランの方は読み飛ばしてください。 トピック 1: robots.txt とは何ですか? ここで、Baidu からの回答を引用します。robots.txt は、ルート ディレクトリに配置する必要のあるプレーン テキスト ファイルです。ファイル名はすべて小文字で構成されている必要があります (例: 「robots.txt」)。このファイルでは、ロボットによるアクセスを禁止する Web サイトの部分を宣言します。これにより、Web サイトのコンテンツの一部またはすべてが検索エンジンに含まれないようにしたり、検索エンジンが特定のコンテンツのみを含むように指定したりできます。 トピック 2: robots.txt の使い方 機能 1: 検索スパイダーを誘導して SEO のサイトマップをクロールし、Web サイトのページのインデックス作成を改善します。 現在、Google や Yahoo などの海外の検索エンジンでは、robots.txt ファイルでサイトマップ ファイルのリンクを指定することがすでにサポートされています。これにより、スパイダーが robots.txt にアクセスしたときに Web サイト マップの場所が通知され、スパイダーが Web サイトのページをより適切に含めることができるようになります。使用される構文は、サイトマップ: http://www.##.com/sitemap です。 機能 2: すべての検索スパイダーが Web サイトまたは指定されたディレクトリのすべてのコンテンツをクロールするのを防ぎます。実際の Web サイトの構築には、いくつかの一般的な特定の状況があります。 最初のケースは、すべての検索スパイダーが Web サイト上のコンテンツをクロールすることを禁止することです。 自分の Web サイトがデバッグのためにサーバーまたは仮想ホストにアップロードされたばかりで、Web サイトのページのタイトルやキーワードが最適化されておらず、Web サイトへの外部リンクがあるものの、検索エンジンにそのリンクを含めさせたくない場合は、すべての検索エンジンでページを含めないように禁止できます。 悪い例を挙げましょう。2006 年に、私はコンテンツ管理プログラム Dreamweaver を使用して Web サイトを構築しました。初めてテンプレートを適用し、コンテンツを追加して、さまざまな検索エンジンに興奮しながら送信しました。翌日には検索エンジンに含まれ、数日後には数百の記事が公開されました。しかし、その後、より美しく新鮮なテンプレートを見つけ、それを修正して、すべてのページを再生成しました。このような変更を何度も行いました。検索スパイダーはすべて女性だったため、ウェブサイトのページ、特にタイトルなどの重要な属性の変更が頻繁に行われ、彼女は非常に不安を感じ、ウェブサイトに対する信頼が著しく低下しました。その結果、私のウェブサイトのページが回復するまでに 1 ~ 2 か月かかりました。したがって、ウェブマスターはウェブサイトを検索エンジンに公開する前にウェブサイトの位置づけを正確に特定する必要があり、最適化した後で検索エンジンに公開しても遅くはありません。 たとえば、あなたのウェブサイトはあなたとあなたの恋人のための、あなた自身の娯楽のための愛の家であり、クロールされたくない、またはあなたのウェブサイトはスパイダーによるクロールを必要としない完全に機密性の高いコンテンツを含む社内ウェブサイトである、または検索エンジンによるクロールを禁止する必要があるその他の特定の状況がある、などです。 すべての検索エンジンがウェブサイトのどのページもインデックスしないように禁止する構文は次のとおりです。 ユーザーエージェント: * 2 番目の状況は、すべての検索エンジンが Web サイト上の特定のディレクトリをクロールすることを禁止する必要があることです。 (1)ウェブサイト上の一部のディレクトリはプログラムディレクトリであり、クロールする必要はありません。サーバーのパフォーマンスを向上させ、検索とクロール中にサーバーリソースを消費しないようにするために、すべての検索エンジンがこれらのディレクトリのクロールを禁止することができます。 (2)ウェブサイト上の一部のディレクトリには、会員情報や機密性の高いプライベートコンテンツが含まれており、検索エンジンによるクロールが禁止されています。 (3)特定のディレクトリ以下のコンテンツは、すべて変更せずに収集されます。この部分のコンテンツは、コンテンツを充実させるためのものであり、検索エンジンに含めることを意図したものではありません。この場合、検索エンジンのクロールを禁止する必要があります。 (たとえば、以前作成した Web サイトの一部は完全にオリジナルのコンテンツで、検索とクロールに使用されます。コンテンツの一部は、Web サイトのコンテンツを充実させ、ユーザー エクスペリエンスを向上させるためだけに収集されますが、検索エンジンにスパムとして含められ、Web サイトのランクが下げられるのは望ましくありません。この場合、ディレクトリのこの部分から検索スパイダーをブロックする必要があります。) その他の状況もあります。 すべての検索エンジンによる特定のディレクトリまたは特定のページのクロールを禁止するための構文の例は次のとおりです。 ユーザーエージェント: * ご興味がございましたら、新しく開設された dianzhu2.com にアクセスして、具体的な例がいくつか記載されている robots.txt を確認してください。 機能 3: 特定のスパイダーが Web サイトのすべてのコンテンツをクロールするのを防ぎます。 いくつかの状況があります: (1) Baidu によってひどく降格されたり、軽蔑されたり、屈辱を受けたりした場合、または反 Baidu 同盟のメンバーであり、Baidu 同盟との関係を断ち切り、Web サイトのコンテンツを Baidu がクロールすることを禁止したい場合。 (2)あなたのウェブサイトはすでにTaobaoと同じくらい素晴らしいので、Baiduによるページのインデックス作成を完全に禁止する必要があります。タオバオのrobots.txtを確認してください。タオバオは商業的利益やその他の要因により百度をブロックしました。しかし、Baiduspiderは女性であり、ジャック・マーがETのようにハンサムであることから、恥ずかしげもなくタオバオの記事約1,060件を含めました。確認するには、Baidu の検索バーに site: (taobao.com) と入力してください。 (3)検索エンジンがウェブサイト上のすべてのコンテンツをインデックスすることを禁止したいその他の状況。 特定の検索エンジンによる Web サイト上のコンテンツのクロールを禁止するための構文は次のとおりです。 ユーザーエージェント: baiduspider 機能 4: 指定された検索スパイダーのみが Web サイトのコンテンツをクロールできるようにします。 当社のウェブサイトのトラフィックは主にいくつかの主要な検索エンジンから来ているため、他の海外または国内の検索スパイダーや不正なスパイダーがサーバーからウェブサイトのコンテンツをクロールして、サーバーのリソースを消費することは望ましくありません。このとき、この構文が役立ちます。 指定された検索スパイダーのみが Web サイトのコンテンツをクロールできるようにするための構文は次のとおりです。 ユーザーエージェント: baiduspider ユーザーエージェント: * その中で、User-agent: baiduspider Disallow: は許可する主要な検索スパイダーをリストできます。ウェブサイトに不要な損害を与えないようにするには、robots.txt を正しく記述する必要があることに特に注意してください。 Baidu のスパイダー: baiduspiderGoogle のスパイダー: GooglebotTencentSoso: SosospiderYahoo のスパイダー: Yahoo SlurpMsn のスパイダー: Msnbot 機能 5: すべての検索エンジンが Web サイト上のすべてのファイルまたは特定のディレクトリ内の特定の種類のファイルをクロールするのを防ぎます。 すべての検索エンジンは、Web ページのみをクロールし、画像をクロールすることは禁止されています。構文は次のとおりです。 ユーザーエージェント: * 特定の検索エンジンのみを禁止したい場合は、上記の方法に従って、ワイルドカード * を特定のスパイダー名に変更できます。 機能 6: 検索エンジンが検索結果に Web ページのスナップショットを表示しないようにし、Web ページのみをインデックスします。 使用方法は次のとおりです。 Baidu は、Web ページのメタを設定することで、検索エンジンが Web サイトのスナップショットを表示しないようにすることをサポートしています。方法は次のとおりです。 すべての検索エンジンがサイトのスナップショットを表示しないようにするには、Web ページの <HEAD> セクションに次のメタ タグを配置します: <meta name="robots" content="noarchive">他の検索エンジンがスナップショットを表示できるようにし、Baidu のみがスナップショットを表示できないようにするには、次のタグを使用します: <meta name="Baiduspider" content="noarchive">注: このタグは、Baidu が Web ページのスナップショットを表示することを禁止するだけです。Baidu は引き続き Web ページのインデックスを作成し、検索結果に Web ページのスニペットを表示します。 Googleの場合は、<META NAME="googlebot" CONTENT="index,follow,noarchive">です。 最後の注意: スパイダーのクローリングとユーザー アクセスを分析するために、ウェブマスター ログ機能を有効にしている友人もいるかもしれません。スパイダーが robots.txt ファイルを探すときに見つからない場合、サーバーはログに 404 エラーも記録します。ログ ファイルを減らして無駄な情報を削除するには、空の robots.txt ファイルであっても、Web サイトのルート ディレクトリに robots.txt を追加することをお勧めします。 他にも実際の実践に基づいてゆっくりまとめる必要のある用途はたくさんあります。 元のタイトル: 無視されている SEO ツール robots.txt についての簡単な説明 キーワード: seo |
<<: 小規模サイトが検索エンジンの検索結果で上位にランクされる理由を分析する
序文現在、K8S の監視およびアラーム プラットフォームの選択に取り組んでいます。 2 つの人気のオ...
vps777 のプロモーション メールには、ロサンゼルス CC データ センターにあり、OpenVZ...
ウェブサイトの運営では、ユーザーエクスペリエンスとウェブサイトのメリットのトレードオフを考慮する必要...
企業がデジタル変革に取り組むためにクラウド戦略を展開する一方で、エッジコンピューティングは、物理世界...
ウェブサイトの最適化の計画を始める前に、まず簡単に説明しましょう。検索エンジンがウェブサイトに適切な...
第109回[スマート製造+V教室]「優秀なCIO」テーマ共有月間第1回では、Tus-Designグル...
Hawkhost はクリスマスとボクシング デーに特別プロモーションを実施しています。このプロモーシ...
要約ビュー「ハウス・オブ・カード」の瞬く間に成功したことでNetflixは大人気となったが、想像もで...
インターネットの急速な発展と市場の継続的な成熟により、世界経済は電子商取引の時代に入りました。製品や...
Douban FMの有料版が最近リリースされ、月額10元で、ユーザー課金モデルの模索が正式に始まった...
DIV+CSS は、Web サイトの標準 (または「WEB 標準」) でよく使用される用語の 1 つ...
多くの初心者は、VPS を購入した後、環境を構築する方法がわかりません。LNMP または LAMP ...
著作権戦争(TechWeb の写真)動画サイトでの人気テレビ番組の再生状況調査(TechWebチャー...
今のところ、無実の罪で告発され処罰されたオリジナルのウェブマスターはまだたくさんいます。Baidu ...
最近、いくつかのフォーラムで「デュアルアイテム タオバオ アフィリエイト」という用語を目にするように...