皆さんのほとんどは robots.txt ファイルについて聞いたことがあると思いますし、自分でも書いたことがあるかもしれません。実は、私はこれまで robots.txt ファイルを書いたことがありません。書き方がわからないのではなく、ブログにスパイダーのクローリングをブロックする必要があるものが何もないと感じているだけです。そして、個人の独立したブログではリンク切れが発生する確率は非常に低いはずなので、リンク切れをあまり気にする必要はないことは皆さんご存じだと思いますので、必要ないと思います。しかし、個々のウェブマスターが習得しなければならないスキルの 1 つとして、robots.txt ファイルの書き方は依然として非常に役立ちます。ここでは、自分へのレビューも兼ねて、詳しく紹介したいと思います。 robots.txtファイルとは ファイル名から、拡張子が .txt であることがわかります。これはテキスト ファイル、つまりメモ帳であることが誰でもわかるはずです。ロボットは、英語を少し知っている人なら、ロボットを意味することを知っているはずです。私たちにとって、このロボットは検索エンジンのロボットを表します。名前から、このファイルはスパイダーが読み取るために特別に作成されていることがわかります。その機能は、クロールする必要のない列またはページをスパイダーに伝えることです。 もちろん、特定のスパイダーのアクセスを直接ブロックすることもできます。スパイダーがファイルの内容をできるだけ早く読み取ることができるように、このファイルは Web サイトのルート ディレクトリに配置されていることに注意してください。 ロボットファイルの役割 実際、ロボット ファイルの最も一般的な用途は、Web サイト内の無効なリンクをブロックすることです。ウェブサイト上のリンク切れが多すぎると、ウェブサイトの負荷に影響が出ることは誰もが知っておくべきです。ただし、ウェブサイト上のデッドリンクをクリーンアップするのは面倒ではありませんが、特にサイトにデッドリンクが多数ある場合は、クリーンアップが困難になるため、多くの時間がかかります。ここで、robots ファイルの有用性が発揮されます。スパイダーがクロールできない形式でこれらのデッドリンクを直接ファイルに書き込むことができ、必要に応じて後でクリーンアップできます。一部の Web サイト コンテンツには、Web マスターがスパイダーにクロールさせたくない URL またはファイルが含まれており、それらを直接ブロックすることもできます。クモの防御には、一般的にあまり使用されません。 ロボットファイルの書き方 これはもっと重要なはずです。間違えてブロックしたいものをブロックできず、クロールしたいものを書き込んでしまい、時間内に発見できなかった場合、大きな損失を被ることになります。まず、Allow と Disallow という 2 つのタグを知っておく必要があります。1 つは許可するもので、もう 1 つは許可しないものです。その機能は誰でも理解できると思います。 ユーザーエージェント: * 許可しない: または ユーザーエージェント: * 許可する: これら 2 つの段落はどちらも、すべてのクロールが許可されていることを示しています。実際、Disallow タグは URL とファイルをブロックするために使用されます。Web サイトにクロールする項目が少数しかない場合を除き、Allow タグを使用してください。 User-agent: の後にスパイダー名が続きます。主流の検索エンジン スパイダーの名前は誰でも知っているはずです。 Sosospider を例に挙げてみましょう: Sosospider。 Sosoスパイダーをブロックしたい場合: ユーザーエージェント: sosospider 許可しない: / このスパイダーをブロックする方法は、上で許可されている方法よりも「/」が 1 つ多いだけですが、その意味は大幅に変更されているため、記述する際には細心の注意を払う必要があります。また、余分なスラッシュがあるために、知らないうちにスパイダーをブロックすることはできません。また、user-agent: の後に「*」がある場合は、すべてのスパイダーが対象であることを意味します。 ディレクトリが検索エンジンのスパイダーによってクロールされないようにするには、次のようにコードを設定します。 ユーザーエージェント: * 許可しない: /ディレクトリ/ ディレクトリのクロールをブロックする場合は、ディレクトリ名の「/」に注意する必要があります。「/」がない場合、このディレクトリページとディレクトリの下のページへのアクセスがブロックされますが、「/」がある場合は、ディレクトリの下のコンテンツページのみがブロックされます。この 2 つの点を区別する必要があります。複数のディレクトリをブロックしたい場合は、 ユーザーエージェント: * 許可しない: /Directory1/ 許可しない: /Directory2/ この形式は /directory1/directory2/ にすることはできません。 たとえば、.jpg 画像のクロールを防止するために、スパイダーが特定の種類のファイルにアクセスできないようにするには、次のように設定します。 ユーザーエージェント: * 許可しない: .jpg$ 上記は、上海SEO小馬がウェブサイト全体のロボットファイルを書く方法です。ロボットの書き込みの種類と注意事項についてのみ説明しています。スパイダーをターゲットにしたブロックやその他の具体的な書き込み方法についての説明はほとんどありません。ただし、allowとdisallowの意味を知ることで、他の多くの書き込みの意味を導き出すことができます。特定の Web ページ用の robots メタ Web ページ タグもありますが、一般的にはあまり使用されません。 上記は上海SEO小馬http://www.mjlseo.com/によってまとめられました。転載する場合は出典を明記してください。ありがとうございます 元のタイトル: ウェブサイトの最適化のための robots.txt ファイルの書き方についての簡単な説明 キーワード: ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
<<: 手元のデータを合理的に利用してサイトプロモーション分析を行う方法について簡単に説明します。
>>: ウェブサイトのスナップショットのロールバックによる悪影響に直面しても冷静でいよう (パート 1)
最近、ラッキンコーヒーは大人気で、多くの人がその今後の発展に楽観的です。しかし、この記事の著者はあま...
スイスの VPS のご紹介: ロシアのベンダー ruvds (公式 Web サイトにはさまざまな完全...
Crissic のロサンゼルス データ センターは本日、SSD ハード ドライブを搭載した OVZ ...
これを DPU (データ処理ユニット) と呼ぶ人もいれば、IPU (インフラストラクチャ処理ユニット...
最近、インターネットで百度ランキングにおけるさまざまな要素の割合についての記事をたくさん見つけました...
企業は俊敏性を高め、ビジネス継続性のためにクラウドとリモート監視に重点を置く必要があります。テクノロ...
誰もが質問形式のタイトルの書き方に触れたことがあると思います。私たちの日常生活では、誰かに会ったとき...
クリプトデータセンターのクラウドサーバーブランド「ion」は現在、シンガポールデータセンターのシンガ...
今日のインターネット社会では、電子商取引であれ、伝統的な実店舗の経営者であれ、多くの人が本当のインタ...
はじめに:フォーブスは2月13日に論評を発表し、特定のユーザーグループをターゲットにしたソーシャルネ...
海外ではクリスマスが近づき、また年末です。アメリカのraksmartコンピュータルームでもステーショ...
ウェブサイトの計画は、優れたウェブサイトを構築するための重要なステップの 1 つです。優れたウェブサ...
一昨日、Virmachは最新のスーパープロモーションを開始しました。3つの安価な米国VPSがあり、年...
検索エンジン業界で働くほとんどの人と同様に、私たちの給料はクライアントから支払われます。クライアント...
数日前に百度が外部リンク判定を発表したことで、すべてのウェブマスターは外部リンクへの道がますます狭く...