誰もが自分のプライバシーを持っていますが、それはウェブサイトでも同じです。また、メンバーのパスワードなど、スパイダーに見られたくないものがウェブサイト上にもあります。プライバシーのこの部分をブロックしたい場合、一般的にウェブマスターはまず Robots.txt を思いつきます。そうです、Robots.txt ファイルを使用すると、スパイダーに道を示し、どこに行くべきか、どこに行くべきでないかを伝えることができます。多くのウェブマスターが Robots.txt の使用に熱心であるのは、このためですが、Robots.txt の使い方を本当に知っていますか? その記述ルールについてどれだけ知っていますか? 私は才能はありませんが、この分野では多少の経験があります。ここで共有して、皆さんが参考にできるようにします。もちろん、年老いた鳥はそれを飛び越えることができます。 Robots.txt の書き込み順序の問題 例えば、自分のファイル a 内の b.html をクロールしたい場合、どのように記述すればよいでしょうか? Allow:/a/b.html Disallow:/a/ または Disallow:/a/ Allow:/a/b.html ですか? Robots.txt の記述ルールでは、ツリー分析構造は実行されません。つまり、記述時に親フォルダを最初に置くのではなく、近接原則に従う必要があります。親フォルダを前に置くと、スパイダーはこのパスが閉じていてアクセスできないと考えますが、最終的な目的はそれにアクセスすることです。このように、目標と現実は大きく異なります。 Robots.txt の書き込みに関する未解決の問題 多くのウェブマスター、特に初心者のウェブマスターは、Robots.txt についてあまりにも偏った理解を持っています。彼らは、Robots.txt はスパイダーのアクセス パスを規定できるのだから、それを公開してすべてのファイルにアクセスできるように設定すればいいと考えます。このようにすれば、含まれるウェブサイトの数はすぐに増えます。実際には、問題は私たちが考えるほど単純ではありません。ウェブサイト上の一部の固定ファイルは、アクセスのために検索エンジンに送信する必要がないことは誰もが知っています。ウェブサイトを「完全に公開」すると、ウェブサイト サーバーの負荷が増加し、アクセス速度が低下し、スパイダーのクロール速度が低下し、ウェブサイトのインクルードに役立たなくなります。したがって、アクセスする必要のない固定ファイルについては、単に許可しないようにすることができます。 一般的に、Web サイトがアクセスする必要のないファイルには、バックグラウンド管理ファイル、プログラム スクリプト、添付ファイル、データベース ファイルなどが含まれます。 Robots.txt に関する繰り返し発生する問題 私たちは毎日オリジナルコンテンツを書き、それを自分のウェブサイトに更新しています。これを行う目的について考えたことはありますか?もちろん、検索エンジンを満足させるためです。検索エンジンがオリジナルコンテンツを重視し、オリジナルコンテンツを非常に迅速にインデックスすることは誰もが知っています。逆に、あなたのウェブサイトがコピーされたコンテンツでいっぱいになっている場合、残念ながらあなたのウェブサイトの将来は暗いとしか言えません。しかし、これは別の観点から、重複するページコードを禁止し、ページの重複を減らすためにロボットファイルを積極的に使用する必要があることを示していますが、ロボットファイルを書くときは、次のことを覚えておく必要があります。 User-agent の後に、User-agent: BaiduSpider Disallow:/ などの検索エンジンを追加します。追加せずに User-agent: * Disallow: / の形式で記述すると、Web サイトのコンテンツがすべて「ブロック」されます。 Robots.txt メタ問題 Robots.txt の記述ルールには、最も強いパラメータを採用するというルールがあり、robots.txt ファイルとメタ タグがウェブサイトとページ タグに同時に出現する場合、検索エンジンは 2 つのルールのうちより厳しいルールに従います。つまり、検索エンジンが特定のページをインデックスすることを禁止します。もちろん、robots.txt ファイルとメタ タグが同じファイルに出現しない場合は、検索エンジンは近接原則に従い、メタ タグより前のすべてのファイルをインデックスします。 Robots.txt の書き込みの詳細 1. バックスラッシュの挿入 Disallow:/a/b.html を例に挙げてみましょう。この文を書くときにバックスラッシュを追加し忘れると、すべてのコンテンツが開かれてしまいます。バックスラッシュはルートディレクトリを意味するため、これは文を書くという考え方とは矛盾します。 2. 空間の外観 スペースの出現は簡単に理解できます。検索エンジンはこの特別な記号の出現を認識しないため、スペースを追加すると文章の効果が失われるだけです。 これで、robots.txt ファイルについて知っている人はいるが、それを正しく記述する方法を知っている人はほとんどいないと私が言った理由がお分かりになったと思います。実際、robots.txt ファイルには、他にも注意すべき詳細や問題があります。今後も、ディレクトリ サイズや robots.txt ファイルの記述に関係するユーザー エージェントの数などの問題について引き続きお話しします。 この記事は、モバイル壁紙ウェブサイト http://www.sjbzz.com から引用したものです。転載はご自由にどうぞ。ありがとうございます。 原題: robots.txt の記述は地雷原のようなもので、少しの不注意が深刻な被害を引き起こす可能性があります (パート 1) キーワード: Robots.txt、書き込み、地雷原、不注意、深刻な被害、全員、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、金儲け |
>>: SEOを成功させるにはトラフィックソースの多様化が必須
Softshellweb は、英国に登録されているホスティング プロバイダーとして以前紹介されました...
海外メディアの報道によると、6月18日、英国のオンラインファンド・投資管理ウェブサイト「ナツメグ」は...
最近頻発しているネットワーク セキュリティ インシデントは、ネットワーク セキュリティに注意を払うに...
[51CTO.com からのオリジナル記事] サーバーのダウンタイムは、開発者や運用・保守担当者にと...
ウェブサイト構築における外部リンクの重要性については、あまり説明する必要はないと思います。ディレクト...
女性からお金を稼ぐのは簡単だということは誰もが知っていますが、具体的にどのように知られているのでしょ...
エンタープライズレベルのフルスタッククラウドICTサービスプロバイダーであるQingCloud(qi...
クラウド コンピューティングは、集中性、効率性、弾力性、ビジネスの俊敏性をもたらしましたが、クラウド...
クラウド コンピューティング、その種類、サービス、用途、そして組織にどのようなメリットをもたらすかに...
SEO の概念と技術の人気が高まるにつれて、SEO の競争はますます激しくなっています。「何千もの軍...
Mianhua Cloud は江西楽旺ネットワークテクノロジー株式会社が所有するクラウドコンピューテ...
クラウド コンピューティングは現在、製品の設計方法や顧客による使用方法から、製造業者の運営方法やサプ...
まず、キーワード予測が必要な理由を説明します。ここで考慮すべき点は、Webサイトの運用と会社の運用(...
[コアヒント] プロジェクトの副産物として誕生した Github には、すでに 400 万人のユーザ...
2021年10月18日、先日開催されたアマゾン ウェブ サービス チャイナ サミットにおいて、PwC...