誰もが自分のプライバシーを持っていますが、それはウェブサイトでも同じです。また、メンバーのパスワードなど、スパイダーに見られたくないものがウェブサイト上にもあります。プライバシーのこの部分をブロックしたい場合、一般的にウェブマスターはまず Robots.txt を思いつきます。そうです、Robots.txt ファイルを使用すると、スパイダーに道を示し、どこに行くべきか、どこに行くべきでないかを伝えることができます。多くのウェブマスターが Robots.txt の使用に熱心であるのは、このためですが、Robots.txt の使い方を本当に知っていますか? その記述ルールについてどれだけ知っていますか? 私は才能はありませんが、この分野では多少の経験があります。ここで共有して、皆さんが参考にできるようにします。もちろん、年老いた鳥はそれを飛び越えることができます。 Robots.txt の書き込み順序の問題 例えば、自分のファイル a 内の b.html をクロールしたい場合、どのように記述すればよいでしょうか? Allow:/a/b.html Disallow:/a/ または Disallow:/a/ Allow:/a/b.html ですか? Robots.txt の記述ルールでは、ツリー分析構造は実行されません。つまり、記述時に親フォルダを最初に置くのではなく、近接原則に従う必要があります。親フォルダを前に置くと、スパイダーはこのパスが閉じていてアクセスできないと考えますが、最終的な目的はそれにアクセスすることです。このように、目標と現実は大きく異なります。 Robots.txt の書き込みに関する未解決の問題 多くのウェブマスター、特に初心者のウェブマスターは、Robots.txt についてあまりにも偏った理解を持っています。彼らは、Robots.txt はスパイダーのアクセス パスを規定できるのだから、それを公開してすべてのファイルにアクセスできるように設定すればいいと考えます。このようにすれば、含まれるウェブサイトの数はすぐに増えます。実際には、問題は私たちが考えるほど単純ではありません。ウェブサイト上の一部の固定ファイルは、アクセスのために検索エンジンに送信する必要がないことは誰もが知っています。ウェブサイトを「完全に公開」すると、ウェブサイト サーバーの負荷が増加し、アクセス速度が低下し、スパイダーのクロール速度が低下し、ウェブサイトのインクルードに役立たなくなります。したがって、アクセスする必要のない固定ファイルについては、単に許可しないようにすることができます。 一般的に、Web サイトがアクセスする必要のないファイルには、バックグラウンド管理ファイル、プログラム スクリプト、添付ファイル、データベース ファイルなどが含まれます。 Robots.txt に関する繰り返し発生する問題 私たちは毎日オリジナルコンテンツを書き、それを自分のウェブサイトに更新しています。これを行う目的について考えたことはありますか?もちろん、検索エンジンを満足させるためです。検索エンジンがオリジナルコンテンツを重視し、オリジナルコンテンツを非常に迅速にインデックスすることは誰もが知っています。逆に、あなたのウェブサイトがコピーされたコンテンツでいっぱいになっている場合、残念ながらあなたのウェブサイトの将来は暗いとしか言えません。しかし、これは別の観点から、重複するページコードを禁止し、ページの重複を減らすためにロボットファイルを積極的に使用する必要があることを示していますが、ロボットファイルを書くときは、次のことを覚えておく必要があります。 User-agent の後に、User-agent: BaiduSpider Disallow:/ などの検索エンジンを追加します。追加せずに User-agent: * Disallow: / の形式で記述すると、Web サイトのコンテンツがすべて「ブロック」されます。 Robots.txt メタ問題 Robots.txt の記述ルールには、最も強いパラメータを採用するというルールがあり、robots.txt ファイルとメタ タグがウェブサイトとページ タグに同時に出現する場合、検索エンジンは 2 つのルールのうちより厳しいルールに従います。つまり、検索エンジンが特定のページをインデックスすることを禁止します。もちろん、robots.txt ファイルとメタ タグが同じファイルに出現しない場合は、検索エンジンは近接原則に従い、メタ タグより前のすべてのファイルをインデックスします。 Robots.txt の書き込みの詳細 1. バックスラッシュの挿入 Disallow:/a/b.html を例に挙げてみましょう。この文を書くときにバックスラッシュを追加し忘れると、すべてのコンテンツが開かれてしまいます。バックスラッシュはルートディレクトリを意味するため、これは文を書くという考え方とは矛盾します。 2. 空間の外観 スペースの出現は簡単に理解できます。検索エンジンはこの特別な記号の出現を認識しないため、スペースを追加すると文章の効果が失われるだけです。 これで、robots.txt ファイルについて知っている人はいるが、それを正しく記述する方法を知っている人はほとんどいないと私が言った理由がお分かりになったと思います。実際、robots.txt ファイルには、他にも注意すべき詳細や問題があります。今後も、ディレクトリ サイズや robots.txt ファイルの記述に関係するユーザー エージェントの数などの問題について引き続きお話しします。 この記事は、モバイル壁紙ウェブサイト http://www.sjbzz.com から引用したものです。転載はご自由にどうぞ。ありがとうございます。 原題: robots.txt の記述は地雷原のようなもので、少しの不注意が深刻な被害を引き起こす可能性があります (パート 1) キーワード: Robots.txt、書き込み、地雷原、不注意、深刻な被害、全員、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、金儲け |
>>: SEOを成功させるにはトラフィックソースの多様化が必須
Fatcow の今年最後の波 - 感謝祭とブラック フライデーのプロモーション、Fatcow は無制...
COVID-19 の影響でリモートワークが可能になり、IT チームはビジネスを円滑に運営するためにク...
spinservers がまた何かやっています。専用サーバーの最低価格を常に更新しています。今回はホ...
個人でも企業でも、ウェブサイト構築の初期段階で予備的なポジショニングを行い、最適化の目標を設定します...
私は多くの最適化ウェブサイトで多くの記事を読みましたが、それらはすべて一般的な理論的な知識であり、誰...
HTML コードで marquee 要素を使用すると、スクロールするテキスト サブタイトルを作成でき...
近年、エッジコンピューティングの人気が高まっており、インターネット企業、通信事業者、機器メーカーなど...
4月11日、アリババクラウドインテリジェンスCTOの周景仁氏は北京クラウドサミットでECSエンタープ...
Baidu Webmaster Platform のベータ版がオンラインになりました。私たちウェブマ...
みなさんこんにちは、Xiaobaoです!SEOにおいて、キーワードランキングは常に私たちの最優先事項...
[51CTO.com からのオリジナル記事]この新しい段階において、金融業界はクラウド ネイティブを...
9月19日時点では、多くの中国系アメリカ人がWeChatが使えなくなるのではないかと依然として不安を...
flipperhost が Hostcat にプロモーションとして最後に登場したのは 2017 年 ...
フロリダのゴラック データ センターでホストされている VPS ベンダーの Nodeserv が、V...
本日、烏鎮で開催されている世界インターネット会議において、多くの同僚と「過去を振り返り新たなことを学...