robots.txt の記述は地雷原のようなもので、少しの不注意が深刻な被害をもたらす可能性があります (パート 1)

robots.txt の記述は地雷原のようなもので、少しの不注意が深刻な被害をもたらす可能性があります (パート 1)

誰もが自分のプライバシーを持っていますが、それはウェブサイトでも同じです。また、メンバーのパスワードなど、スパイダーに見られたくないものがウェブサイト上にもあります。プライバシーのこの部分をブロックしたい場合、一般的にウェブマスターはまず Robots.txt を思いつきます。そうです、Robots.txt ファイルを使用すると、スパイダーに道を示し、どこに行くべきか、どこに行くべきでないかを伝えることができます。多くのウェブマスターが Robots.txt の使用に熱心であるのは、このためですが、Robots.txt の使い方を本当に知っていますか? その記述ルールについてどれだけ知っていますか? 私は才能はありませんが、この分野では多少の経験があります。ここで共有して、皆さんが参考にできるようにします。もちろん、年老いた鳥はそれを飛び越えることができます。

Robots.txt の書き込み順序の問題

例えば、自分のファイル a 内の b.html をクロールしたい場合、どのように記述すればよいでしょうか?

Allow:/a/b.html Disallow:/a/ または Disallow:/a/ Allow:/a/b.html ですか?

Robots.txt の記述ルールでは、ツリー分析構造は実行されません。つまり、記述時に親フォルダを最初に置くのではなく、近接原則に従う必要があります。親フォルダを前に置くと、スパイダーはこのパスが閉じていてアクセスできないと考えますが、最終的な目的はそれにアクセスすることです。このように、目標と現実は大きく異なります。

Robots.txt の書き込みに関する未解決の問題

多くのウェブマスター、特に初心者のウェブマスターは、R​​obots.txt についてあまりにも偏った理解を持っています。彼らは、Robots.txt はスパイダーのアクセス パスを規定できるのだから、それを公開してすべてのファイルにアクセスできるように設定すればいいと考えます。このようにすれば、含まれるウェブサイトの数はすぐに増えます。実際には、問題は私たちが考えるほど単純ではありません。ウェブサイト上の一部の固定ファイルは、アクセスのために検索エンジンに送信する必要がないことは誰もが知っています。ウェブサイトを「完全に公開」すると、ウェブサイト サーバーの負荷が増加し、アクセス速度が低下し、スパイダーのクロール速度が低下し、ウェブサイトのインクルードに役立たなくなります。したがって、アクセスする必要のない固定ファイルについては、単に許可しないようにすることができます。

一般的に、Web サイトがアクセスする必要のないファイルには、バックグラウンド管理ファイル、プログラム スクリプト、添付ファイル、データベース ファイルなどが含まれます。

Robots.txt に関する繰り返し発生する問題

私たちは毎日オリジナルコンテンツを書き、それを自分のウェブサイトに更新しています。これを行う目的について考えたことはありますか?もちろん、検索エンジンを満足させるためです。検索エンジンがオリジナルコンテンツを重視し、オリジナルコンテンツを非常に迅速にインデックスすることは誰もが知っています。逆に、あなたのウェブサイトがコピーされたコンテンツでいっぱいになっている場合、残念ながらあなたのウェブサイトの将来は暗いとしか言​​えません。しかし、これは別の観点から、重複するページコードを禁止し、ページの重複を減らすためにロボットファイルを積極的に使用する必要があることを示していますが、ロボットファイルを書くときは、次のことを覚えておく必要があります。

User-agent の後に、User-agent: BaiduSpider Disallow:/ などの検索エンジンを追加します。追加せずに User-agent: * Disallow: / の形式で記述すると、Web サイトのコンテンツがすべて「ブロック」されます。

Robots.txt メタ問題

Robots.txt の記述ルールには、最も強いパラメータを採用するというルールがあり、robots.txt ファイルとメタ タグがウェブサイトとページ タグに同時に出現する場合、検索エンジンは 2 つのルールのうちより厳しいルールに従います。つまり、検索エンジンが特定のページをインデックスすることを禁止します。もちろん、robots.txt ファイルとメタ タグが同じファイルに出現しない場合は、検索エンジンは近接原則に従い、メタ タグより前のすべてのファイルをインデックスします。

Robots.txt の書き込みの詳細

1. バックスラッシュの挿入

Disallow:/a/b.html を例に挙げてみましょう。この文を書くときにバックスラッシュを追加し忘れると、すべてのコンテンツが開かれてしまいます。バックスラッシュはルートディレクトリを意味するため、これは文を書くという考え方とは矛盾します。

2. 空間の外観

スペースの出現は簡単に理解できます。検索エンジンはこの特別な記号の出現を認識しないため、スペースを追加すると文章の効果が失われるだけです。

これで、robots.txt ファイルについて知っている人はいるが、それを正しく記述する方法を知っている人はほとんどいないと私が言った理由がお分かりになったと思います。実際、robots.txt ファイルには、他にも注意すべき詳細や問題があります。今後も、ディレクトリ サイズや robots.txt ファイルの記述に関係するユーザー エージェントの数などの問題について引き続きお話しします。

この記事は、モバイル壁紙ウェブサイト http://www.sjbzz.com から引用したものです。転載はご自由にどうぞ。ありがとうございます。

原題: robots.txt の記述は地雷原のようなもので、少しの不注意が深刻な被害を引き起こす可能性があります (パート 1)

キーワード: Robots.txt、書き込み、地雷原、不注意、深刻な被害、全員、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、金儲け

<<:  フォーラム署名

>>:  SEOを成功させるにはトラフィックソースの多様化が必須

推薦する

企業はマルチクラウド時代の課題に取り組む準備ができているでしょうか?

多くの場合、企業は複数のクラウド プロバイダー間で統一された標準を実施できず、識別、コスト削減、機密...

ASOは本当に難しいのか?ドロップダウン連想ワードを実行する時が来た

ASO は本当に難しいのでしょうか? たとえば、最近ある人が私に「 5,000 個のキーワードをカバ...

オープンソースのクラウドネイティブアプリケーション管理プラットフォーム - Rainbond

Rainbond は、使いやすく、コンテナ、Kubernetes、および基盤となる複雑なテクノロジー...

電子商取引の価格戦争が再燃:多くのウェブサイトが競争に参加したいと考えている

今週、Suning.com は上半期の目標を達成できず、親会社の株価を引き下げました。JD.com ...

Pinduoduo のユーザー成長の岐路

1週間前、 Pinduoduoの財務報告が発表された後、市場はかなり混乱しました。ピンドゥオドゥオが...

タオバオのオンライン広告費が急増:売り手は「タオバオを離れる」ことを望んでいる

李娜[暁丁は、巨華軒のイベントの売上高は15万元、広告費は5万元で、最終的に商人は在庫しか稼げなかっ...

傍観者から CTO へ: Cloud Foundry Foundation での 5 年間

[51CTO.com クイック翻訳] 最近、Cloud Foundry プロジェクトがわずか 5 年...

SEO面接スキルとSEO関連技術の共有

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますShiji...

2022年中国eスポーツ業界洞察レポート

eスポーツとは、トーナメントやリーグの形で開催されるプロの競技ゲームプロジェクトを指します。参加する...

Web3.0時代におけるブロックチェーン分散ストレージの役割と影響

Web2.0 から Web3.0 への移行が加速しており、世界のデータ ストレージ容量は「爆発的な」...

Apple、Apple Arcadeをベースにしたクラウドゲームサービスの構築を検討中

10月18日、海外メディアの報道によると、AppleはNvidiaのGeForce NowやGoog...

Dapr の可観測性メトリックとログ

この記事では、インジケーターとログのサポートについて紹介します。索引メトリクスにより、アプリのパフォ...

チェコの VPS: smartape、月額 4.96 ドルから、1G メモリ/2 コア/50g ハード ドライブ/200M 帯域幅、無制限のトラフィック

smartape は、チェコの TIER3 および 4 データセンターで VPS および専用サーバー...

Pacificrack: 米国クラスター VPS、32 C セグメント、無料スナップショット + フルバックアップ、月額 4 ドルから

Pacificrack は、まったく新しい「サイト クラスター VPS」を導入しました。これは、デフ...

SEO の再編が始まりました。最後まで生き残るにはどうすればよいのでしょうか?

Baidu がサイトの K-up を開始して以来、私は Baidu が今回なぜこれほどまでに過激で断...