WordPress サイトをインストールした後、多くのウェブマスターは robots.txt ファイルの記述に悩まされています。 robots.txt ファイル プロトコルは、検索エンジン ロボット プロトコルとも呼ばれます。検索エンジン クローラーがウェブサイトをクロールするとき、まずウェブサイトのルート ディレクトリに robots.txt ファイルがあるかどうかを確認し、次に robots.txt プロトコルに従って、ウェブサイト所有者が検索エンジンにクロールさせたいコンテンツをクロールします。 robots.txt ファイルは、検索エンジンのクローラーに、どのページをクロールできるか、どのページをクロールできないかを伝えることを目的としています。これにより、ユーザーのプライバシーを効果的に保護できるほか、スパイダーの帯域幅を節約し、スパイダーのクロールを容易にして、インクルージョンを促進することができます。 まず、robots.txt ファイルのルールについて簡単に説明します。 1. すべての検索であらゆるコンテンツをクロールできるようにする ユーザーエージェント: * 許可しない: これは、すべての検索エンジンがすべてのページをクロールできることを意味します。Disallow は許可されないことを意味しますが、その後に空白の状態が続くため、クロールが許可されないページは存在しないことを意味します。 2. 1 つ以上の検索エンジンのクロールをブロックします。最近人気の 360 総合検索を例に挙げてみましょう。 ユーザーエージェント: 360spider 許可しない: / ユーザーエージェント: * 許可しない: 最初の 2 行は、360 総合検索スパイダーがどのページもクロールできないことを意味します。説明については最初のポイントを参照してください。同様に、360 総合検索に加えて Baidu スパイダーをブロックしたい場合は、最初に追加し続けます。 3. 検索エンジンによる特定のページのクロールを許可しない。ここでは、WordPress管理バックエンドページをすべての検索エンジンにクロールさせない例を取り上げます。 ユーザーエージェント: * 禁止: /wp-admin/ WordPress 管理バックエンドがルート ディレクトリの wp-admin フォルダーにあることは誰もが知っています。disallow の後に /wp-admin を追加すると、検索エンジン スパイダーがクロールできなくなります。 Baidu にバックエンドをクロールさせず、他の検索エンジンにバックエンドをクロールさせる、360 総合検索にバックエンドをクロールさせず、他の検索エンジンにバックエンドをクロールさせるなどの組み合わせについては、上記 3 つのポイントを参考に組み合わせてください。 話題に戻り、WordPress の robots.txt ファイルの書き方についてお話ししましょう。実際、WordPress の robots ファイルは非常にシンプルで、主に次の 3 つの重要なポイントに焦点を当てています。 1. ウェブサイトのバックエンドをクロールするためにスパイダーを使用しない まず、検索エンジンが WordPress のバックエンド ページをクロールしないように設定します。これは、ほぼすべての Web マスターが robots.txt ファイルを設定する主な目的です。これは WordPress に限定されません。もちろん、異なる種類の Web サイトのバックエンド ページのフォルダー名は異なります。 2. 静的化後、スパイダーが動的URLをクロールできないようにします。 動的なパラメータが多すぎるとスパイダーのクローリングに役立たないため、WordPress の URL を静的にすることをお勧めします。しかし、多くのウェブマスターがURLを静的化した後、記事を公開するたびに、検索エンジンは常に静的URLと動的URLの両方を含めるようになります。これは明らかに記事ページの重みの分散につながり、重複ページが多すぎて、最終的には検索エンジンからペナルティを受けることになります。実際、この状況を回避する方法は非常に簡単です。つまり、robots.txtファイルで設定して、スパイダーが動的URLをクロールしないようにし、動的URLがBaiduに含まれないようにすることです。 3. 最後にXML形式のウェブサイトマップを追加する robots.txt の最後にサイトマップを追加すると、スパイダーが Web サイトをクロールするとすぐにサイトマップがキャプチャされるようになり、ページが組み込まれる可能性が高まります。 最もシンプルなWordPress robots.txtは次のように記述されます。 ユーザーエージェント: * 禁止: /wp-admin/ 許可しない:/*?* #つまり、? を含む URL はキャプチャされません。動的 URL には ? が含まれます。# サイトマップ: http://www.yourdomain.com/sitemap.xml # を含む行を削除し、サイトマップ内の yourdomain を自分のドメイン名に変更します。このようにして、WordPress robots.txt ファイルが完成します。最後に、このファイルをルート ディレクトリにアップロードします。 Robots.txt ファイルを作成するときに注意すべき点がいくつかあります。 1. スラッシュ問題 まず、先頭のスラッシュが必要です。末尾にスラッシュがある場合は、このディレクトリの下にあるすべてのページを意味します。スラッシュがない場合は、/wp-admin.html、/wp-admin.php などのスラッシュのあるページとスラッシュのないページの両方がブロックされます。これらは 2 つの異なる概念であり、行の後にスラッシュを追加するかどうかは必要に応じて検討する必要があります。 2. 大文字の使用に関する問題 各行の最初の文字以外はすべて小文字にする必要があります。 3. 許可と禁止 実際、多くの初心者ウェブマスターにとっては、どちらか一方の書き方をマスターするだけで十分です。なぜなら、両方の書き方を同時に教え込まれると、簡単に混乱してしまうからです。したがって、初心者の場合は、混乱によるエラーを防ぐために、robots.txt ファイルでは 1 つの方法のみを使用するのが最善です。 この記事は、SEO学習ウェブサイトのディレクターである張東龍によって最初に書かれました。転載する必要がある場合は、元のアドレスhttp://www.zhangdonglong.com/archives/578を維持してください。ありがとうございます。 元のタイトル: WordPress robots.txt ファイルについて キーワード: robots.txt、wordpress、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
<<: 新しいウェブマスターが生計を立てるためには、どのようなウェブサイトを構築すべきでしょうか?
>>: 電子商取引サイトの内部構造 SEO最適化スキルの共有
Leica Cloud は、今年のダブル 12 期間中に、ダブル 12 カーニバル フェスティバル、...
ウェブマスターコミュニティには、「コンテンツは王、外部リンクは皇帝」という有名な格言があります。これ...
ウクライナのホスティング プロバイダーである ntup.net は、独自の機器をホストし、DIY 構...
トラフィックとユーザーの生成は一度きりのことではなく、モバイルで持続的かつ長期的な運用が必要です。な...
[[264161]]江蘇省の「『インターネット+先進製造』による産業インターネットの発展の深化に関す...
SEO 最適化の最も重要な問題は、キーワードをいつホームページに掲載できるか、そしてどのくらいの期間...
大規模なハッキングやエクスプロイトを準備する際、サイバー攻撃者は自身のスキルや狡猾さよりも、被害者の...
2017年、中国はイノベーションにおいて度々成果を上げ、国際的に主導的な科学技術上の重要な成果が続々...
現在のクラウド コンピューティング市場には、ますます多くのメーカーが注目せざるを得ない重要なシグナル...
Casbay はどうですか? Casbay Malaysia VPS はどうですか? casbay ...
大学生が自分でビジネスを始めるのはとても良いことです。しかし、成功する可能性がどれほど大きいかについ...
クラウドに移行する企業は、パブリック クラウドとプライベート クラウドのどちらを選択するかというジレ...
マイクロサービス アプリケーションのログ チェーンは通常長く、ログ収集 → ログ バッファリング →...
市場観察【上海8月21日新華社】中国の二大動画サイト、優酷(Youku)と土豆(Tudou)の合併案...
初心者のウェブマスターは、インターネット業界に足を踏み入れると戸惑い、混乱しながら自分のウェブサイト...