以前は百度の単語分割研究にあまり注意を払っていませんでしたが、ある時、最適化を行っていたときに、単語のたった1文字の違いがランキングに大きな違いをもたらすことを偶然発見しました。 「中古住宅」というキーワードを使ったのですが、私のページのキーワード設定は「中古住宅 情報源」になっています。これで問題ないと言う友人もいるかもしれませんが、「中古住宅 情報源」には「中古住宅」というキーワードは含まれていないのでしょうか?百度の単語分割を注意深く研究しないと、2つの単語の違いがわからないかもしれません。しかし、検索結果に少し注意を払えば、手がかりがわかります。百度の「中古住宅」と「中古住宅源」という2つの単語の単語分割は異なります。百度は独自の語彙を構築しているため、「中古住宅」という単語全体を扱いますが、「中古住宅源」という単語については、百度は「中古」と「住宅源」という2つの単語に分割します。当然、他の人が「中古住宅」というキーワードを検索しても、私のページは見つかりません。この小さな詳細を通して、私は百度の単語分割について詳細な研究を行う必要があると思います。私は大まかに次の点をまとめました。 1. Baidu の単語分割は、コンテンツ内でのキーワード関連単語の初出に基づいて行われます。たとえば、テキストの最初に「今日」という単語が表示された場合、ページのキーワードは「今日」と「新しくオープンした熱血江湖SF」の2つの単語に分割されます。タイトルにはキーワードが含まれている必要がありますが、完全に一致する必要はありません。ただし、コンテンツに表示されるキーワードは、Baiduの単語分割と完全に一致する必要があります。完全一致の場合、ファイルのURLパスの深さに応じて並べ替えられます。キーワードが完全に一致する場合、たとえば、ディレクトリはファイルよりも優先され、ルートディレクトリのファイルはセカンダリディレクトリのファイルよりも優先されます。完全一致が最初にランク付けされ、次に部分一致がランク付けされます。 2. キーワードが完全に一致しない場合、単語の分割がある場合、たとえば、キーワード「ブラウザ ダウンロード」の場合、ある Web ページに最初に表示されるキーワードはブラウザであり、キーワード密度が高いですが、この Web ページにはキーワード「ダウンロード」がなく、別の Web ページに最初に表示されるキーワードがダウンロードである場合、この Web ページのキーワードは 2 つの単語「ブラウザ ダウンロード」に分割されます。2 番目の Web ページには「ブラウザ」と「ダウンロード」が含まれていますが、1 番目の Web ページは 2 番目の Web ページよりも上位にランク付けされ、キーワードの前半部分が最も重要であることが示されます。 3. キーワードの最初の部分の頻度がランキングの鍵となります。たとえば、「ブラウザ ダウンロード」の場合、2 つの Web ページが完全に一致せず、両方に 2 つの分詞が含まれている場合、「ブラウザ」の密度が高い Web ページが 1 位にランク付けされます。 4. 完全に一致しているが、キーワードがページ コンテンツの最後に最初に表示される場合、この Web ページのランキングは前のページよりも低くなります。したがって、キーワードがコンテンツのできるだけ早く表示されることが非常に重要です。 5. Baidu は、関連キーワードの初出に基づいて単語を分割します。関連キーワードの初出がキーワードの末尾である場合は、後ろから分割を開始し、前部である場合は、前から分割を開始します。つまり、Web ページの内容の順序と逆順に従って単語の分割が行われます。順序の場合は、キーワードの前半が開始点として使用され、逆順の場合は、キーワードの後半が開始点として使用されます。たとえば、「newly turned on」というキーワードの場合、Web ページに表示される最初のキーワードが「hot blooded martial arts sf」であれば、ページのキーワードは「hot blooded martial arts sf」と「newly turned on」という 2 つの単語に分割されます。 6. Baidu の単語分割原則に従って、作成しやすいキーワード ヘッダーを選択できます (つまり、Web ページのコンテンツに初めて表示されるキーワードを調整します)。つまり、手動で単語の分割が行われます。Baidu は前から後ろに向かって判断し、後ろから前に向かって分割します。 7. セグメンテーションの前半と後半が繰り返される場合、繰り返されるものは繰り返されないものよりも低いランクになります。ただし、両方が繰り返される場合は、前半の密度を使用してランクが決定されます。 原題: Baidu 単語分割研究 - 高品質のロングテールトラフィックを獲得する方法 キーワード: |
<<: ウェブサイトの最適化: テクノロジーよりもユーザーに重点を置く
>>: エッジ要素: Cheshijie.com の最適化とプロモーションの提案
「O2O」(Online To Offline、つまりローカルビジネスとインターネットの組み合わせ)...
raksmart は、米国サンノゼの自社データセンターとロサンゼルスのホスティングデータセンターにベ...
「都市を囲む農村」ここで説明する必要はないと思います。どうしても分からない場合は百度で検索してくださ...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています消費者連盟...
Baidu のアルゴリズムは、ユーザーの検索エクスペリエンスを継続的に向上させるために、常にアップグ...
ウェブサイトのプロモーション、これは多くの初心者ウェブマスターが直面する最も難しい問題であると私は信...
[[436836]] Tekton は、非常に強力で柔軟な CI/CD オープンソース クラウド ネ...
alpharacks.com では新年のプロモーションを実施しています。VPS を購入する必要がある...
エンタープライズレベルのフルスタッククラウドICTサービスプロバイダーであるQingCloud(ww...
1. Kubernetesコンテナの概要コンテナは、ホスト オペレーティング システム (またはカー...
[[257522]] 1. 政策の支援により、クラウドコンピューティング業界は新たな発展の機会を迎え...
モノのインターネット (IoT) 開発の初期の前提の 1 つは、すべての物理要素間での通信の共有であ...
Citrix Systems が最近実施した調査によると、北米、ヨーロッパ、中東、アフリカ、アジア太...
SEO は長年にわたって発展してきました。検索エンジンのアルゴリズムが継続的に改善されるにつれて、多...
百度と奇虎360の間の検索紛争を受けて、国家著作権局は最近、360 Searchが百度のコンテンツを...