SEOデータ分析に関する簡単な説明III – 語彙の維持

序文

前回の SEO データ分析記事からかなり時間が経ちました。今日、友人がオンラインで語彙を維持する方法について質問してきました。この機会にこの問題についてお話ししたいと思います。大量のキーワードを入手したら、まずはこれらの単語を加工していきます。実際の業務では、自分が行った、あるいは行う必要があると考えている以下のプロジェクトをまとめています。

エンティティを抽出する（簡単に言えば、キーワード内のキーワードを見つけることを意味します）

重複排除

制御語彙

分類

エンティティの抽出

エンティティを抽出する概念は、キーワード内のキーワードを見つけることです。たとえば、「北京のどの温泉が良いですか？」という文章では、「北京」と「温泉」という2つの単語が重要なポイントであり、「どれが良いですか」は単なる疑問詞であり、トピックを説明するのにはあまり役立ちません。そのため、何らかの技術的な手段を使ってキーワードを処理し、その中間にある重要なキーワード（エンティティ）を抽出する必要があります。

まず次のキーワードを見てください

両者の違いを詳しく見てみましょう。このアルゴリズムを実装する方法は多数あります。SEO の観点から見ると、精度と再現率に対する要件は一般的に低くなっています。 0% から 80% に到達するために必要な労力は、80% から 100% に到達するために必要な労力ほど多くない可能性があります。また、業界によって慣行が若干異なります。そこで私は次の2つのアプローチをとった

1. 品詞に応じてストップワードを削除します（削除する語数が多くても問題ありません）

2. tf-idf に基づいて高頻度単語をフィルタリングします (tf-idf が何であるかは想像してみてください)

単語分割アルゴリズムについてお話しましょう。多くの学術機関が多数の中国語単語分割アルゴリズムを研究してきましたが、実際の応用にはほとんど違いがありません。ここにいくつかの推奨事項がありますので、知っている言語に応じて使用してください。

ICTCLAS http://ictclas.nlpir.org/downloads 言語: Java、C#

CRF++ http://crfpp.sourceforge.net/ 言語: C#

SCWS http://www.xunsearch.com/scws/ 言語: PHP

JIEBA https://pypi.python.org/pypi/jieba/ 言語: Python

単語の分割も大きなテーマです。興味があれば、CRF、HMM、その他のモデルのロジックを調べてみてください。ここでは詳細には触れません。

単語分割の重要な問題は、高速性と語彙をカスタマイズする機能です。 JIEBA を使用しているため、この点はサポートできます。詳細については、著者のgithubの指示を参照してください https://github.com/fxsjy/jieba/blob/master/README.md

単語を分割した後、品詞に基づいてストップワードを除外し、必要な結果セットを取得します。

頻度の高い単語をフィルタリングします。 JIEBAはテキスト全体からtf-idf値の高い単語を抽出できます。これらの言葉は核心であり、削除してはいけません。

次に、単語の分割結果に基づいて、TF 値の高い単語を取得し、手動でレビューを行います。旅行業界の語彙を例にとると、地名は頻繁に出現する単語であり、TF 値が非常に高い可能性がありますが、削除してはいけません。そのため、まずは中国の地名や観光名所のデータベースを準備する必要があります。これはオンラインで検索できます。面倒な人は、Sogou 入力方式の語彙を直接使用できます。

また、高頻度語の中には、「7月」、「8月」、「百科事典」、「経路」など、他の単語も出現する可能性があります。これらの単語も実体語から追い出されたものと考えられます。

これらの検査を数回行えば、基本的には完了です。より高い精度が必要な場合は、自分でさらに調査を行うことができます。誰かが必ずこう尋ねるでしょう。「あなたがこれまで経験してきたすべてのトラブルの意味は何ですか?」ここでは簡単に触れるだけです。

1. コンテンツの関連性

2. 自動タグ付け

3. サイト検索の精度を向上させる

これは、昨年から今年にかけてのSoufunとAnjukeのSEOを見ると実感できます。

重複排除

エンティティを抽出した後、キーワードの重複を排除できます。

例えば

3海南島への旅行にはいくらかかりますか

海南島への旅行にはいくらかかりますか？

治療後

3海南|観光

海南 | 旅行

その後、重複排除を実行できます。上記の 2 つの単語も、同じエンティティメソッドを使用して解決できます。しかし、「モルディブ」や「マダイ」、「万里の長城」や「八達嶺」など、ユーザーが場所を指している可能性のあるキーワードがいくつかあります。これらの単語にはどのように対処すればよいでしょうか?私たちにはこのようなものが必要です。「制御された語彙」

制御語彙

制御語彙は、単語の意味を制御し、関連する単語を追跡する方法です。上記の例に戻ると、「八達嶺」を検索しても万里の長城に関するコンテンツが表示されない場合、ユーザーはずっと前に離脱していると思います。

制御語彙には、同等性、階層、関連性という 3 つの主な関係があります。

同値性は理解しやすいです。例えば、Maldives と Maldives は同値です。これらの単語は同じ意味を持ち、最も重みがあると言えます。コンテンツの推奨事項に提示する必要があります。

階層には上位と下位があり、例えば「孔子廟」は「南京名勝地」の従属語です。「大成殿」は「孔子廟」の従属語です。実際の応用では、ユーザーが「大成堂」を探しているとき、ウェブサイトはユーザーに「孔子廟」の真ん中に位置していることを伝え、孔子廟の周辺には他にどんな興味深いものがあるかを推奨することができます。ユーザーは間違いなくこれをとても気に入るでしょう。階層関係は、ホームページからディレクトリ、列に至るまで、ほとんどの Web サイトが持つ情報アーキテクチャシステムでもあります。

関連性は、同等性と多少似ていますが、まったく同じではありません。たとえば、「三亜団体ツアー」、「海口セルフガイドツアー」、「海南旅行往復フライト」などです。明確な上司と部下の関係があったわけではないが、全く同じであるとは言えない。この種の単語は関連したものとして考えることができます。録音可能です。さらに、背が高い、お金持ち、ハンサムなど、コンテンツに固有の属性を関連キーワードとして使用して、コンテンツの推奨においてユーザーの好みをよりよく満たすことができます。

ここでもう 1 つ言及しておくべきことは、私たちの作業で、ユーザーが自分のニーズを表現するために「麻袋」(Madai と同音) や「百失不得骑姐」など特別な単語を使うことがあることがわかったことです。これらは入力方法のスペルミスです。これらのキーワードは保存する必要があります。

最終的な効果は次のようになります。

分類

取得した大量のキーワードをどのように分類すればよいでしょうか？まず、意図、ナビゲーション、情報、トランザクションに応じて分類できます。（学習教材 - Zhihu: http://www.zhihu.com/question/20905145）

これを行う利点は、どの製品ラインにどのカテゴリの単語を割り当てるかをすぐに知ることができることです。たとえば、情報関連の単語の場合は、ニュース、Q&A、製品ライブラリなどのチャネルに配置するようにしてください。ナビゲーションワードについては、自社ブランドであれば可能ですが、競合ブランドの場合は別チャンネルを作成することもできます。トランザクションワードは通常、メインの製品ラインに配置され、「ショッピングカートに追加」、「ダウンロードリンク」、「オンライン予約」などの機能がページに反映されます。ユーザーのニーズをある程度満たし、コンテンツの混乱を回避します。例えば、この http://iphone.tgbus.com/tag/iphone6tieba/ 「iphone6 ティエバ」。フォーラムはどこですか? リンクを教えてください。

上記の意図分類方法に加えて、情報アーキテクチャと組み合わせた分類方法についてお話しします。

まず、キーワードを手動で並べ替える方法、カードソートを紹介します。試してみると、これは確かにブレインストーミングできる分類方法です。「モルディブ」のキーワードデータベースから500個のキーワードを抽出し、ランダムに割り当てました。

5グループ。各グループは、手元のキーワードを自由にグループ化し、グループに名前を付けることができます。そして、5 つのグループの名前をまとめると、約 10 個のサブカテゴリを特定し、これまで自分たちだけでは考えつかなかったコンテンツを見つけることができました。

最終的な状況はおおよそ

分類を使用すると、Web ページの構造をより的確に整理できます。詳細については、maldives.tuniu.com の左側のカテゴリを参照してください。実際の運用プロセスでは、一定のスクリーニングと階層制御の考慮事項もあります。たとえば、通貨、言語、気候などはすべて導入部に含めることができます。このページは外部リンクを張ることもほとんどなく、コンテンツも無数のリンク先のひとつに過ぎません。このコラムに人員を集中させることは不可能ですが、ユーザーに好まれるコンテンツ作りに注力することで、このチャンネルのパフォーマンスは依然としてかなり良好です。

現時点では、コンテンツの構成方法は非常に明確です。語彙からキーワードを直接見つけて、コンテンツを書くことができます。これは、「モルディブの名言」や「モルディブ旅行の名言」などの価値のない記事を一日中書いて、いわゆるコアワードパフォーマンスを行うよりもはるかに優れています。

分類したキーワードは 500 個だけです。語彙集に分類されるのを待っているモルディブのキーワードはまだ何万個もあります。時間が経つにつれて、新しいキーワードがどんどん追加されます。機械は機械学習の手法を使ってこれを実行できます。まだ研究途中なので、こんなことを書くと笑われてしまうのではないかと心配ですが、いくつかアイデアを出してみようと思います。決定木を使い、既存のカードからキーワードを分類してトレーニング文書とし、統制語彙のメタデータを特徴量として使って自動分類用の決定木を生成しようと思います。

要約する

1. アルゴリズムは問題ではありません。重要なのは、自分の業界に合った語彙を見つけることです。語彙の入手方法については、さまざまな方法があります。キーワードマイニングの部分は、私の別の記事 http://www.imyexi.com/?p=708 で読むことができます。

2. 単語間の関係は、コンテンツの推奨やコンテンツ操作のための強力なツールであり、ユーザーエクスペリエンスも向上させます。ここで不満を言わなければならないのは、ユーザーエクスペリエンスには、スローガンだけでなくテクノロジーも必要だということです。

3. 当初は興味ポイントマイニングについて書きたかったのですが、語彙の中のすべての単語が興味ポイントであると考えました。語彙の更新が適切に制御されている限り、興味ポイントは問題ではありません。

4. アイデアが浮かんだら、それを実行することも非常に重要です。語彙ライブラリは、Web サイトのコンテンツの基礎となるものです。語彙ライブラリを正しく作成すれば、後で多くの繰り返し作業や無駄な作業を回避できます。（騙された経験あり）

5. 私は専門家ではないので、多くの専門用語や定義を自分で学んで理解する必要があります。間違いを見つけたら訂正してください。