情報の急速な増加に伴い、検索エンジンは人々が情報を見つけるための好ましいツールになりました。Google、Baidu、Yahoo、そして最近開始されたNetEaseのYoudaoなどの大手検索エンジンは常に話題になっています。 検索市場の価値が高まり続けるにつれて、独自の検索エンジンを開発する企業がますます増えています。アリババのビジネスチャンス検索、8848のショッピング検索なども次々と登場しています。当然、検索エンジン技術も技術者にとって関心の高い話題の一つとなっています。 検索エンジン技術の研究は、中国よりも海外で10年近く早く始まりました。初期のArchieから後のExcite、そしてAltvista、Overture、Googleなどの検索エンジンの登場まで、検索エンジンの発展には10年以上の歴史があります。中国は、前世紀の終わりから今世紀の初めにかけて検索エンジンの研究を始めました。多くの分野では、外国の製品や技術が市場を支配しています。特に、ある技術が海外で長年研究されてきたものの、中国では始まったばかりである場合がそうです。たとえば、オペレーティングシステム、ワープロソフト、ブラウザなどですが、検索エンジンは例外です。検索エンジン技術は海外では古くから研究されてきましたが、中国でも百度(http://www.baidu.com)や最近サービスを開始した優道(http://www.youdao.com)など、優れた検索エンジンが次々と登場しています。現在、中国の検索エンジンの分野では、国産の検索エンジンは性能面で海外の検索エンジンとあまり変わりません。しかし、SWJは、その技術力は諸外国の先進レベルとはまだ一定の距離があると認識しています。しかし、その差は徐々に縮まってきています! 検索エンジンの単語分割技術に関して言えば、それが現在の状態に達した重要な理由の 1 つは、中国語と英語の表記方法が異なることです。 中国語の単語分割とは何ですか? ご存知のとおり、英語はスペースで区切られた単語に基づいていますが、中国語は文字に基づいており、意味を表すには文中のすべての文字をつなげる必要があります。たとえば、英語の文章「私は学生です」は、中国語では「私は学生です」と翻訳できます。コンピュータは、スペースを通して「student」が単語であることは簡単に理解できますが、「学」と「生」という 2 つの文字が一緒になって単語を表すことは簡単には理解できません。一連の漢字を意味のある単語に分割することを中国語単語分割といい、単語切断と呼ぶ人もいます。 「私は学生です」、そして分詞の結果は「私は学生です」です。 中国語の単語分割と検索エンジンの関係と影響! 中国語の単語分割は検索エンジンにどの程度影響しますか?検索エンジンにとって最も重要なことは、すべての結果を見つけることではありません。何百億ものウェブページの中からすべての結果を見つけることにはあまり意味がなく、誰もすべてを読むことはできないからです。最も重要なことは、最も関連性の高い結果を最前面に表示することであり、これは関連性の並べ替えとも呼ばれます。中国語の単語分割の精度は、検索結果の関連性ランキングに直接影響することがよくあります。著者は最近、友人のために日本の着物に関する情報を探していました。検索エンジンに「着物」と入力したところ、結果に多くの問題があることがわかりました。 簡単な講演: 中国語単語分割技術 中国語の単語分割技術は自然言語処理技術の範疇に属します。文章の場合、人間は自分の知識を使ってどれが単語でどれが単語でないかを理解できますが、コンピューターもそれを理解できるのでしょうか?処理プロセスは単語分割アルゴリズムです。 既存の単語分割アルゴリズムは、文字列の一致に基づく単語分割方法、理解に基づく単語分割方法、統計に基づく単語分割方法の 3 つのカテゴリに分類できます。 1. 文字列マッチングに基づく単語分割法 この方法は、機械的な単語分割法とも呼ばれます。分析する中国語の文字列を、特定の戦略に従って「十分に大きい」機械辞書のエントリと照合します。辞書に特定の文字列が見つかった場合、一致は成功です(単語が認識されます)。文字列マッチング単語分割法は、スキャン方向の違いにより、前方一致と後方一致に分けられます。長さ優先のマッチング状況の違いにより、最大(最長)一致と最小(最短)一致に分けられます。品詞タグ付け処理と組み合わせるかどうかにより、単純な単語分割法と単語分割とタグ付けを組み合わせた統合法に分けられます。一般的に使用される機械的な単語分割方法には、次のようなものがあります。 1) 前方最大マッチング法(左から右へ) 2) 逆最大一致法(右から左へ) 3) 最小分割(各文で分割される単語の数を最小限に抑える)。 上記の方法は、互いに組み合わせることもできます。たとえば、前方最大マッチング方法と後方最大マッチング方法を組み合わせて、双方向マッチング方法を形成できます。中国語の単語は単一の文字で構成されているため、前方最小一致と後方最小一致はほとんど使用されません。一般的に、逆マッチングのセグメンテーション精度は順マッチングよりもわずかに高く、曖昧な現象も少なくなります。統計結果によると、前方最大マッチングのみを使用した場合のエラー率は 1/169 であり、後方最大マッチングのみを使用した場合のエラー率は 1/245 です。しかし、この精度は実際のニーズを満たすには程遠いものです。実際に使用されている単語分割システムはすべて、初期の分割手段として機械的な単語分割を採用しており、分割の精度をさらに向上させるために他のさまざまな言語情報も使用する必要があります。 原題: SWJ トーク: 中国語の単語分割の役割と概要 - 説教 キーワード: |
マーケティングは不思議なものだと言われています。長い髪と道教の僧侶の衣装(少なくともそのように見える...
「モバイル垂直コミュニティ」は、2013年のホットワードの1つと言えます。美容、母子ケア、ペット、軽...
新しいウェブマスターの 80% にとって、ウェブサイトを公開した後すぐにランキング付けすることが困難...
BetterCloud による最近の調査によると、企業は共同作業、通信、開発、契約の管理、署名の承認...
Pulse Servers は 2008 年に設立され、主に VPS 事業に従事しています。サーバー...
raksmartは香港データセンターで香港クラウドフォン事業を開始しました。香港クラウドシミュレーシ...
創業10年のVPS販売業者Hostigation.comは、特別価格のKVM仮想VPSを再び入荷しま...
Baidu には、ウェブサイトの品質を判断するための指標がたくさんあります。SEO を使用してキーワ...
私はかつて「ソフトマーケティングを理解せずにSEOを行うと、オンラインマーケティングへの道は間違いな...
ヒューストンの北部で事業を展開している Data Ideas LLC は、正式に事業を開始して 1 ...
米国のセキュリティサービスプロバイダーRSAは、同社が米国国家安全保障局(NSA)と協力して暗号化ア...
多くの人が電話やQQで私に尋ねました。「李雪江さん、どこに電話すればいいですか?なぜ私の営業スタッフ...
クラウド ポータビリティは、スケーラブルで回復力のあるクラウド ネイティブ アプリケーションを構築す...
ご存知のとおり、ウェブサイトの最適化プロセスでは、多くのウェブマスターがウェブサイトのキーワードラン...
2012年の終わりが近づくにつれ、国内の垂直型電子商取引は売上ブームに突入し始めています。最近、国内...