ここでは、独自の Coreseek 単語分割語彙を構築する方法を紹介します。 coreseek の単語ライブラリ自体はそれほど大きくないため、単語の分割に直接使用すると役に立たない結果が多数返される可能性があります。正確な検索結果を得るためには、専門的な単語分割語彙を作成することが不可欠です。 i. まずSogou http://pinyin#sogou#com/dict/にアクセスして、必要な辞書をダウンロードします。 ii. ダウンロードした語彙はテキストファイルではないため、直接使用することはできません。まずテキストファイルに変換する必要があります。 Sogou を Google に変換できる小さなツールをインターネットで見つけ、それを使用してダウンロードしたすべての語彙をテキスト ファイルに変換します。それらを words.txt という名前のファイルに結合します。ファイルはutf8エンコードで保存する必要があります。以下のツールを使用して直接変換する場合、ファイル名はwords.txtにする必要があります。自分で変換したい場合は公式サイトのやり方を参考にしてください http://www#coreseek#cn/opensource/mmseg/ iii. これで予備的な語彙ができましたが、この語彙はそのままでは使用できません。これを整理し、coreseek で使用される形式に変換する必要があります。 ここでは、変換を容易にするために私が作成した小さなプログラムを紹介します。 ソースプログラムは次のとおりです。
使い方は次のとおりです: 1. 3 つのファイル words.txt、変換ツール words_format.php、c:\coreseek\etc\unigram.txt を、PHP を実行できるサーバーの同じディレクトリに配置します。 2. 次に words_format.php にアクセスします。 3. プログラムの実行が完了するまで待ちます。所要時間は単語数によって異なります。単語数が多すぎると、プログラムが途中でフリーズすることがあります。実行後、同じディレクトリに words_new.txt が生成されます。このファイルを元の unigram.txt の末尾に追加し、後で使用するために保存します。 4. 上記で取得した unigram.txt ファイルを C:\coreseek\bin にコピーし、コマンド ラインで C:\coreseek\bin ディレクトリを入力して、mmseg -u unigram.txt を実行します。コマンドを実行すると、unigram.txt があるディレクトリに unigram.txt.uni という名前のファイルが生成されます。ファイル名を uni.lib に変更して、辞書の構築を完了します。 5. 新しい語彙が単語を正しく分割できるかどうかをテストします。 C:\coreseek\bin に新しいテキスト ファイル test.txt を作成します。テストしたいキーワードを入力します。 たとえば、Four Seasons Clothing Network で大きな布製アクセサリーを見つけて保存します。語彙に追加したばかりのキーワードを含める必要があります。たとえば、「Four Seasons Clothing Network」は私が追加した新しいキーワードです。次に、コマンドラインで mmseg -d C:\coreseek\bin test.txt>result.txt を実行します。実行後、新しく生成された結果ファイル result.txt を開きます。Four Seasons Clothing Network/x Medium and Large/x Fabrics/x Accessories/x のような単語分割結果が表示された場合、語彙が正しく生成されたことが証明されます。Four/x Seasons/x Clothing/x Clothing/x Network/x Medium and Large/x Fabrics/x Accessories/x のように新しいキーワードが分割されている場合、新しい語彙が正しくないことを意味します。 何が問題だったのかを確認し、生産を再開します。 6. 取得した uni.lib を C:\coreseek\etc にコピーして元のファイルを上書きすれば完了です。 元のタイトル: 自分で構築したパーソナライズされた coreseek 単語分割シソーラス キーワード: coreseek、単語分割、単語ライブラリ、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
<<: ウェブサイトフレンドリーリンクのSEO関連要因の分析
>>: Tiexue.com: 静かにお金を稼ぐコミュニティ電子商取引会社
ウェブサイト運営者にとって SEO データ分析の重要性は自明であり、現在インターネット上には数多くの...
dominionhosting は 10 年以上の歴史を持つホスティング会社です。前身は newwe...
最近、会社のSEO推進担当者の外部プロモーション評価を整理し、外部リンクが削除されたかどうかをプログ...
「李佳琦だけが見守っている」この一文は、薛麗と魏亜の事件後のタオバオライブのトラフィックの動向を忠実...
BoltVM が初めて HostCat ブログに登場したのは昨年 8 月です。設立したばかりの頃、私...
現在、さまざまなクラウド サービス プロバイダー (CSP) とユーザーのデータ センターのセキュリ...
vpscheap.net ではプロモーションを行っています。ブラックフライデーのプロモーションとは呼...
今日の午後、ロビンは日本の SEO のニーズを持つクライアントからの相談を受けました。コミュニケーシ...
タオバオUステーションの紹介電子商取引の急速な発展に伴い、共同購入サイトから昨年の大手電子商取引企業...
月収10万元の起業の夢を実現するミニプログラム起業支援プラン今回、Jinqunbao はコミュニティ...
インターネットの発展は、ウェブマスター業界の発展につながりました。あらゆる側面からの統計はウェブサイ...
2017年11月11日まで残り12時間を切った現在、SKII、Olay、Pampers、Vidal ...
現在、世界中の多くのハイテク企業が「グリーン・環境保護」への取り組みを発表しており、近年、こうした取...
高品質な外部リンクは、ウェブマスターが常に遭遇することはあっても、探すことはできないものでした。ここ...
将来のクラウド データ管理戦略に関しては、精度が注目すべき点です。 Komprise の COO、社...