独自に構築したパーソナライズされた coreseek 単語セグメンテーション シソーラス

独自に構築したパーソナライズされた coreseek 単語セグメンテーション シソーラス

ここでは、独自の Coreseek 単語分割語彙を構築する方法を紹介します。 coreseek の単語ライブラリ自体はそれほど大きくないため、単語の分割に直接使用すると役に立たない結果が多数返される可能性があります。正確な検索結果を得るためには、専門的な単語分割語彙を作成することが不可欠です。

i. まずSogou http://pinyin#sogou#com/dict/にアクセスして、必要な辞書をダウンロードします。

ii. ダウンロードした語彙はテキストファイルではないため、直接使用することはできません。まずテキストファイルに変換する必要があります。 Sogou を Google に変換できる小さなツールをインターネットで見つけ、それを使用してダウンロードしたすべての語彙をテキスト ファイルに変換します。それらを words.txt という名前のファイルに結合します。ファイルはutf8エンコードで保存する必要があります。以下のツールを使用して直接変換する場合、ファイル名はwords.txtにする必要があります。自分で変換したい場合は公式サイトのやり方を参考にしてください http://www#coreseek#cn/opensource/mmseg/

iii. これで予備的な語彙ができましたが、この語彙はそのままでは使用できません。これを整理し、coreseek で使用される形式に変換する必要があります。 ここでは、変換を容易にするために私が作成した小さなプログラムを紹介します。 ソースプログラムは次のとおりです。

/**
最終編集 2012-8-11
著作権@ www.4ji.cn
**/
ini_set('最大実行時間','6000');


$buffer = ini_get('出力バッファリング');
バッファの終了時にフラッシュを実行します。

echo '新しい語彙を処理しています...
';
フラッシュ();
$ファイル名 = "words.txt";
$handle = fopen ($filename, "r");
$content = fread ($handle、ファイルサイズ ($filename));

fclose($handle);

$content をトリムします。
$arr1 = 爆発( "\r\n"、$content);
$arr1 = array_flip(array_flip($arr1));
foreach($arr1 を $key=>$value として){
$value = 中国語取引($value);
if(!empty($value)){
$arr1[$key] = $value;
}
それ以外{
$arr1[$key] を設定解除します。
}

}

echo '元の単語ライブラリを処理します...
';フラッシュ();
$filename2 = "unigram.txt";
$handle2 = fopen ($filename2, "r");
$content2 = fread ($handle2、ファイルサイズ ($filename2));
fclose($handle2);
$content2 = 中国語取引($content2、"\r\n");
$arr2 = 爆発( "\r\n"、$content2);
echo '同一のエントリを削除します...
';フラッシュ();
$array_diff = array_diff($arr1、$arr2);

echo '単語ライブラリをフォーマットします...
';フラッシュ();
$単語='';
foreach($array_diff as $k=>$word){
$words.=$word."\t1\r\nx:1\r\n";
}
// $words をエコーし​​ます。
file_put_contents('words_new.txt',$words,FILE_APPEND);
echo '完了しました!';

関数 dealChinese($str,$join=''){
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str, $matches); //すべての中国語の文字に一致
$str = join($join, $matches[0]); // 一致した結果から再構成する
$str を返します。
}
?>

使い方は次のとおりです:

1. 3 つのファイル words.txt、変換ツール words_format.php、c:\coreseek\etc\unigram.txt を、PHP を実行できるサーバーの同じディレクトリに配置します。

2. 次に words_format.php にアクセスします。

3. プログラムの実行が完了するまで待ちます。所要時間は単語数によって異なります。単語数が多すぎると、プログラムが途中でフリーズすることがあります。実行後、同じディレクトリに words_new.txt が生成されます。このファイルを元の unigram.txt の末尾に追加し、後で使用するために保存します。

4. 上記で取得した unigram.txt ファイルを C:\coreseek\bin にコピーし、コマンド ラインで C:\coreseek\bin ディレクトリを入力して、mmseg -u unigram.txt を実行します。コマンドを実行すると、unigram.txt があるディレクトリに unigram.txt.uni という名前のファイルが生成されます。ファイル名を uni.lib に変更して、辞書の構築を完了します。

5. 新しい語彙が単語を正しく分割できるかどうかをテストします。 C:\coreseek\bin に新しいテキスト ファイル test.txt を作成します。テストしたいキーワードを入力します。 たとえば、Four Seasons Clothing Network で大きな布製アクセサリーを見つけて保存します。語彙に追加したばかりのキーワードを含める必要があります。たとえば、「Four Seasons Clothing Network」は私が追加した新しいキーワードです。次に、コマンドラインで mmseg -d C:\coreseek\bin test.txt>result.txt を実行します。実行後、新しく生成された結果ファイル result.txt を開きます。Four Seasons Clothing Network/x Medium and Large/x Fabrics/x Accessories/x のような単語分割結果が表示された場合、語彙が正しく生成されたことが証明されます。Four/x Seasons/x Clothing/x Clothing/x Network/x Medium and Large/x Fabrics/x Accessories/x のように新しいキーワードが分割されている場合、新しい語彙が正しくないことを意味します。 何が問題だったのかを確認し、生産を再開します。

6. 取得した uni.lib を C:\coreseek\etc にコピーして元のファイルを上書きすれば完了です。

元のタイトル: 自分で構築したパーソナライズされた coreseek 単語分割シソーラス

キーワード: coreseek、単語分割、単語ライブラリ、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ウェブサイトフレンドリーリンクのSEO関連要因の分析

>>:  Tiexue.com: 静かにお金を稼ぐコミュニティ電子商取引会社

推薦する

ウェブサイトのキーワードランキングの機会をつかみ、ウェブサイトのドメイン名から始めましょう

今日、私は偶然、特定のウェブサイトタイトルや特定のウェブサイトの説明のないウェブサイトがBaiduで...

arkecx エンタープライズ クラウド: 国慶節期間中 25% 割引、1Gbps CN2 GIA 専用回線、1Gbps 帯域幅、ロサンゼルス、東京、香港

zenlayer傘下のエンタープライズレベルのクラウドサーバーブランドであるarkecxは、国慶節に...

Java で独自の Redis 分散ロックをゼロから実装する

[[347022]] Redis 分散ロック分散ロックはなぜ必要なのでしょうか? JDK はロックす...

静的、動的、疑似静的の URL 構造のうち、どれが SEO に効果的ですか?

静的、動的、疑似静的の URL 構造のうち、どれが SEO に効果的ですか? SEO に詳しい人なら...

企業がWeiboマーケティングを実施し、迅速に製品プロモーション効果を達成できるよう支援します。

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスWeibo は現代のイン...

モバイル端末時代のトラフィック増加ツール「サイトアプリ」は、中小規模のウェブマスターのトラフィック増加を実現します。

Discuz! 愛好者ネットワークが4月16日に報告しました(文/ウェブマスターAjian)昨夜22...

ウェブサイトデザイン:ユーザーインターフェースデザインにおける「状態」と「アクション」の表現

1. 思考を刺激する質問少し前に、同僚と小さな要件について話し合っていたとき、「アクション」と「ステ...

エッジコンピューティングの実装を成功させるための最初の前提条件はエッジセキュリティです

クラウド コンピューティングの急速な発展に伴い、エッジ コンピューティングは産業界、学界、研究機関、...

#BlackFriday# gcore: 最初の 1 か月は 25% オフ、独立したサーバー、香港/日本/韓国/シンガポール/米国の 28 のデータセンターが利用可能

gcore は毎年恒例のブラックフライデー特別プロモーションを開始しました。28 のコンピュータ ル...

ローカルウェブサイトの破壊者は誰でしょうか? 私は生まれたときからモバイルと PC の違いを知っている 95 年代以降の世代です。

ローカル Web サイト分野が現在、いくつかの非常に困難な問題に直面していることは否定できません。 ...

おすすめ: Hawkhost - VPS 70% オフ / Alipay / Softlayer データセンター / シンガポール / ダラス / ワシントン

Hawkhost は、12 年間運営されている中小企業であり、高品質のアフターサービスと安定したマシ...

Chiaマイニングマシン: 537ドル、2*e5-2690v4 (28C/56T)/32gDDR4/23T SSD/10Gbps帯域幅

莫大な利益が得られることから、マイニング(チアマイニング)は最近とても人気があるようです。誰もが大容...

namecheap-比較的懐かしい価格のXen仮想VPS、高品質のVPS

Namecheap は有名な海外ドメイン名商人です。上記のタイトルは単なるクリックベイトです。商人に...

入札者として分析と統計レポートをうまく行う方法

有能な入札者は、カスタマイズされたレポートの分析方法を学ぶ必要があります。今日は、キーワード レポー...

maple-hosting: オランダの苦情耐性サーバー、$389、AMD Epyc 7313/64g メモリ/16T SSD/1Gbps 専用フルデュプレックス

Maple-hosting (2008~) は、オランダの有名なサーバープロバイダーです。オランダの...