検索エンジン関連技術の簡単な紹介

Wendao Software Studio が開発したいくつかのソフトウェアの技術と検索エンジンの間には多くの重複があります。たとえば、まもなくリリースされる projSpider.com は、実際には単純な垂直検索エンジンです。また、複数のプロジェクトで使用している Web クローラーモジュールも、検索エンジン技術の重要な部分です。

Wendao Software Studio のエンジニアは誰も大規模な検索エンジンの開発に参加したことはありませんでしたが、全員が非常に興味を持っていました。この記事では、いくつかの類似プロジェクトの経験と公開情報に基づいて、検索エンジン関連のテクノロジについて簡単に説明します。

1. スパイダー - データソース

検索エンジンの膨大なデータのソースとして、クローラーは検索エンジン技術の重要な部分です。Wendao Software Studio は独自のクローラーを持っているため、この技術に非常に精通しています。

クローラーの英語はSpiderです。実際、スパイダーと翻訳すると理解しやすくなります。無数のWebサイトのリンクが巨大なWebを形成しています。検索エンジンのコンテンツ収集プログラムは、このWebを這う勤勉なクモのようなものです。興味のあるノードに遭遇するたびに、他のプログラムが処理できるように記録します。

クローラーの実装は実際には難しくありません。著者は C++ を使用して約 500 行のコードでクローラーのプロトタイプを開発しましたが、Python を使用すると 100 行未満しかかかりません。

ただし、膨大な量のデータを処理するプログラムは、開発の難易度とサイクルが非常に高くなります。簡単な例を挙げると、リンクがクロールされたかどうかを判断することは、クローラーがリンクを分析するたびに行う必要がある判断です。現時点でメモリ内に数千または数万のリンクしかない場合、それらを 1 つずつトラバースして比較するだけでも、基本的に要件を満たすことができます。しかし、数十万、数百万、数千万、数億のレベルの場合はどうでしょうか。赤黒木などのアルゴリズムでは、ほとんど対応できません。数十億、数百億、数千億、数兆のレベルの場合はどうでしょうか。インデックスを作成することしかできません。

百度の技術委員会委員長である陳尚益氏は、「百度は毎日約100PBのデータを処理している。1PBは100万Gに相当し、これは国立図書館5,000館の総情報量に相当する」と明らかにした。

こうした膨大なデータは百度の技術力の高さを物語っています。

検索エンジンに加えて、クローラー技術は実際には多くのシナリオに適用されています。新たな世論分析システムやデータマイニングシステムなど。

現在、データの重要性を認識する企業が増えています。重要なデータソースとして、クローラーは今後さらに多くの分野で利用されるようになるでしょう。

2. 中国語の単語分割 - データ前処理

中国語の単語分割も検索エンジンの重要な技術です。単語分割の精度は、クエリ構造が検索者の検索意図を満たしているかどうかに直接関係しています。

英語には自然な区切り文字があり、各単語には 1 つの意味があるため、中国語の単語分割は英語の単語分割よりもはるかに困難です。たとえば、「WenDao Software Studio」は、スペースに基づいて「WenDao」、「Software」、「Studio」の 3 つの単語に簡単に分割できます。対応する中国語の「Wendao Software Studio」については、「Wendao Software Workroom」、「Wendao Software Workroom」、「Wendao Software Studio」など、さまざまな分け方があります。

中国語の単語分割は、徹底的な研究を必要とする分野です。もちろん、開発者の作業を大幅に簡素化する、比較的優れた中国語の単語ライブラリもいくつかあります。

3. 全文検索 - データ前処理

インデックスの作成は、大量のデータをクエリするときに不可欠な重要な方法です。インデックス化されたデータの場合、膨大なデータから同じデータを非常に短時間で検索できます。

分かりやすくするために、索引は本の目次のようなものだと考えてください。目次があれば、ページを1ページずつめくる手間をかけずに、より短時間で興味のあるコンテンツをすばやく見つけることができます。

全文検索は中国語の単語を分割した後にのみ完了します。記事の内容から検索するという目的を達成するには、記事をキーワードに分割し、個別にインデックスを作成する必要があります。

4. ソート - データの前処理

ソートは検索エンジンの非常に重要な部分です。不適切なソートはユーザーエクスペリエンスにも大きな損害を与えます。多くのウェブマスターはランキングを上げるためにさまざまな不正な方法を使用しており、ソートアルゴリズムの開発をさらに困難にしています。

検索エンジンが取得できるパラメータはわずかです。ランキングアルゴリズムがどのように変更されても、これらのパラメータの重みが調整されるだけです。重要なパラメータを 2 つ以下に示します。

a) コンテンツ

今日の検索エンジンはユーザーエクスペリエンスを非常に重視しているため、これがすべてのランキングに影響を与える最も重要なパラメーターになります。

ウェブサイトのコンテンツの品質をどのように判断すればよいでしょうか? 独創性は重要な基準です。より一般的な独創性判断アルゴリズムには、空間ベクトルに基づくコサインアルゴリズムがあります。このアルゴリズムは、キーワードの頻度と重みに基づいています。疑似オリジナルコンテンツを作成する多くの Web マスターにとって、これは研究する価値があります。

b) 外部リンク

外部リンクは、検索エンジンがウェブサイトの品質を評価するための重要な基準です。ここでは詳細には触れません。

5. クエリ - データ表示

多くの人は、Baidu や Google などの検索エンジンが短時間で膨大なデータの中から結果を見つけられるので、クエリアルゴリズムは非常に複雑であるはずだと考えています。実際はそうではありません。それどころか、これは検索エンジン技術の最も単純な部分です。高速である理由は、前の手順の後に、すでにデータが準備されており、クエリを待機しているためです。

原文: http://www.wendaoruanjian.com/?p=38

元のタイトル: 検索エンジン関連技術の簡単な紹介

キーワード: 検索エンジン

<<: WeChatをマーケティングに活用する方法についてもお話ししましょう

>>: ユーザーがどのようにウェブサイトを閲覧しているかご存知ですか?

sharktech: 10Gbps 帯域幅 (無制限トラフィック) サーバーが月額 255 ドルから利用可能、ロサンゼルス、デンバー、アムステルダムのデータセンターが利用可能

検索エンジン関連技術の簡単な紹介

sharktech: 10Gbps 帯域幅 (無制限トラフィック) サーバーが月額 255 ドルから利用可能、ロサンゼルス、デンバー、アムステルダムのデータセンターが利用可能

私たちは本当にKubernetesを理解しているのでしょうか?

WordPressテンプレートがSEOへの長い道のりを歩ませる方法

百度の重み付け値の計算方法の詳細な分析

まだ余裕のある「ホスト」を逃がさないでください! 「ウェブマスター推奨 - 仮想ホスト」!

エッジコンピューティングの研究動向と7つの主要分野における新たな展開を解説

ベテランウェブマスターが、他人の立場に立って訪問者の体験を向上させる方法について語る

arkecxはどうですか？ロサンゼルス中国最適化クラウドサーバーの実評価: cn2 gia+as4837+cmi

Baidu入札クリエイティブのライティングスキルについての簡単な議論

Baidu と Google の検索結果の違い - それぞれのランキングの仕組みを分析

推薦する

Baidu 外部リンクツール: アンカーテキストリンク構築スキル

hostflyte: 月額 1.5 ドル、cn2 vps、Windows システム、「スイッチ IP」をサポート、Alipay/WeChat、KVM/1g メモリ/10gSSD/1T トラフィック

ネットホスティング、無制限のウェブサイト構築、仮想ホスティング、月額 3.95 ドルの支払い（独立した IP の方が安い）

ウェブサイトの SEO 最適化の結果を測定するための評価基準は何ですか?

tover-256mXEN/20gハードディスク/200gフロー/月額2.99ドル

dogyun: 「618」イベント、すべての VPS が 30% オフ、リチャージ用の無料マネー + ラッキードロー用の無料残高、cn2 などの直接接続回線、オプションには香港\韓国\日本\ドイツ\オランダ\米国が含まれます

クラウドレジリエンスへのアプローチ - システムおよびカオステスト

クラスタの平均CPU使用率は45％に達し、Xiaohongshuの大規模コロケーション技術の実践が明らかになった。

clouvider: 英国サーバー、最大 20Gbps の帯域幅、無制限のトラフィック、100% SLA、Alipay 対応

クラウドコンピューティングにおけるデータセンター

エネルギー分野における IoT エッジコンピューティングの課題と機会

リベートサイトで注意すべき詐欺警告

10月10日のBaiduのスナップショットがまたおかしいです。気づきましたか？これは何を示していますか？

AWS テクノロジーサミット 2018 が上海で開幕

ウェブサイトでキーワードを一括選択するためのヒント