検索エンジンの結果をもっと正確にする方法

検索エンジンの結果をもっと正確にする方法

注: どのようなタイトルを付ければよいか本当にわかりません。記事の内容のほとんどは、個人的な経験から得た改善点です。私は検索エンジンの専門家ではないので、これは私がこれまでに学んだ知識の要約にすぎません。

1. 検索エンジンの原理とユーザーの習慣

1.1 検索エンジンは誰でも検索できるデータベースです

図1: 検索エンジンの単純な人間とコンピュータの相互作用プロセス

で:

1) 検索対象となるデータベースは、検索エンジンによって取得された Web ページのデータです。

元のデータがスパイダーによってクロールされた後、検索エンジンはそれを処理してからデータベースに保存します。つまり、Google の PageRank など、誰もがよく知っている検索エンジンの検索アルゴリズムのことです (もちろん名前だけで、内容や原理は極秘です)。

2) 検索エンジンは高度に単純化された製品です。

ユーザーが行う必要があるのは、検索したいキーワードを入力し、確認し、結果を表示することだけです。ここで説明する必要があるのは、ユーザーが検索条件を入力する必要すらないということです。検索エンジンに関しては、膨大なデータの中から関連する結果を素早く見つけるだけでなく、ユーザーの期待を推測し、適切なコンテンツを抽出する必要があります。その内部の仕組みはもはや煩雑とは言えません。

難しさは、大量の本の中から未知の質問に対する答えを素早く正確に見つけることに似ています。

図 2: フィルターをかけて撮影した国立図書館。

1.2 検索エンジンのデータ処理

検索エンジンは非常に複雑なシステムであり、その具体的な内部処理ルールや技術原理は簡単に説明することはできません。このプロセスは、プロダクト思考を通じて理解できます。分析のための論文を書くことを例に挙げてみましょう。論文を書く前に資料を整理するプロセスは、おおよそ次のようになります。

1) インターネット、図書館、書籍、雑誌、講義などから大量のオリジナル情報を収集します。

2) 関連する重複コンテンツを排除する

3) トピックに関係のないコンテンツを除外する

4) 主題、論理的順序、優先順位などに基づいて手動で計算、分析、レイアウト、処理などを実行します。このプロセスは最も面倒で時間のかかるものであり、使用される武器は歴史上最も強力なツール、つまり人間の脳です!!!

5) 入力結果の文書化

繰り返しになりますが、すべての製品は実際の人間の社会活動を模倣しています。 。 。製品マネージャーがこれを理解することは非常に重要です。

検索エンジンのデータ処理プロセスは基本的に同様です (詳細を知りたい場合は、関連する情報を自分で検索できます)。唯一の違いは、検索エンジンが排除したいものにあります。

1 つは感情的かつ論理的な人間の脳による分析であり、もう 1 つは特定のルールに従った機械による分析です。

したがって、より正確な検索結果が必要な場合は、入力データを分析して、人間の脳のように結果を入力させます。

まあ、あまり現実的ではないとも思いますが、より正確にする方法は見つかるでしょう。

2. 情報入手方法

私たちは今でも日常の行動から始めて、製品がどのように動作するかを推測します。

2.1 一般的に、私たちは周囲の環境から次のように情報を得ます。

1. 既知の入手方法と手段

今日の米ドルから人民元への為替レートや北京から青島までの航空運賃と時刻表を知りたい場合、ルートはすでにわかっているので、地図をたどるだけで情報を得ることができます。違いは、異なるアプローチにかかるコストにあります。為替レートはオンライン、電話、銀行支店などで確認できます。明らかに最初の方法の方が便利です。 (それは本当にナンセンスです)。

この情報は正規化されており、概念は明確です。

2. 整理すべき核心的なポイントを理解する

前述のように、論文執筆においては、テーマが弱い関係のコミュニティデザインであると仮定すると、弱い関係とは何か、強い関係とどう違うのか、既存のデザイン事例にはどのようなものがあるのか​​を問う必要があります。

この情報の取得は人間による分析に基づいています。

2.2 質問方法

2つの例を挙げてみましょう。

1. 完全な序論の論理を形成する前に、子どもの質問の仕方が最も単純なキーワードです。大人がすべきことは、子どもの喃語を通して子どものニーズを理解することです。大人は子どもの習慣、行動、やり方、特徴などをよく知っているので、一般的に正確な予測をすることができます。

2. 完全な言語論理により、私たちは通常、直接質問することを選択します。今日の為替レートはいくらですか?北京から青島への航空券の価格はいくらですか?そして、何時に出発しますか?人間の脳はこれらの質問も処理できます。もちろん、人間は複雑な感情を持つ動物であり、多くのことは文字通りの意味だけでは完全に理解できません。あまり適切ではない例を挙げましょう。デート中に、女の子があなたに現在の住宅価格についてどう思うか尋ねました。文字通りの意味は住宅価格であり、根底にある意味は住宅を購入する能力です。

2.3 検索エンジンはこれをどう扱うべきか

検索エンジンが人間と同じような脳を持っていると仮定すると、問題の処理方法は次のようになるはずです。

1.クエリが検索キーワードなのか質問なのかを分析する

2. 結果には 3 つの種類があります。

答えがわかっている場合は、結果が直接出力されます。

パスはわかっているので、ソリューション パスを入力します。

ユーザーの選択に対するユーザーの期待に最も合った並べ替え結果を提供する

3. さまざまな状況で組み合わせが発生します。検索エンジンがキーワードをより完全に理解すればするほど、結果はより正確になります。

3. 改善方法と戦略

ユーザーの操作行動をまとめてみましょう。

3.1 ユーザーがキーワードを入力すると:

1) ユーザーの特性を考慮して、特性に応じて検索結果を並べ替える

2) ユーザー特性が不明な場合は、通常のクエリとみなされます。構造化された検索結果、つまり関連性の高いプロンプトを提供します。関連性が高いほど、結果も高くなります。

3.2 ユーザーが質問する場合:

1) 質問の意味を分析し、単純な意味結果またはパスを出力する

2) 正確なセマンティクスを分析し、ユーザーに複数の結果を提供し、ユーザーのフィードバックに基づいて結果を継続的に調整することは不可能です。これもユーザー特性の一部です。

3.3 検索結果が重複している場合、Tongyang はユーザーの行動特性を参照して結果を並べ替える必要があります。

いくつか用語がありますので、興味があれば再度検索してみてください: Baidu-ボックスコンピューティング、Google-ナレッジグラフ、Facebook-ソーシャルグラフ検索、Siri-セマンティック検索、確率マルコフモデル。

率直に言うと、

検索エンジンがユーザーの検索意図を理解すればするほど、データベースはより完全になり、出力結果もより正確になります。

これを説明するために例を挙げましょう。同じ質問に対して、親しい友人の答えは一般に見知らぬ人の答えよりも良いものです。なぜなら、親しい友人はあなたがその質問をした動機、背景、さらにはあなたが期待する答えまで理解してくれるからです。

問題は、コンピューターは結局のところ生き物ではなく、単にルールに従うだけであるということです。私たちができることは、あなたの行動や特徴の一部を収集して、あなたの好みを推測することです。

1. 個人情報:氏名、性別、出身地、職業、業種、興味・趣味、利用嗜好等

2. 個人の行動:検索履歴、閲覧履歴、ソーシャル行動など

3. 処理方法: クラスタリング、分類、データマイニング

実は、これはレコメンデーションエンジンなのです。さらに詳しい知識と操作方法については、IBM Developer の記事「レコメンデーション エンジンの秘密を探る」をお読みください。

———-境界線————

もともとは推奨アルゴリズムについて書きたかったのですが、いくつかの情報を確認した後、まだ知識が少なすぎて、一生懸命勉強する必要があることがわかりました。つづく。


元のタイトル: 検索エンジンの検索結果をより正確にする方法

キーワード: 検索方法、エンジン、結果、より正確、わからない、何、タイトル、記事、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  360 での集団恐喝?未来探索への道は茨に満ちている

>>:  百度のグループ購入事業はO2Oレイアウトの準備のために開始されました

推薦する

テクノロジー+エコロジー、効率的で安全な電子署名の実現

[51CTO.comよりオリジナル記事] インターネットの波に後押しされ、近年中国では電子契約(電子...

ソソ百科事典の外部リンクの作り方を教えます

「コンテンツは王、外部リンクは皇帝」という時代は過ぎ去ったのかもしれないが、どんなに変化しても、ウェ...

Google が開かないことが多いのはなぜですか?

私の友人の多くがこの問題に遭遇したことがあると思います。Google 検索エンジンが開けないときがあ...

プログラマーになりたいですか?あなたを孫悟空に変える 28 のオンライン学習ウェブサイト!

フルタイムのプログラマーになるために転職を検討している人、Web サイトを構築しようとしている人、ま...

スマートな名刺ブランドとは?インターネット起業とフランチャイズの第一選択肢!

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています人工知能の...

素晴らしい: UBI 6 USD/月 1GB メモリ KVM/10GSSD/1TB トラフィック

今日、QQの友人から素晴らしいニュースを聞きました。UBIがONAPP環境をベースにした素晴らしい製...

新しいウェブサイトへの道は「競合相手」への配慮から始まります

競合相手は常に芸術です。Web サイトの構築開始時に競合相手がはっきりと見えない場合、どのようにして...

新世代クラウドネイティブデータウェアハウスAnalyticDBの「SQLインテリジェント診断」機能の詳細解説

SQL はビジネス ロジックを表現するためのシンプルで使いやすい言語ですが、スキャンされるデータの量...

AMD Opteron製品はコアから仮想化を実現します

今日では、クラウド コンピューティングが一般的なトレンドとなっています。 CPU 技術、仮想化技術、...

困難を乗り越えて成長を遂げるNetEase Zhiqiが企業マーケティングの新たな常態について語る

「新型コロナ」の流行という「ブラックスワン」現象は、その驚異的な威力を示した。一方で、この流行は経済...

マレーシア VPS: mondoze、月額 11 ドルから、マレーシアのトラフィック無制限 VPS、Linux および Windows オプションあり

マレーシアの商人であるmondozeは、公式発表によると2009年に設立されました。主にマレーシアの...

過小評価できないロングテールの力は、大量のトラフィックを生み出すサイトを作る

最近、小学校の作文についての記事を企画していたのですが、自分より優れた人は必ずいるのだということに気...

個人ウェブマスターがLost in Thailandから学んだこと

映画『ロスト・イン・タイランド』(以下、『ロスト・イン・タイランド』)は誰もが見たことがあるはずだ。...

消費者実装ロジック - Kafka 知識システム (IV)

[[410017]]前回の記事では、Kafka ブローカーの実装原理、データ ストレージ構造、メッセ...

ソフトコピーライターのキャリアの方向性

インターネット上にはソフトコピーライティングに関する記事が無数にあります。しかし、そのほとんどは、優...