Bing Core Search R&D による検索品質に関する洞察

Bing Core Search R&D による検索品質に関する洞察

序文: これは Bing のコア検索研究開発部門のマネージャーによる記事です。この記事では、Bing の一連の機能改善について説明しています。これは検索機能の改善に関する一般的な紹介にすぎませんが、この記事を読んだ後、検索エンジンは、人々が検索するときに犯す間違い、ユーザーの意図を正しく理解する方法、語彙を使用してより正確なコンテンツを提供することに多くのエネルギーを注いでいることがわかります。そのため、Lu Songsong 氏は、Bing、Google、Baidu のいずれであっても、同じことをするだろうと考えています。

Bing では、可能な限り最高の検索結果を提供することに注力しています。Bing のコア検索およびランキング アルゴリズムは、データ マイニングの専門家チームによって継続的に改善されていますが、実際には、歴史的に欠陥が常に存在しています。これは、検索に頼りすぎるとユーザーが犯す間違いが原因の一部です。この記事では、同僚で Bing の研究開発マネージャーである Bill Ramsey が、URL クエリ、フォロー リンク、関連検索の 3 つの領域における欠陥の発生率と重大性について説明します。

一般的な URL クエリ エラー

これは検索の欠陥の主な原因の 1 つであり、「facebook.com」や「yahoo website/mail」などの URL クエリと呼ばれるものに関係しており、一見すると単純な問題と思われるかもしれません。結局のところ、検索エンジン (Bing) には数十億の URL が含まれているため、一致する Web サイトを見つけるのは難しくありません。しかし、実際には、このタイプのクエリは非常に複雑です。なぜなら、私たちは皆、数え切れないほどのスペルやバリエーションを使用しているからです。

たとえば、「facebook.com」には「facebookc.om」、「facbook.com」、「ww.faceboo.omc」など何千もの異なるバリエーションがあり、このようなスペルミスに加えて、人々は必ずしも正しい URL を知っているわけではありません。たとえば、サウスウエスト航空は southwest.com ですが、「swair.com」を検索しようとすると、その会社の Web ページが表示されます。同時に、通常「Yahoo ウェブサイト/メール」などの URL を目にする場合、正しい URL は「mail.yahoo.com」です。

たとえユーザーの真の検索意図がわかったとしても、悪意のある URL やスパマーが別の課題をもたらします。彼らは、coolmathgames.com (実際は coolmath-games.com) のようなトップレベルドメイン名を持つ URL を探します。

これが私たちの欠点であり、私たちは主に次の 3 つの領域でこのタイプの誤ったクエリ方法に対処しています

まず、URL を正しく識別することでブロックすることができ、URL を識別することで searscardcom.com のようなスパム的な結果が含まれるなどの問題を回避できます。

次に、シミュレーションによるユーザー エラー テストを実施し、数十億のオリジナル モデルを通じて、よくある URL のスペルミスを解決します。

3 番目に、ユーザーが最終的に「southwest.com」のようなサイトを予約する原因となる「swair.com」のようなサイトを分析して探します。

機械学習モデルに適したもう 1 つの例は、「facebooklogin.com」のようなクエリが「facebooklogin.net」と同等であることです。これは非常に一般的なドメイン サフィックスのタイプミスです。また、「bed bath and beyond.com」をbedbathandbeyond.comと入力します。当社のモデルはこれらの変更に適応し、積極的に検索結果を修正します。次の例は Facebook ユーザーの場合です。

不要なトラッキングリンクを削除する

検索エンジンの重要な機能の 1 つは、クエリ実行のスペル チェックとクエリ拡張コンポーネントです。スペル チェックにより、表示される何百もの誤ったクエリと検索フレーズが修正されます (下のクエリ ボックスは、ユーザーのクエリが変更されたことを示しています)。この再構築を「再構築」と呼びます。たとえば、「成功した英雄的行為」と入力した場合、「引用符を含む成功した英雄的行為」と表示されますが、「成功した英雄と行為」のみが表示され、意図に関するすべての情報がフレーム化される可能性があります。

これまで、リンク トラッキングの一環として同義語を使用してきましたが、これによりトピックから外れた検索結果が表示されることが多く、同義語のトラッキングが冗長な機能となっていました。そのため、ユーザーにとってより適切な一致が得られるよう、「用語」の定義を継続的に拡張しています。

そのため、この機能は削除しました。付加価値は大きくありません。Bing が同義語を変更すると、追跡リンクでより価値のある情報を追加できなくなる可能性があるため、検索結果の色を黒に変更しました。弊社では、ユーザーが指定した検索用語に対して、より優れたクエリを提供できるよう引き続き取り組んでまいります。

関連検索を改善する

関連検索は、誰にとっても馴染み深いものです。ユーザーが最初に検索したとき、検索結果の左側に関連検索が表示されないようにしていました。今後は、右側に調整します。たとえば、「Brad Pitt」を検索します。

(注: Bing の中国語版は変更されていません。Baidu と Google は最下位にあります。)

時々、検索結果でトピックに関係のないコンテンツを検索することがあります。たとえば、「AMD」は関連性モデルを改善することで、ユーザーに予期しない検索結果を提供します。

また、関連検索の用語の書式設定(「KSN WeatherLab」の「KSN Weather Lab」など)を超えた改善や、セーフサーチでのアダルトコンテンツの回避など、他の部分でも改善を行いました。

結論は:

検索エンジンの利点は、常に人間に依存し、人間には常にさまざまな欠陥があることです。私たちが行うことは、欠陥率と検索率を減らし、人々がより少ない検索でより多くのことができるようにすることです。

著者: ウィリアム・ラムゼイ博士—— Bing コア検索研究開発部門の主任開発マネージャー

<<:  友情の連鎖構築の全プロセスの簡単な分析

>>:  企業ウェブサイトの SEO 受注時に、うるさい顧客に対処する方法

推薦する

budgetnode - $12/年/512MB メモリ/20GB ハードディスク/500GB トラフィック/50GB DDos 保護

Budgetnode は設立されてから 1 年未満で、正式な登録資格を有する会社です。 budget...

ウェブサイトのキーワードの選び方

キーワードは単語だけでなく、単語、フレーズ、単語、さらには文も指します。ウェブサイトを運営している人...

地方病院ウェブサイトの運用方法に関するいくつかの論点

地方病院のウェブサイトの運営モードは、地理、文化などの要因の影響を受け、ネットワークの面でも比較的単...

反省:IDC業界の「熱」と「賞賛」に合理的に対処する方法

中国の情報化の発展に伴い、IDC業界は今や発展の黄金期に入っている。オンラインゲーム、情報決済、仮想...

gigsgigscloud: 月額 7.3 ドルから、日本 cn2 gia VPS、200M 帯域幅、月額 7.3 ドルから、3 つのネットワークに直接接続

gigsgigscloud は日本に新しいデータセンターを追加しました。このデータセンターの VPS...

「ダブル11」のライブストリーミング販売のグレーマーケットを詳しく調査

ダブルイレブンの前にライブストリーミングアカウントを購入する必要がありますか? 10月20日、ダブル...

PyramidServer-1gメモリKVM月額支払い6.9ドル/ダラス

Pyramid Server は 2010 年に正式に会社として運営を開始しましたが、その始まりは ...

15日間で新しいウェブサイトがBaiduに登録された体験

今回百度に収録されたウェブサイトはブログです。検索エンジンに公開されてから収録されるまでに合計半月か...

シカゴ政府PS メモリ大幅割引ストライキ

chicagovpsさん、HostCatは何度も紹介されています。オンラインでのレビューは賛否両論で...

週刊ニュースレビュー:Sina Weibo、冬の決勝戦で電子商取引の共同購入ウェブサイトの実態を調査

1. Sina Weiboがソーシャルオンラインショッピング決済プラットフォームを模索しクラッシュX...

サードパーティのアプリケーションは、kubebuilder によって生成されたカスタム リソースをどのように呼び出すのでしょうか?

kubebuilderはクライアントのような昨年執筆した一連の記事[1]では、オペレータ開発プロセス...

高品質なコンテンツは個人ウェブサイトの競争力の核となる

私の友人のほとんどは、QQ Space、Sina Blog、NetEase Blogなどの個人のウェ...

アーティファクトストライク: bandwagonhost/bandwagonhost vps-512m メモリ VPS 年払い 9.99 ドル

512M のメモリと年間料金 9.99 ドルの banwagonhost を見逃していませんか?今で...

データは分散されており、コンピューティングもそれに追いつく必要があります。

[[221573]] 1. 背景懸命な努力の末、Zhang Dapang と Bill は分散ファイ...

事実に基づいた素晴らしいマーケティング:老舗の茶農家がタオバオでビデオライブストリーミングを有効活用

ニュース報道の過程でよく使われる「事実を語る」報道手法とは、記者がニュース報道の事実を慎重に選択し、...