Baidu の技術的問題に関するホワイトペーパー: 膨大なデータの全体像

Baidu の技術的問題に関するホワイトペーパー: 膨大なデータの全体像

誰もがこんな経験をしたことがあると思います。タオバオで商品を検索すると、さまざまなスタイルが表示され、どれを購入するか選択するのが面倒な問題になります。このとき、製品の販売量が購入を選択する際の参考要素になる場合があります。このような小規模なデータ表示は日常生活で一般的であり、生活にかなりの利便性をもたらしました。想像してみてください。インターネット上の膨大な量のデータを視覚化して画像化し、一目ですべてを見ることができたら、それはなんと素晴らしい視覚の饗宴となるでしょう。

インターネット上の膨大なデータは、バックグラウンド データ ウェアハウスに保存されています。通常、さまざまな戦略を策定する際には、膨大なデータからパターンを見つけ、戦略の有効性と影響を評価する必要があります。しかし、これらのデータには効果的な表示メカニズムが欠けています。それは、豪華なごちそうを用意できるレストランであっても、それを紹介するメニューがなければ、お客様はおいしい料理を味わうことができないようなものです。インターネット上の膨大なデータ・情報の可視化を実現することが、インターネットの発展を促進する鍵の一つであることがわかります。

では、このような膨大な量のデータをどのように視覚化できるのでしょうか。この問題について10年近く研究した結果、インターネットのデータは、Webページライブラリ、リンクライブラリ、さまざまなログ情報などの単純なテキストの形で存在することが多いことがわかりました。人々がデータの相関関係を直感的に見つけることは困難です。同時に、人々の戦略は非常に複雑なルールや機械学習モデルである可能性があり、その効果、影響、および起こり得る悪影響を直感的に見ることは困難です。ここでは、「米国大統領選挙」を例に、データ視覚化の重要性を体験することができます。

米国大統領選挙の国民の有権者は、選挙年の 11 月の第 1 月曜日の翌火曜日、つまり選挙日と呼ばれる日に投票します。アメリカの有権者は全員、指定された場所に投票に行き、2人の大統領候補の中から選びます。米国議会には上院議員 100 名、下院議員 435 名、それにコロンビア特別区からの 3 票があり、合計 538 票の大統領選挙人票を持つ。 2012年の米国大統領選挙の結果が現地時間7日早朝に発表された。オバマ氏は332票を獲得して選挙に勝利したが、対立候補の共和党大統領候補ロムニー氏は206票しか獲得できなかった。最終的にオバマ氏が勝利し、大統領に再選された。膨大な投票数がある選挙の状況や動向をいかに正確に把握するか。データの可視化と分析により、選挙のルールを発見したり、今後の動向の影響や効果を理解したり、データ分布の変化をタイムリーに観察したりすることが容易になり、選挙戦略や動向の理解に大いに役立ちます。

Baiduの技術エンジニアは、「最も重要なインターネット技術問題に関する白書」1の中で「ビジュアル分析技術」についても取り上げ、この問題の重要な技術ポイントを分析・解説しました。

この技術は、視覚情報を使用して膨大な量のデータを分析およびマイニングし、その過程で暗黙のパターン(データ間の相関関係、データの変化、データの異常など)を発見することで、研究コストを削減し、問題をより迅速に発見し、インターネットの発展における変化する傾向をより包括的に理解できるようにします。しかし、視覚分析は現在、いくつかの課題に直面しています。まず、膨大な量です。限られたスペースに膨大な量のデータをどのように表示するかが大きな課題です。次に、高次元です。データは 2D/3D 空間で表現できず、データ間の元の相関関係を維持しながらデータの次元を削減する必要があります。その後、データ間の相関関係を表示および分析することを提案します。データは相互に依存し、影響し合います。データの一部を変更すると、他のデータにも対応する変更が加えられる可能性があります。これらの相関関係の変化を視覚化すると、戦略がシステム全体に与える影響を簡単に理解できます。最後のポイントは、データの表示と分析における変更についてです。インターネット上のデータは静的なものではなく、時間の経過とともに変化します。データの変化を視覚化して分析すると、インターネットの発展と変化を理解するのに役立ちます。

この素晴らしい視覚的な饗宴が完成すれば、パターンや問題を発見する手段が提供されることを想像してみてください。データを視覚化すると、パターンや問題をグラフで直感的に表現できるため、研究コストを大幅に削減し、生活をより便利で快適にすることができます。

① 注記:百度キャンパスの「最も価値のあるインターネット技術問題」ホワイトペーパーの紹介

「最も価値のあるインターネット技術問題」収集活動は、問題指向であり、最も価値のある研究を導くという本来の意図を持って、Baidu キャンパス ブランド部門によって開始されました。これらの技術的問題は、百度の内部エンジニアが日常業務で遭遇し、緊急に解決する必要がある業界の技術的課題です。これらの独自の問題に基づいて、百度の最も価値のある技術的問題リストがまとめられ、学界と一般に公開されます。最終的には、主要な大学や研究機関とコミュニケーションと協力を行い、これらの技術的問題を共同で研究して解決し、技術の進歩と業界の発展を促進します。

<<:  石玉珠は3時間で213万を売り上げ、優美ドットコムは15%を請求し法律違反の疑い

>>:  友好的なリンクの交換は投資である

推薦する

ネットワーク仮想化 VXLAN ネットワーク アーキテクチャ

VXLAN は NVO3 のネットワーク仮想化技術です。元のホストから UDP で送信されたデータ ...

パートタイムWeChatモーメンツマーケティング、月間売上3万超えの実践ノート

文/チャイ氏序文:私はWeChat Momentsで押し鴨を販売して約40日になります。私はWeCh...

Huayun Data、2019年デジタル金融イノベーションフォーラムで金融クラウドソリューションを展示

2019年5月9日、広東・香港・マカオ協力促進協会金融専門委員会が主催する2019年デジタル金融イノ...

パーソナライズされた検索を妨げる可能性のある主な要因

最近の広告研究財団の会議で、私はメディア計画、メディア購入、メディアターゲティングにおけるコミュニテ...

地元の中古品情報ネットワークを半年運営した経験を共有

近年、競争が少なく、運営コストが低く、視聴者が幅広い(都市には少なくとも数十万人が住んでいる)などの...

テンセントWeChatがXiami MusicとNetEase Cloud Musicを禁止

WeChatによるAlipayの春節紅包サービス禁止に続き、WeChatの禁止は昨日からさらに強化さ...

Windows で Kafka をビルドして実行する方法

[51CTO.com クイック翻訳] この記事では、Windows オペレーティング システム上で ...

5年間の経験を持つウェブマスターがまとめたウェブサイト最適化の体験

2013 年、Baidu はさまざまな Web サイトに非常に高いランキング要件を課していますが、S...

デジタル時代の革新力への洞察、クラウドパワーカンファレンスと2023TECH第5回デジタル中国テクノロジー年次カンファレンスが開幕

4月25日、神州ホールディングス、神州情報、神州デジタルグループが共催するデジタルクラウドパワーカン...

中国情報通信科学院の洪坤先氏:ハイブリッドクラウドは進化を続けており、4つの主要な機能が鍵となる

[[398423]]中国情報通信研究院(以下、CAICT)が発表した「クラウドコンピューティング発展...

Ceph オブジェクト ストレージに基づくハイブリッド クラウド メカニズムの詳細な分析

1. 背景クラウド コンピューティングの発展の勢いに乗って、Ceph が今日最も注目されているソフト...

Baidu Statistics、訪問時間をアップグレード

百度の外部リンクツールのリリースに伴い、百度統計もそれに追随し、昨夜7時30分頃にアップグレードしま...

#BlackFriday# desivps: 年間 26.99 ドル、ロサンゼルス VPS、1Gbps 帯域幅、無制限トラフィック、月 1 回の無料 IP 変更

desivps は今年、ブラックフライデーのプロモーションを実施し、公式には販売されていない「無制限...