ビッグデータに関する誤解: 統計 ≠ ビッグデータ

ビッグデータに関する誤解: 統計 ≠ ビッグデータ

ビッグデータに関する誤解: データ統計はすでに起こったことに関するものですが、ビッグデータは多くの場合、まだ起こっていないことを予測したり推奨したりするために使用されます。この 2 つを同一視することはできません。しかし、データ統計であれビッグデータであれ、その目的は作業を効率化し、意思決定をより合理的かつ正確にすることです。

ビッグデータは非常に人気があり、あらゆる分野で広く使用されていますが、最近では明らかに過熱の兆候が見られます。ビッグデータはマーケティング用語でしょうか、それともマーケティング手法でしょうか? この記事の著者である Lao Li は、ビッグデータ サービス プロバイダーの上級社員です。彼のプロジェクトは、さまざまな業界のビッグデータ分析を行うことです。彼は、まずビッグデータについて「大量のデータは必ずしも価値があるわけではない」という基本的な理解を持つ必要があると考えています。また、データ統計はビッグデータと同じではありません。データ統計とビッグデータの違いは人工知能にあります。

過去2年間、「ビッグデータ」はあらゆる分野で広く利用され、最近では明らかに過熱の兆候を見せている。 CCTVの春節移動マップから、姚晨が微博データを見た時の感嘆まで、両会期中のビッグデータから「星星」の杜嬌手が着ているハイローカラーのセーターまで、「ビッグデータ」は人々によって前例のない高みに押し上げられ、同時にハイテク科学研究の方向から誰もが知っているマーケティング用語に変わりました。

私は学界を代表する資格もなければ、誰が正しいか間違っているかを判断する資格もありません。私は自分の仕事経験に基づいて、ビッグデータについてのみ話すことができます。

ビッグデータとは何ですか?

Baidu 百科事典では、ビッグ データを次のように定義しています。ビッグ データ、または大量データとは、現在主流のソフトウェア ツールでは、企業が妥当な時間内により積極的なビジネス上の意思決定を行うのに役立つ情報としてキャプチャ、管理、処理、整理することができないほど大量のデータを指します。

ガートナーは、ビッグデータを、より強力な意思決定、洞察の発見、プロセス最適化機能を実現するために新しい処理モデルを必要とする、大規模で急成長している多様な情報資産と定義しています。

個人的には、ガートナーの定義の方が適切だと思います。 「新しい処理モデル」は重要な用語であり、これは私が理解する限り、「ビッグデータ」を従来の統計分析と区別する最も重要な特徴の 1 つでもあります。このいわゆる「新しい処理モード」には 2 つの意味があります。

1. 膨大な量のデータがあるため、より効率的なストレージと処理技術が必要です。Hadoop はビッグデータ時代の象徴となっています。

2. ビッグデータは Hadoop と同等だと考えているなら、それは間違いです。 Hadoop はビッグデータ時代における必要条件に過ぎません。ビッグデータのもう一つの明らかな特徴は、データマイニングと人工知能の密接な統合です。これは、私の「ビッグデータ」に対する理解と、今日の多くのいわゆる「ビッグデータ」プロジェクトとの間の最も明白な違いの 1 つでもあります。これについては、次のケーススタディで詳しく説明します。

上記の「新しい処理モード」の違いに加えて、個人的にはもう1つ大きな違いがあると考えています。それは、データ統計分析は既存のデータを垂直に分類することに基づいていますが、ビッグデータは既存の膨大なデータを処理して、まだ生成されていないデータに対する予測や推奨を行うことに基づいています。データ統計はすでに起こった事柄に関するものですが、ビッグデータは、まだ起こっていない事柄を予測したり推奨したりするためによく使用されます。

予測と推奨はどのように達成されるのでしょうか?

現在、主な推奨アルゴリズムは、大きく分けて 2 つのカテゴリに分けられます。 1 つは動作ベースであり、もう 1 つはコンテンツベースです。もちろん、さまざまな分野やさまざまな予測および推奨オブジェクトに対して 10 を超えるアルゴリズムが存在します。これはこの記事の内容ではありません。

行動ベースの分析は、その名前が示すように、インターネットやモバイル インターネット上でユーザーが残した「痕跡」、つまり閲覧、クリック、収集、購入、再購入を分析し、将来の購入に関する予測や推奨を導き出すものです。行動ベースの分析は、グループ ユーザーの行動の好みを総合的に活用する集合知の一種です。ユーザーは互いに影響し合うため、現実世界のユーザー行動とより一致するようになります。

図1. 電子商取引の行動に基づく推奨ファネルアルゴリズム

テキスト、画像、音声、ビデオ、その他の情報の分析を含むコンテンツ分析に基づいて、予測と推奨事項が作成されます。コンテンツの「遺伝子」がユーザーの好みにマッチします。最も代表的なのは、Pandora の音楽推薦プロジェクトです。これは、音楽ライブラリ内のすべての曲を 400 人以上の専門家がラベル付けし、個人と音楽のつながりを確立して音楽推薦を完成させます。コンテンツは個人のみを対象として分析され、ユーザー間の関係性とは関係ありません。

ビッグデータは何ができるのでしょうか?

今この問題について話すと、みんなが笑ってしまうかもしれません。ビッグデータがあれこれできることは誰もが知っているようで、結局私たち自身もそれをばかげていると思うからです。ビッグデータはもはや「悪魔化」されるのではなく、「楽しませられる」ものになっています。ビッグデータは、時には私たちから遠く離れ、時には私たちに近い、非現実的なもののように思えます。

さて、私の仕事経験に基づいて、ビッグデータがどのような問題を解決したかについてお話ししたいと思います。簡単に言えば、ビッグデータは意思決定と選択の問題を解決するのに役立ちます。

天気予報は最も古く、最もよく知られている予測の 1 つです。天気予報に基づいて、明日何を着るか、傘を持っていくかどうかなどを決めることができます。

過去 2 年間、ビッグ データは映画やテレビ番組の制作業界に応用されてきました。視聴者の好みの分析に基づいて、視聴者が好むストーリーを予測して設計したり、関連する役を演じるのに視聴者が好む俳優を見つけたり、興行収入を予測したりするために使用されています。これらの予測はすべてデータに基づいており、特定のモデルによって処理されて現実に近い結論が得られます。ある程度、それは「ハウス・オブ・カード」や「スター」のような意思決定者に対して意思決定の根拠を提供します。

ビッグデータのもう一つの重要な機能は、人々の「選択」問題を解決することです。笑わないでください。年齢、性別、学歴に関係なく、人々は現在、前例のない選択に直面しています。より学術的に言えば、これは「ロングテール効果」によって引き起こされる問題であり、もっと簡単に言えば、選択肢の増加と私たち自身の処理能力との間の矛盾によるものです。

テクノロジーの進歩により、人々はより怠惰になり、それは主観的にも客観的にも私たち自身の処理能力が低下したことを意味します。しかし、利用できる選択肢の数は日々増加しています。複雑で多様な商品(電子商取引)から膨大な音楽ライブラリの音楽まで、出会い系サイトのボーイフレンドやガールフレンドから交通管理用の信号機まで。

人工知能に基づくビッグデータは、人々を「怠惰」にする手段です。お客様の過去の行動に基づいて、お客様の好みやニーズを判断し、最適な結果を推奨することができます。これはビッグデータです。あなたを最もよく理解しているのは、あなたの世話をしてくれる家政婦、または友人です。

最も典型的な事例の 1 つは、ウォルマートがかつて実施した「ビール」と「おむつ」に関する調査です。ウォルマートは調査の中で、特定のタイプの顧客がおむつを購入するときにビールも同時に購入することが多いことを発見しました。おむつとビールは、当然ながら無関係な商品カテゴリーです。私の個人的な経験からすると、この2つの間に関連性があるとは考えられません。後に、これが社会現象によって引き起こされたことが判明しました。アメリカには、おむつがなくなると、夫がスーパーマーケットにおむつを買いに行く間、妻が家で子供の世話をする若い夫婦がたくさんいます。男性はおむつを買った後、たいていビールも買います。

上記の例は、データによって、不合理かつ非論理的に思えるが、実際に存在し、頻繁に発生する現象を発見できることが多いことを示しています。

別の例を挙げると、北京の交通渋滞は地球上の誰もが知っていることです。特に朝晩のピーク時間帯は予測する必要がありません。しかし、過去の交通データと数学モデルを使用して北京の最適な信号管理システムを計算すると、これはビッグデータの範疇に入るでしょう。

図2. タクシーの日々の分布

これは、私にとってはビッグデータと通常の統計分析の最大の違いでもあります。データ統計は病気の発見に役立ちますが、ビッグデータは病気の発見だけでなく治療にも役立ちます。

ビッグデータは決して「仕掛け」ではありません。ある事業者の読書ベースに対する読書推奨プロジェクトでは、すべての指標が大幅に改善されました。そして、この改善は数十パーセントではなく、数倍です!(平均ユーザートラフィックは4倍、サイレントユーザーのアクティベーション容量は6.5倍に増加しました)これがビッグデータの魅力です。

ビッグデータは万能薬ではない

ビッグデータは明らかに万能薬ではありません。だから彼女は本物なんだ。さまざまな理由により、一部の分野ではビッグデータがもたらす価値は期待したほど高くありません。この現象を引き起こす主な問題は 2 つあります。1 つはデータ自体の品質または量が不十分であること、もう 1 つはアルゴリズムが不適切であることです。

大量のデータが必ずしも価値があるとは考えないでください。過去の作業では、当事者 A のデータ ソースからのデータの 80 ~ 90% が役に立たないことがよくありました。特定の価値を生み出すのはデータの 10% ~ 20% のみです。これは、マリー・ミーカーの「ビッグデータを扱うのは、わらの山から針を探すようなものだ」という比喩を思い出させます。

さらに、ほとんどの分野のビジネスはまだ初期段階にあり、利用可能なデータは非常に不足しています。コールド スタートとスパース性は、多くの分野でビッグ データが直面している課題です。

一方、さまざまな分野やプロジェクトに共通する普遍的なアルゴリズムは存在せず、特定の問題をそれに応じて分析し、解決する必要があります。実際の作業では、異なる分野(記事推奨と製品推奨など)だけでなく、同じ分野内の異なる単位(同じ電子商取引でも、母子カテゴリと衣料品または贅沢品カテゴリなど、異なるタイプの電子商取引)も異なることがわかります。

データの相互利用

ビッグデータが実際のアプリケーションで直面する上記の 2 つの最大の問題、つまりコールド スタート時のデータ不足とビジネスの初期段階でのデータの希薄性は、解決できないものではありません。業界で議論されてきたデータ接続は、これら 2 つの問題の解決策です。

新興分野によっては、データ不足は避けられません。一方で、データサポートが不足しているからこそ、迂回を回避し、利益を最大化するために、ビジネスを導きサポートする強力な意思決定支援システムがさらに必要になります。

モバイルインターネット分野のプロジェクトが特に代表的です。モバイルインターネットはここ2、3年で急速に発展しましたが、あらゆる面での蓄積はインターネットとは比べものになりません。特に、人々が安定した使用習慣を形成するまでは、データはそれ以上の価値や意味を持ちません。

しかし、インターネット データとモバイル インターネット データを接続できれば、個人の好みなど、個人に関する多くの情報にアクセスできるようになり、モバイル インターネット ビジネスに対してより効果的なガイダンスとサポートを提供できるようになります。

図3: インターネットとモバイルインターネットデータの統合

もちろん、データ接続はインターネットやモバイル インターネットに限定されるものではありません。各データ ソースからのデータは、多くの場合、人物のさまざまな側面を表現します。バラバシ教授が著書『アウトブレイク』で述べているように、十分なデータがあれば、人間の行動の 93% は予測可能で規則的なものになります。

これらのさまざまなソースからのデータを再編成することによってのみ、より有意義な情報を掘り出すことができます。

現在、業界の多くの人々が「データ統計と分析」という旗印の下、ビッグデータに取り組んでいますが、多くの素人が「データ統計はビッグデータと同じではない」と誤解しています。データ統計であれビッグデータであれ、それは実際には私たちの仕事をより効率的にし、意思決定をより合理的かつ正確にするためのものです。データに注意を払うことは、それ自体が成熟した企業の証です。

モバイルインターネットの急速な普及により、データはより多様化、豊かになりました。そのモビリティ、断片化、プライバシー、適時性は、ユーザーがデスクトップ コンピューターを離れた後に残されるデータを補うものであり、元のインターネット データと組み合わせることで、インターネット ユーザーの日常生活と日常生活のデジタル化をうまく概説できます。

データがさらに充実・改善され、さまざまなチャネルからのデータが接続・相互利用されるようになると、ビッグデータに対する想像力は確実に広がるでしょう。


原題: ビッグデータに関する誤解: 統計 ≠ ビッグデータ

キーワード: ビッグデータ、誤解

<<:  あなたのウェブサイトにはホームページだけが含まれていますか?

>>:  検索エンジン最適化におけるウェブサイトのコンテンツ、構造、キーワードについて

推薦する

スマートホストはどうですか?カンザスシティ(ミズーリ州 - 米国)データセンター VPS レビュー、TikTok/Netflix のブロック解除

スマートホストはどうですか?スマートホスト カンザス データ センターの VPS はどうですか? S...

ウェブサイトがブロックされたときに知っておくべき8つの要素

1. ウェブサイトが K-ed されるとはどういう意味ですか?ウェブサイトが正常に登録されていた場合...

ウェブサイトのSEO最適化の8つのステップを明らかにする

ステップ1: ウェブサイトが属する業界に精通するLeng Xian は個人的に、SEO のレベルに関...

「中国Vバレー」馬欄山がグリーンデータセンターを建設、アリババクラウドの液体冷却技術が初めて輸出

サーバーを水に浸す単相浸漬液冷却技術は、グリーン データ センターの新しい標準になりつつあります。 ...

RHEL 8.5はコンテナの重要な改善を実現

[51CTO.com クイック翻訳] Red Hat Enterprise Linux の最新バージ...

知的財産訴訟トップ10のうち4件のオンライン訴訟の背景

4月17日、「3Q」紛争の第二段階の裁判が広東省高級人民法院で始まった。近年、インターネット上での知...

QQ、Weibo、Momoの社会的運命

1994年、中国本土初のインターネットBBS「曙光ステーション」がオンラインになりました。その後、水...

将来はクラウド コンピューティングからフォグ コンピューティングに移行するのでしょうか?

モノのインターネットの発展により、既存のクラウド ネットワークは、特にリアルタイム パフォーマンスの...

raksmart: クリスマス + 元旦プロモーション、VPS/香港専用サーバー/米国 CN2 専用サーバー/ステーション クラスター サーバー

Raksmart データセンターでは、クリスマス + 元旦のプロモーションを実施しています: (1)...

webdevfish - $14.4/128m メモリ/256sWap/10g ハードディスク/100g トラフィック

webdevfish は 2011 年に設立された登録企業です。独自のサーバーを所有しています。一般...

個人サイトSEOの実践経験まとめ(初心者向け)

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますSEO を...

外部リンク構築で最も重要な 7 つのこと

ウェブサイトが検索エンジンの結果ページで良いランキングを獲得したい場合、サイト上のコンテンツと外部リ...

楊磊氏との対談:「究極のシンプルさ」と「究極の真実」でユーザーにとっての価値を継続的に創造する

[51CTO.comより引用] 設立以来7年間で、8万人以上のユーザーに高品質のサービスを提供してお...

マーケティングの真実: WeChat ストアで収益を上げる秘訣

最初の真実おめでとうございます。もしあなたが「お金を稼ぐ秘訣」を知りたいという希望だけでタイトルだけ...