確かに、このような話題があるのには理由があります。つい数日前、同僚からビッグデータの方向性について尋ねるメールを受け取りました。彼らはビッグデータの分野に関わりたいと思っていたり、すでにビッグデータの分野に関わっていたりしましたが、次に何をすればいいのかわからず、非常に困惑していました。 そこで私は、多くの人がビッグデータの分野でどのように前進するかについて苦慮していると考えました。ますます混沌とする傾向にある一見広範なビッグデータの概念に直面して、私たちは本当にそれを整理する必要があります。 そこでこのトピックです。このサークルは一体何なのか、どんなテクノロジーが関係しているのか、どのように始めるべきなのか、そしてどうすれば自分自身をさらに向上させることができるのか。 個人的には、卒業以来このサークルで活動できてよかったと思っています。多くのことを知っているとは言えませんが、それでも自分の意見を皆さんと共有したいと思っています。お役に立てるなら嬉しいです。できなければ、それは単なる個人的な不満です。 ビッグデータを理解する まず、ビッグデータ界の状況を整理し、質問を決めましょう。私たちが話しているビッグデータを研究することの核となる価値は何でしょうか? はい、これは非常に奇妙な質問です。たとえば、数年前にビッグデータという言葉が突然人気になり、それ以来ずっと人気が続いていて、その後非常に人気になりました。この質問についてもう一度考えてみましょう。データの量が一定規模に達する前、またはデータが一定規模に達したことに人々が気づく前、または関連する技術サポートが成熟する前は、データにはあまり注意が払われません。 ビッグデータ技術が成熟するにつれて、特にHadoopエコシステムに代表される技術圏はますます豊かになり、データの規模が拡大し続けるにつれて、データを研究する人もますます増えています。 その結果、ますます多くの人が参加するようになりました。まず、データの価値を掘り出すという目的を理解する必要があります。ここで言うマイニングとは、狭義のデータマイニングの概念ではなく、乱雑なデータを整理して、それが反映するビジネス状況を発見し、大量のデータの統計分析を通じて調整およびビジネス上の意思決定を行い、大量のデータ内の潜在的な関係性や傾向をマイニングして適切なパーソナライズされた戦略を実行することが含まれます。 率直に言えば、それはただ2つの言葉です。「価値」です。価値が大きくても小さくても、データから利益を得ることが必要であり、それが私たちの基本的な目標です。言い換えれば、ビッグデータ分野で私たちが行うことはすべて、データの潜在的な価値を引き出すことです。 中核的な価値を理解したところで、研究対象であるデータに注目してみましょう。 データはどこから来るのでしょうか?データを取得するだけで使用できますか?データの価値を絞り出すには、ジューサーを使うべきでしょうか?データはどのように処理すればよいでしょうか?はい、どのようなテクノロジーを使用する予定ですか? どうやってデータを抽出するかという問題には、非常に多くの疑問が浮かび上がり、そのすべてを一つずつ解決する必要があります。これが、多くの人が混乱する直接的な理由です。 整理されておらず、どこから始めればいいのか分かりません。これは、すでに行き詰まっている多くの初心者やプログラマーが直面している問題です。 私たちの研究主体は常にデータであり、それを中心に回っていることは否定できません。これを決定した上で、残りの問題に一つずつ対処していきます。 データはどこから来るのでしょうか? この質問には多くの答えがあります。 これまで、多くの企業はデータについてあまり研究を行っていなかったものの、生成されたデータはすべて無意識のうちに収集していました。現在、それを研究したりさらに処理したりする能力があることを前提とすると、これは計り知れない量のデータです。従来のデータ収集方法では、主に既製のファイルまたは従来のデータベースの形式で反映されます。 会社のオンラインビジネスによって生成されたビジネスログ。これは最も一般的なデータソースであり、現在、多数の同僚がこのタイプのデータを処理しています。このデータの形式は、主に時間別に分割されたログ ファイルです。 インターネット公開データ。データ ソースのこの部分には、入手が困難で、データが比較的乱雑であるという特徴があります。このデータの使用コストは比較的高くなります。そのため、現時点ではこのデータを活用できる企業は比較的少ないですが、将来的には間違いなく主流のデータソースになるでしょう。 さらに、モバイルインターネットの発展に伴い、モバイル端末はますます多くのデータを持ち込み、新たなデータソースとなっています。もちろん、さまざまなスマート端末によって生成されたデータも含めるようにさらに拡張できます。 データはすぐに使えますか? 答えは明らかにノーです。データをどのように入手するかということも大きな問題です。ここで、マルチノード ログ収集ソリューションとして人気の高い Scribe や Flume など、ビッグ データ分野のデータ収集に関連するいくつかのテクノロジについて説明します。通常、生成されるデータはさまざまなノードに分散しています。このデータを統一された方法で収集できる場合は、このデータを使用してデータからさらに価値を引き出す必要があります。これらのオープンソースのログ収集システムは、散在するデータをどのように一元管理するかという問題を解決します。 さらに、リレーショナル データベースに保存されている従来のデータについては、データ ウェアハウスなどのビッグ データ処理プラットフォームにインポートするために、特定の変換を実行する必要があります。これには、sqoop などのデータ変換用のオープン ソース システムがいくつか関係します。 インターネット上の公開データに関しては、さまざまな Web クローラーや Web ページ解析関連のテクノロジが関係します。 そして、各種業務データなど、ほとんどのデータは入手後すぐには利用できず、必要な情報をさらに抽出する必要があります。クロールされたインターネット データは、さらに複雑で乱雑です。最終的に有用な基本データを取得するには、さらにスクリーニングしてクリーンアップする必要があります。 データのクリーニングと前処理の場合、大規模なオフライン処理には通常 MapReduce、メモリ処理には通常 Spark Streaming、データ ストリーミング処理には通常 Storm が使用されます。 データ転送のプロセスでは、さまざまなメッセージ キューに関与し、データ プラットフォーム全体では、分散調整、分散監視、タスク スケジューリングなどの関連知識に関与します。 さまざまなリンクや最終的に処理されたデータに関係なく、それを保存する必要があり、これには分散ストレージ、非リレーショナル データベース、大規模データ ウェアハウスなどの関連テクノロジが関係します。 データの価値を抽出しましょう! データは層ごとに処理された後、最終的に目的地に到達します。一部のビジネスでは、精製され、精製されたデータがすでに利用可能であり、直接提示することができます。これはデータの価値を直接反映しており、それ以上の説明は必要ありません。 一部のデータについては、さらに統計分析を行い、データに反映されたビジネスの傾向や変化を把握する必要があります。これはビッグデータBIの分野であり、データの価値を反映するものとも言えます。 しかし、一部のデータはそのままでは利用できず、データが直接反映する状況はあまり役に立ちません。現時点では、その潜在的な価値をさらに探究する必要があります。代表的な例としては、パーソナライズされたレコメンデーションが挙げられます。当社は、特定のデータモデルを通じて、既存のデータと将来のデータの関係を確立し、パーソナライズされたビジネスをさらに推進し、商業的利益を高めたいと考えています。これもデータの価値を反映しています。 全体のプロセスを見てみましょう。 まず最初に、初期データを収集します。さまざまなビジネス シナリオに応じて、Scribe や Flume に代表されるオープン ソースのログ収集システムなどの分散ログ収集テクノロジ、ActiveMQ、RocketMQ、Kafka などのさまざまなオープン ソース メッセージ キュー MQ などのデータ メッセージング関連テクノロジ、さまざまなクローラー テクノロジ、Web ページ解析テクノロジ、Apache の Sqoop などのデータベース データ変換テクノロジなど、いくつかの技術分野が関与する場合があります。 データ処理の段階では、通常2つの異なる処理方法があります。1つは、Stormに代表されるリアルタイム処理システムや、ここ1、2年で流行しているSpark Streamingのように、データが着陸する前に前処理する方法、もう1つは、HadoopのMapReduceのように、着陸後にオフラインでバッチ処理し、Sparkを使用して処理する方法です。もちろん、データの前処理では、特定のフレームワークを使用しなければならないというわけではありませんが、このプロセスは間違いなく必要であり、データをさらにフィルタリングして正規化する必要があります。 次のステップはデータの着陸です。整理されたデータは、さらに処理を進める前にローカルに保存する必要があります。一般的な大規模ストレージには、HDFS などのオープンソースの分散ファイル システム ソリューションが多数ありますが、データ ウェアハウスや一部の NoSQL に保存されるものも多くあります。その中で代表的なものとしては、Hadoop エコシステムにおける Hive と Hbase が挙げられます。 次に、データをストレージに整理するプロセスでは、完全なデータ処理手順と完全なデータ処理プラットフォームが存在します。また、Zookeeper などの分散調整システムも使用される場合があります。また、Ganglia と Nagios の組み合わせ、Puppet、Zabbix などの関連テクノロジなどの分散プラットフォーム監視も使用されます。 次にデータの価値です。一部のビジネスでは、処理されたデータを直接使用できます。たとえば、データ ウェアハウス操作を通じて外部に直接表示できます。一部のデータは、Hive のさまざまな操作やさまざまな BI レポートなどを通じて統計的に分析する必要があり、既存のデータのパターンを見つけてビジネス戦略を改善できます。一部のビジネスでは、既存のデータが将来のデータに影響を与えることを期待しているため、大規模なデータ マイニング シナリオでの Mahout や Spark の MLlib など、さまざまなデータ ディープ マイニング ツールが導入されています。また、一部のビジネスでは、このデータを検索データ ソースとして使用したいため、データをインデックス化します。 上記のプロセスでは、使用される技術に若干の違いがあるかもしれませんが、基本的なプロセスは変わりません。この分析を通じて、このプロセス中にどのプロセスに関与するかがわかり、ビッグデータのサークル内でどの方向に発展すべきかがわかります。 自分の位置を確認する 前述のように、ビッグデータの分野全体には、関係するものが多く、習得すべき問題解決のアイデアも数多くあります。しかし、私たちのエネルギーには限界があります。 卒業後すぐに参加できてよかったです。私が最初に関わったのは、データ アクセス、リアルタイム処理、オフライン処理の完全なセットを含むデータ センター プラットフォームの構築でした。その後の仕事で、ビッグデータ分野のデータウェアハウスや大規模データキャッシュに関する技術に触れ、ビッグデータ分野の知識のギャップが徐々に埋まっていきました。また、NoSQL、検索、Webページ解析、クローラーなどについても徐々に学んでいきました。現在、私たちはデータ処理関連の仕事を行う中で、研究しているレコメンデーションシステムや人気ランキングモデルの研究など、大規模なデータを利用してデータの潜在的な価値を探求しています。 システム全体は、実際には 2 つのカテゴリに分けられます。この分野ではさまざまなオープンソース プラットフォーム システムが広く使用されているため、プラットフォーム スタッフの需要が非常に高くなっています。大規模なクラスターとプラットフォームの正常な動作を確保することも非常に困難な作業です。また、純粋な開発者もおり、より多くのことを考慮する必要があります。 この分野に不慣れな人は、まず自分の興味を決定し、次に上記のコンテキストに基づいて独自のエントリ ポイントを見つける必要があります。一度にすべてを理解することは不可能です。自分の興味を見つけ、ビッグ データに関する認識システムを徐々に向上させていきます。 定義: ビッグデータ (またはメガデータ) とは、データ量が非常に多いため、手動でキャプチャ、管理、処理、整理して、妥当な時間内に人間が解釈できる形式にすることが不可能な情報を指します。データの総量が同じ場合、小さなデータセットを統合して分析すると、独立した小さなデータセットを個別に分析する場合と比較して、多くの追加情報とデータの関係が得られます。これを使用して、ビジネストレンドを検出したり、研究の品質を判断したり、病気の蔓延を防いだり、犯罪と闘ったり、リアルタイムの交通状況を測定したりできます。このような用途があるため、大規模なデータセットが人気があります。 出典: 寄稿、著者: Blogchong、著者の公開 WeChat ID: blogchong 原題: ビッグデータの霧を晴らす キーワード: |
>>: Androidにはワームホール脆弱性という高リスクの脆弱性がある
私たちが普段目にするウェブサイトのバナーは、その形状によって固定された構成モードが決まります。一般的...
houseofvoltaire は、地元および世界的に有名な現代アーティストやデザイナーによるユニー...
今年の端午節は多くのウェブマスターにとって暗い日になるだろうと私は信じています。木曜日の定期更新によ...
Windows 向け Docker サポート気がつけば、私は Docker を使い始めてほぼ 5 年...
アメリカとカナダの独立記念日が近づいており、多くの企業が活動することが予想されます。chicagov...
【捜狐ITニュース】北京時間6月11日現在、従来のパソコンではなく、スマートフォンやタブレットでイン...
Yunbaseは独立サーバーの10%割引プロモーションを開始しました。サーバーは、中国香港(3ネット...
VMware (NYSE: VMW) は今週の VMworld 2020 で VMware Futu...
はじめに:ジャック・マー氏の「地元の生活サービスは5時か6時の太陽であり、商品電子商取引よりも規模が...
virtualvm は 512M のメモリを搭載した無料の VPS を提供しており、申請に制限はあり...
新年が近づき、モバイル インターネットのネイティブ グループ、つまり 1995 年以降に生まれた人々...
以下は、テンセント電子商取引持株会社およびディスカスの創設者である戴志康氏がプロダクトホームサロンで...
ご存知のとおり、クラウド コンピューティングが登場する前は、データ センターの構築と運用は容易ではあ...
自分自身を位置付ける方法はたくさんありますが、その核心はただ一つ、認知において有利な位置を占めること...
刑法を教える羅翔教授は、ビリビリですぐに「この悪循環を打破」した。 3月9日、羅翔はビリビリのUPホ...