[51CTO.com からのオリジナル記事] データは間違いなく企業にとって最も価値のある資産です。データの価値は、データ自体から本当に有用な情報を抽出し、情報を知識に変えて、私たちの行動を導くことにあります。データから洞察まで、当社は企業が事業運営を行い、より大きな価値を生み出すことを支援します。 私たちは、データベース、データ ウェアハウス、データ レイクなどのさまざまな概念の時代を経て、さまざまな種類、規模、形式のデータを扱ってきました。人工知能の急速な発展と産業インターネットの変革に伴い、データ処理技術も向上しています。クラウド コンピューティングの計算能力と組み合わせることで、企業は迅速に洞察を得て、ビジネス革新を実現できます。 データの複雑さが増す かつて、データはデータサイエンティストやデータエンジニアだけが使用していましたが、現在では、企業の管理者、マーケティング、財務、ビジネス担当者、製品管理者、開発者、運用担当者など、企業内のすべての人がデータユーザーになることができます。データ分析の応用シナリオは、市場の顧客サービス、消費者のセグメンテーション、顧客ロイヤルティ、顧客離れ、財務リスク管理と評価、市場プロモーション活動と需要分析、医療分野における疾病伝染と新薬発見など、社会のあらゆる側面にも関連しており、これらはすべてデータ分析に関係しています。 しかし、ソーシャル ネットワークの台頭により、電子商取引、食品配達、エンターテイメント ビデオ、ソーシャル メディア、デート、恋愛など、さまざまな新しいインターネット アプリケーションの人気が高まり、データの複雑さが増しています。企業のデータ分析は、ビジネス上の意思決定の指針を提供するために、よりタイムリーかつ予測的なものであることが求められています。 以前は、データは業務システムから取得されていました。昨今、モバイルデバイス、ウェアラブルデバイス、IoTデバイスなど、さまざまなデバイスが相互接続されるようになり、データの取得先も多様化しています。ユーザー数とビジネスリクエストの増加により、データも急増しました。データソースの多様化、データ量の増加、データ形式の多様化により、データ自体の拡張性と経済性にも課題が生じています。企業はデータを迅速かつタイムリーに表示し、分析して価値を獲得する必要があります。 データレイクの出現 データ処理の最も伝統的な方法は、データベース、特にトランザクション データベースを通じてデータを管理することです。従来、企業データは ERP や CRM などのさまざまな業務システムから取得され、データベースに保存されていました。その後、各ビジネス システム アプリケーションは大量のデータを生成して保存するようになりましたが、このデータは他のシステム アプリケーションでは使用できず、データ アイランドが作成されました。データ ウェアハウスが誕生しました。データ ウェアハウスはデータベースに基づいています。システム アプリケーションによって生成されたデータは、特定の分類、改良、整理が行われた後、すべて集中型データ ウェアハウスに保存されます。各部門は、それぞれのニーズに応じて関連データをエクスポートし、使用および分析します。 データ ウェアハウスは構造化されたデータのみを保存できるため、事前に定義する必要があります。今日の大量の非構造化データと半構造化データ、およびデータ分析のタイムリーさに対する高い要件に直面して、データ ウェアハウスは「それを行うことができない」ようです。データレイクが誕生しました。 データレイクには多くの概念があります。 AWS の主任クラウドコンピューティングエンタープライズ戦略コンサルタントである Zhang Xia 博士は、データレイクはさまざまな構造化データと非構造化データを処理できる中央データストレージコンテナであると考えています。データ量を迅速に拡張、クエリ、分析できます。 張霞氏は例を挙げ、昔は小さな川のようにデータを集約し、川の水量を予測し、それから川の水路を設計し、水が来たらゲートを設置して処理していたと述べた。しかし、インターネット時代においては、動画や携帯端末からの情報が大量に流入し、データの本質を把握することが難しくなってきています。データ量は膨大で勢いも圧倒的なので、処理に多くの時間を必要とします。したがって、まずデータをレイクに保存し、ツールを使用してクエリを実行して分析する必要があります。 データレイクの互換性と柔軟性 データレイクには本質的に技術的な革新はなく、単なる概念の寄せ集めに過ぎないと考える人もいるかもしれません。しかし、デジタル変革において、データレイクは企業が技術的変革を実現し、急速に進化するデータニーズに対応するのに真に役立ちます。 データ レイクには、複数のソースからの大量のデータを保存できます。業務システムやスマートデバイスなどで生成されたデータは、構造化データと非構造化データの両方をサポートし、元の自然なデータとして保存できます。さらに、クラウド コンピューティング機能と組み合わせることで、データ レイクは大量のデータを迅速に拡張して保存でき、ディレクトリを作成してデータを転送および抽出することで、さまざまな方法でデータを分類し、迅速に分析できます。 ただし、データ レイクには生の自然データが保存されており、その一部は当然役に立たないデータであり、ストレージ スペースも占有することに注意してください。では、無駄なデータを処理してストレージコストを削減するにはどうすればよいでしょうか?張霞氏は51CTOに対し、入ってくるデータがすべてゴミであれば、その後の保管や分析もゴミになる可能性が非常に高いと語った。したがって、企業は、元データの量を削減しながら、データ品質を向上させるために、元データを合理的に管理、設計、把握するよう最善を尽くすべきです。さらに、企業はライフサイクル管理機能を通じて、コールドデータとホットデータを分類し、データの量や特性に応じて保存・処理できるため、データコストを削減できます。 張霞氏は、データ レイクはすべてのデータと互換性があり、柔軟性を維持しているため、データ サイエンティストやデータ研究者が探索的、予測的、研究的なデータ クエリや分析を実行するのに特に適していると指摘しました。 AWSの「データファミリー」 一般的に、データ レイクの構築には、いくつかの手順が含まれます。最初にデータを設定して保存し、次にデータを別の場所に移動してロードし、データをクリーンアップしてデータ カタログをコンパイルし、データ セキュリティとコンプライアンス ポリシーを構成してストレージ管理を実行し、分析が必要なときにツールを使用して分析用のデータを取得します。構築手順を簡素化するために、AWS は AWS Lake Formation を提供しています。これは、データレイクの構築方法を自動化し、企業が数日以内にデータ構築を完了できるように支援します。張霞氏は、AWS Lake Formation が今年中国で開始されることを明らかにした。 データレイクの構築に加えて、データストレージも重要です。 AWS データレイク レベルでは、Amazon S3 と AWS Glue が含まれます。 Amazon S3 は、構造化データと非構造化データを含むあらゆるバイナリベースの情報を保存でき、11 ナインのデータ永続性を備えています。クラウド内の 3 つのアベイラビリティ ゾーンに 6 つのコピーを保存し、相互にバックアップします。 Amazon S3 のバックエンドは、コールド ストレージの Amazon Glacier です。データが頻繁に使用されない場合は、Amazon Glacier に保存してストレージコストを削減できます。 AWS Glue には、完全に管理されたデータ抽出、変換、ロード (ETL) サービスとメタデータカタログという 2 つの主要機能が含まれており、ユーザーはこれにより、データをより簡単に準備し、データベース、データウェアハウス、データレイクにデータをロードして、データ分析に使用することができます。 AWS Glue サービスが AWS 中国 (寧夏) リージョンで正式に開始されました。 AWS では、データレイク関連の製品に加え、基盤となるデータの移行・移動ツール、さまざまな種類のデータを保存するためのデータストレージ層、上位層でのさまざまな分析ツールや機械学習機能など、データレベルでのより多くの機能も提供しています。 最下層は、データの移行および移動ツールです。 AWS では、専用のハードディスクデバイスにデータを保存して AWS に配信できる AWS Database Migration Service、AWS Snowball、データポータルゲートウェイを介してデータを変換する AWS Storage Gateway、データバックアップサービスを提供する AWS Backup を提供しています。 データ移動の上の層はデータストレージ層で、キー値とドキュメントを保存する Amazon DynamoDB、Amazon RDS マネージドリレーショナルデータベース、Amazon Aurora クラウドネイティブデータベース、Amazon ElasticCache インメモリデータベース、Amazon Neptune グラフデータベースなど、さまざまなデータベースを使用してさまざまな種類のデータを保存します。 データ レイク レイヤーの上には分析レイヤーがあります。 AWS は、Amazon Redshift データウェアハウス、Amazon EMR ビッグデータ分析、AWS Glue サーバーレス処理、Amazon Athena インタラクティブ分析、Amazon Elasticsearch 運用保守分析、Amazon Kinesis リアルタイム分析を提供します。 最上位層は機械学習で、Amazon QuickSight のグラフィカルな視覚化、Amazon Polly のテキスト読み上げ機能、Amazon Transcribe の音声テキスト変換機能、Amazon SageMaker の機械学習ツールなどが含まれており、ユーザーがデータ分析結果を提示するのに役立ちます。 AWS は、包括的で安全、コスト効率に優れ、構築が容易で、広く使用されているデータ関連のツールとサービスを提供して、企業がさまざまなデータニーズを満たし、データを迅速に洞察に変換し、ビジネスイノベーションを加速できるようにしたいと考えています。 AmazonもAWSのユーザーです。 Amazon はかつて、7,500 個のデータベースと 75PB のデータ量を使用していた Oracle のグローバル データベースの最大のユーザーでした。しかし、拡張の難しさやコストの高さから、Amazonは昨年11月にOracleデータベースからAWS上の関連データベースへの移行を完了し、データベースコストを60%、データベース管理コストを70%削減しました。さらに、Amazon は Galaxy と呼ばれる社内データレイクを構築し、Amazon のすべてのデータを統合して分析することで、データ集約から有用な情報をマイニングするプロセスを高速化するとともにコストを削減しています。 結論 データレイクの概念は 2011 年に初めて提案されました。今から 9 年が経ちました。現在、人工知能の台頭がデータレイクの急速な発展の最大の原動力となっています。張霞氏は、データレイクの時代では、ビッグデータはよりリアルタイムかつ未来志向になり、人工知能が重要な要素になると考えています。人工知能は大量のデータを処理する能力があり、膨大な量のデータの価値を高めます。時間が経つにつれて、データ分析と人工知能の大部分が密接に統合されるようになります。 中国におけるデータレイクの開発はまだ初期段階ですが、次世代インターネット、5G、エッジコンピューティングなどの技術の発展に伴い、データの保存と分析の対応する道筋も加速するでしょう。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: Kubernetes パフォーマンス最適化の 7 つの簡単なヒント
>>: 企業における統合ハイブリッドクラウドストレージの重要性
今朝8時ごろから、Baidu Cloudにアクセス障害が発生し、ファイルリストが表示できず、ファイル...
6月30日、私はA5にBaiduのメジャーアップデートに関する記事を掲載しました。翌日、自分のアカウ...
世界中のあらゆる業界で、クラウドは現代の企業のビジネスのやり方に革命をもたらしています。先見性のある...
anynode は VPS の老舗ブランドの 1 つです。同社の新年プロモーションでは、米国ラスベガ...
インドの特別な日「ディワリ」に、Linode は長い間見られなかった便利なものをプレゼントします。 ...
ローカルウェブサイト間の競争は非常に激しく、一部の県では数十のローカルウェブサイトがあります。そのた...
検索エンジンマーケティングを通じてトラフィックをもたらすのは簡単ではないため、誰もがより高い費用対効...
オンライン マーケティング プロモーションの実践において、SEM を行う人の多くはアカウント操作に力...
xsx.net (旧 pzea.com、ドメイン名は変更) は、中国本土向けの特別な直接ネットワーク...
我が国の「新インフラ」戦略が加速期に入るにつれ、クラウドコンピューティングは新技術インフラの一部とし...
多くの人はオンラインアライアンスプロモーションを理解していません。まずは百度百科事典のオンラインアラ...
荷物が目的地に到着する直前に紛失したことはありませんか?ホリデーシーズンが近づいており、多くの人が荷...
ウェブサイトの詳細を改善する方法まず、1 つの質問を理解する必要があります。Web サイトの詳細を完...
私は映画を見るのが大好きで、周りの人もそれを知っています。 2011年という一年で、私は数え切れない...
A5 で、「Web サイトのスナップショットをその日のバージョンにするのはとても簡単であることが判明...