翻訳者 |チェン・ジュン 校正:孫淑娟 データ パイプライン プロジェクトに適したデータ統合アプローチを選択できるように、ETL と ELT の長所と短所、および両方の手法の使用方法について簡単に説明します。また、高速なデータ読み込み、最小限のメンテナンス、高度な自動化を必要とするワークフローにリバース ETL が適している理由についても説明します。 ETL と ELT の一般的な概念今日の企業が直面している共通の課題は、複数のソースから複数の形式でデータを取得し、それを 1 つ以上のデータ ターゲットに転送する必要があることです。ほとんどのデータ移行プロジェクトでは複数のデータ ソースの収集が必要になるため、明確に定義されたデータ パイプライン (つまり、ソースから宛先までの情報のパスまたはワークフロー) が必要です。ターゲットとデータ ソースが異なる形式で保存されている場合は、最終ターゲットにロードする前にデータを調整またはクリーンアップする必要があります。現在、業界には、データ パイプラインにおけるアプリケーション データの変換と調整において一定の役割を果たすことができるツール、サービス、プロセスが数多く存在します。 ETLプロセスETL はデータ統合プロセスです。これにより、データ パイプライン プロジェクトは、さまざまなソースからデータをスムーズに抽出し、データを変換し、データ結果をターゲット データベースにロードできるようになります。 ETL であっても ELT であっても、データ変換および統合プロセスには次の 3 つの段階が含まれます (図 1 を参照)。
図 1: ETL プロセス (Kai Waehner の「リバース ETL を使用する場合とアンチパターンを使用する場合」より) ETL プロセスと ELT プロセスは、上記の手順を異なる順序で実行します。データ パイプライン チームは、データをターゲット データ リポジトリにロードする前か後にデータ変換を実行するかどうかを決定する必要があります。 ELTプロセスELT は、データ サイロの発生を防ぐために組織全体のデータを統合するために使用される方法です。データはデータ ソースから抽出され、データ ウェアハウスにロードされ、必要に応じて変換されます。アプリケーションに応じて変換が必要ですが、ELT プロセスでは、保存する前にデータを変換する必要があります (図 2 を参照)。
図 2: ELT プロセス (Kai Waehner の「リバース ETL を使用する場合とアンチパターンを使用する場合」より) ELT は、統合プロセスに含まれるステップの順序を変更し、変換が途中ではなく最後に行われるようにします。 ELT プロセスは、ステージの順序を切り替えることで、構造や形式を考慮せずに生データを受け入れるデータ レイクにデータをロードし、即時のデータ抽出とロードを可能にします。 ELT の採用に貢献するもう 1 つの要因は、クラウドベースのデータ ウェアハウスの広範な採用と実装です。クラウド データ ウェアハウス ソリューションは、コンピューティングとストレージを完全に分離し、無制限のデータを保存する機能を提供します。現在、ほとんどのデータ ウェアハウスはホストされています。つまり、企業はハードウェアやストレージを購入したり管理したりする必要がなく、ソフトウェアをインストールしたり拡張を検討したりする必要もありません。これらはすべてクラウド サービス プロバイダーによって管理および制御されます。これに基づいて、企業はクラウドホスト型データ ウェアハウスをより短い期間で構成できます。 ETL と ELT: 属性、機能、ユースケースETL と ELT の使用例に関しては、一方的なことはありません。次の表に、さまざまな属性の観点から見た 2 つの違いをまとめます。
リバース ETL の一般的な概念リバース ETL は、クレンジングおよび処理されたデータを抽出するためのフレームワークです。データ ウェアハウス (またはデータ レイク/マート) から 1 つ以上の運用システムにデータをコピーします。その後、データは Salesforce などの他のアプリケーションに再導入され、業務運営や予測に使用できるようになります。抽出されたデータ ソースを操作することで、さまざまなユーザーが共通のツールを使用してデータにアクセスし、関連する洞察を得ることができます。最新のデータ テクノロジー スタックのコンポーネントとして、リバース ETL を使用すると、企業はビジネス インテリジェンス (BI) ツールのみを使用する場合よりも複雑な分析を実行できます。 戦略的な新しい統合プロセスとして、リバース ETL は急成長中の企業がデータ分析に費やす時間を短縮できます。このプロセスは、データ ウェアハウス内のデータをアクティブ化するために、ビジネス ユーザーの運用ツールとデータを同期することに重点を置いています。ユーザーは事前にデータを定義し、最終宛先の適切な列/フィールドにマッピングする必要があります。 同時に、企業のデータストレージ(データ参照やリレーショナルデータベースなど)は誰もが完全にアクセスできるわけではないリポジトリになっているため、リバース ETL を使用してさまざまなビジネスロールに基本データを提供する必要があります(図 3 を参照)。 図 3: リバース ETL プロセス (Kai Waehner の「リバース ETL を使用する場合とそれがアンチパターンである場合」より) リバースETLのユースケースデータ ウェアハウスをデータ パイプラインの単なる最終コンポーネントとして見るのではなく、データ ウェアハウス内のクリーンアップされ準備された情報を活用するために、リバース ETL ユーザーはコネクタを使用してデータ ウェアハウス (SAP や SASS など) を読み取ることができます。たとえば、最新のデータ チームは、すぐに使用できるリバース ETL ソリューションを使用してデータ ウェアハウスからデータを抽出し、電子メール マーケティング、顧客サポート、販売、財務モデルをサポートできます。同時に、ビジネス チームに、より深く、より効率的で、より価値のあるセルフサービスを提供することもできます。 一般的に、リバース ETL は企業が次のことを達成するのに役立ちます。
リバース ETL の購入と構築データ チームがサードパーティのリバース ETL ツールを導入すると、運用分析を迅速に実装できますが、それらを購入する必要があるのでしょうか、それとも独自のリバース ETL を構築する必要があるのでしょうか。以下では、リバース ETL プロセスとプラットフォームの設計と構築を例に挙げ、企業が意思決定を行う前に慎重に検討する必要がある 3 つの要素を示します。
まとめデータ パイプラインを作成する際に最も重く時間のかかる手順は、さまざまなソースからデータを抽出し、プロセス全体をテストすることです。その中で、各データ ソースを同期する収集プロセスには、あらゆるレベルで多くの専門知識が必要になることがよくあります。あなたとあなたのチームがこれに興味がある場合は、次のリンクを参照してください。
翻訳者について51CTO コミュニティの編集者である Julian Chen 氏は、IT プロジェクトの実装において 10 年以上の経験を持っています。社内外のリソースとリスクの管理に長けており、ネットワークと情報セキュリティの知識と経験の普及に注力しています。彼は、ブログ投稿、特別トピック、翻訳の形で最先端のテクノロジーと新しい知識を共有し続けています。彼はオンラインとオフラインで情報セキュリティのトレーニングや講義を頻繁に行っています。 原題: ETL、ELT、および逆ETL 、著者: Wayne Yaddow |
<<: 大企業が取り組んでいるコンテナ技術とは一体何でしょうか?
>>: この無料 CDN で WordPress サイトの読み込みが遅い問題を解決しましょう
「国際ファン」ファン・ビンビンは新作映画のプロモーションのためハッピーキャンプに立ち寄ったが、それで...
「ナイトエコノミー」とは、時間区分(午後6時から翌日午前6時まで)に基づく経済形態である。さまざまな...
外部リンクは、検索最適化における強力な武器です。外部リンクを増やすには、リンク交換、フォーラムプロモ...
中国の国力が強まるにつれ、大きなケーキはますます甘くなり、多国籍企業はその一切れを手に入れようと躍起...
多くのウェブマスターは、ソフトテキストマーケティングが優れた宣伝効果を持っていることを知っています。...
年末が近づいている今こそ、企業が情報に基づいた意思決定を行う準備ができるよう、今後 1 年間の業界動...
Dedipath の独立サーバー向け夏季特別オファー: 1Gbps、無制限のトラフィック、デュアルソ...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますSEO テ...
Baizong Technology(baizon)は現在、米国データセンターのCN2クラスタサーバ...
Racknerd は母の日に向けて 5 日間のプロモーションを実施し、ロサンゼルスの DC02 (M...
ServeYourSite は whitelabelitsolutions.com 傘下の VPS ...
外部リンクの数にこだわるべきか、それとも外部リンクの質に切り替えるべきでしょうか? 2 つの単純なポ...
今日、IT リーダーは、クラウドベースおよびデータ駆動型のインフラストラクチャを構築する際に、リソー...
コンテナ技術に関して言えば、2017 年は「Kubernetes の年」であると言っても過言ではあり...
UGVPS は 2017 年 11 月に米国ペンシルバニア州に設立されました。すべてのサーバーは G...