Impala をベースとした高性能データウェアハウスの構築実践: 仮想データウェアハウス

オープンソースの詳細については、以下をご覧ください。

51CTO オープンソース基本ソフトウェアコミュニティ

https://ost..com

この記事では、主に、リソースのグループ化、水平拡張、混合グループ化、タイムシェアリング多重化など、NetEase Cloud Computing NDH が Impala に実装した仮想データウェアハウス機能を紹介します。クラスターリソースを柔軟に構成し、ノードの負荷を分散し、クエリの同時実行性を向上させ、ノードリソースを最大限に活用できます。

高性能な分析データウェアハウスでは、クエリをできるだけ早く完了するための優れた実行エンジンを備えることに加え、コンピューティングリソースや IO リソースの競合など、クエリ間の相互干渉によって発生するクエリパフォーマンスの低下などの問題を回避することも必要です。前のセクションでは、Impala がリソースプールを通じてコンピューティングリソースを管理できることについて説明しました。しかし、実際に使ってみると、リソースプールだけでは不十分で、同じコンピューティングノード上で異なるリソースプールがメモリリソースを競合するなどの問題が発生することがわかりました。

1. 基本概念

「仮想データウェアハウス」は、Snowflake の「仮想ウェアハウス」に由来し、略して VW と呼ばれます。仮想データウェアハウスは、必要に応じて水平方向および垂直方向にスケールアップおよびスケールダウンできます。これは効率的なリソーススケジューリング方法であり、ストレージとコンピューティングを分離した設計アーキテクチャの下でのコンピューティングリソースの弾力的なスケーリングの非常に優れた検証ケースです。次の図に示すように、Snowflake クラスターには、それぞれ BI ユーザーと ETL ユーザーにサービスを提供する 2 つの仮想データウェアハウスがあります。 BI 仮想データウェアハウスは、レポートクエリのピークと谷に対応するために、統一された水平方向の拡張および縮小モードを採用しています。 ETL は主にコンピューティング能力に焦点を当て、仮想データウェアハウスの仕様を変更するモードを採用しています。

NDH の Impala コンポーネントにも同様の機能があります。始める前に、Impala の実際の使用に基づいた 2 つの基本概念を紹介しましょう。 1 つ目は、Impala のコミュニティバージョンにすでに存在する実行者グループです。次に、仮想データウェアハウスをサポートするために導入されたノードグループの概念があります。

実行者グループ

次の図は、CDP ドキュメント内の Impala 実行グループの概略図です。実行グループは、Impala のエラスティックスケーリングの基本単位です。ユーザーは実行グループの仕様 (XSMALL、SMALL、MEDIUM、または LARGE) を構成できます。自動スケーリングが有効になっている場合、CDP は指定された仕様に従って Impala Executor ノードの数を毎回拡大または縮小します。

実行グループは、Impala クラスターを水平方向にスケーリングする機能を提供します。ただし、これは Snowflake で説明されている仮想データウェアハウスとはまったく異なります。現在の導入では、実行グループはユーザーにとって透過的な概念です。ユーザーは、実行グループを使用して、Impala クラスターを、前述の BI や ETL などに使用されるさまざまな目的のコンピューティングユニットに分割することはできません。そのため、NDH Impala ではノードグループの概念が導入されています。

ノードグループ

NDH Impala クラスターの impalad ノードは、ノードグループと呼ばれる複数の独立したグループに分割できます。ノードグループは、エグゼキュータノードまたはコーディネーターノードのみで構成できます。

上図の Impala クラスターには 3 つのノードグループが含まれています。各ノードグループには、impalad 内に少なくとも 1 つのエグゼキュータノードが必要です。さらに、ノードグループから独立した 2 つのコーディネーターノードが存在します。独立したコーディネーターノードは、任意のノードグループ内のエグゼキュータにリクエストをルーティングできます。ノードグループ内のコーディネーターは、実行のためにこのグループ内のエグゼキューターノードにリクエストを配布することしかできません。クエリルーティングルールの違いに基づいて仮想データウェアハウスを実装する方法は 2 つあります。

2. 実装

NDH Impala は、Zookeeper アドレスに基づく静的構成ソリューションとセッションパラメータに基づく動的構成ソリューションの 2 つの仮想データウェアハウス実装をサポートしています。それぞれについて以下に説明します。

（１）静的構成

このソリューションは、異なるノードグループのコーディネーターノードを異なる Zookeeper アドレスに登録します。 Hive JDBC クライアントは、異なる Zookeeper アドレスに接続することで、さまざまなビジネスグループのコーディネーターを取得し、接続して SQL 要求を発行できます。このようにして、各ノードグループには独自の 1 つ以上のコーディネーターノードが存在し、これらのコーディネーターノードは SQL によって生成された実行プランをグループ内のエグゼキューターノードに送信して実行します。

上の図に示すクラスターには、グループ 1、グループ 2、グループ 3 の 3 つの仮想データウェアハウスがあります。これらは、同じ状態保存およびカタログ化され、同じデータウェアハウスメタデータを共有します。仮想データウェアハウス間の impalad リソースは物理的に分離されています。仮想データウェアハウスのコーディネーターノードは、グループ内のエグゼキューターノードにのみクエリを送信します。運用環境では、複数の仮想データウェアハウスを構成して、異なる種類のビジネスからのクエリ要求を受信することができます。これにより、異なるビジネスからのクエリはコンピューティングリソースの使用において互いに分離され、互いに影響を及ぼさなくなります。図では、グループ 1 はアドホッククエリに使用され、グループ 2 は BI レポートに使用され、グループ 3 は BI セルフサービスデータ取得に使用されます。マルチクラスターアプローチと比較すると、マルチ仮想ウェアハウスアプローチでは必要なリソースが少なく、より柔軟な構成が可能です。

（２）ダイナミックルーティング

このソリューションは、セッション接続にクエリオプションパラメータ request_group を追加します。 set request_group=xxx ステートメントを通じて、コーディネーターはクエリを指定されたグループに自動的にルーティングして実行します。 request_group のデフォルト値は default であり、対応する group_name のデフォルト値も default です。つまり、request_group が指定されていない場合、クエリは実行のためにデフォルトグループに送信されます。

このソリューションでは、コーディネーターノードはパブリックであり、エグゼキューターノードのみがグループ化されます。実装は、Snowflake の仮想データウェアハウスに似ています。次の図に示すように、パブリックコーディネーターは 2 人、グループは 3 つあります。デフォルトグループが存在しないため、デフォルトグループを grp1 として設定できます。パラメータを通じて動的に構成できます。 Zookeeper ベースのソリューションよりも柔軟性があります。ユーザーは必要に応じて、異なる仮想データウェアハウス間でクエリを自由に切り替えることができます。

上記の両方のソリューションが実装されました。 NDH の実稼働環境では通常、Hive JDBC を使用して Zookeeper に接続し、Impala にアクセスするため、前者の方法の方が互換性が高くなります。現在、この方法は主に仮想データウェアハウスをオンラインで展開するために使用されています。このセクションで紹介する仮想データウェアハウスの高度な機能も、主に前者を中心に展開されます。

3. 主な特徴

（１）水平展開

仮想データウェアハウス内の単一ノードグループのリソースと同時実行性がボトルネックに達した場合、グループにノードを追加するだけではクエリの同時実行性を効果的に高めることはできません。この場合、同じまたは類似の仕様を持つノードグループを仮想データウェアハウスに追加できます。新しいノードグループ内のコーディネーターの Zookeeper アドレスは、元のノードグループと同じになるように構成する必要があります。 Zookeeper でコーディネーターアドレスを選択する際の Hive JDBC のランダム性を利用することで、クエリ負荷を新しいノードグループと古いノードグループに分散できます。この方法により、クラスター内の同時クエリの数をほぼ直線的に増やすことができます。

上の図に示すように、Impala クラスターには 2 つの仮想データウェアハウスがあります。対応するノードグループは group1 と group3 であり、それらが実行する業務はビジネス BI レポートと ABTest シナリオです。 group1 が元のグループであり、3 つの impalad ノード (1 つのコーディネーターと 2 つのエグゼキューター) があるとします。新しいグループ group2 を追加します。このグループにも 3 つの impalad ノードがあり、group1 と同じ構成を使用して水平拡張を実現します。

（２）透明な拡大

NDH Impala は、各仮想データウェアハウスの負荷に応じて、仮想データウェアハウスノードグループ内の impalad ノードの数をオンラインで増減できるため、グループ間のリソースの動的なスケーリングを実現します。 Impala が提供する正常なシャットダウン方法を使用してノードグループ内の impalad プロセスをシャットダウンすると、新しいクエリ要求は impalad ノードに送信されなくなり、そのノードで実行されているクエリフラグメントが完了した後にノードがシャットダウンされます。したがって、実行中のクエリは異常終了せず、ユーザーに影響はありません。実稼働環境では、複数の仮想データウェアハウスを備えた NDH Impala クラスターは、履歴クエリパターンを分析し、グループ内の impalad ノードのシステム負荷を組み合わせることで、仮想データウェアハウス間のノード数を動的に増減し、各ノードのリソースをより有効に活用できます。

NetEase Cloud Music を例にとると、Youshu BI のセルフサービスデータ取得 (easyfetch) のクエリは通常、業務時間中に発生します。 Youshu BI レポートでは、ユーザーが作業する前に、多数のレポート結果の事前ロード操作 (レポートクエリ SQL を事前に発行し、クエリ結果をキャッシュしてレポートの表示エクスペリエンスを向上させる) が必要です。 easyfetch と BI レポートのシナリオを、同じ NDH Impala クラスター内の 2 つの仮想データウェアハウスとして構成できます。作業前に、easyfetch 仮想データウェアハウスのほとんどの impalad ノードを BI レポート仮想データウェアハウスに移動できるため、レポートの事前ロード効率が大幅に向上します。

もちろん、透過的なスケーリングは仮想データウェアハウス間にのみ適用されるわけではありません。クラウド環境では、k8s または同様のスケジューリングメカニズムを通じて、負荷のピーク時にコンテナーまたは仮想マシンのリソースを簡単に適用し、オンラインリソースにすばやく追加できます。ピーク期間が過ぎると、追加されたリソースはクラウドベンダーに解放されます。

4. 高度な機能

Impala リソースキューと比較すると、仮想データウェアハウスのノードグループ内のコーディネーターノードは、他のグループのコンピューティングリソース (エグゼキューター) を使用することはありません。リソースの分離がより徹底されるため、異なるビジネスモジュールのクエリパフォーマンスが相互に影響を与えなくなります。ただし、異なる仮想データウェアハウスに属する業務では負荷が異なる場合があり、リソースの使用率が不十分になる可能性があります。アイドルノードグループのリソース使用率を向上させるために、仮想データウェアハウス機能がさらに強化され、混合グループ化や時分割多重化などの機能が導入されました。

（１）混合グループ

混合グループ化とは、次の図に示すように、実行ノードが同時に 2 つ以上のノードグループに属することを意味します。左のサブ図は通常モードです。 NDH Impala クラスターは、BI レポートとアドホッククエリの 2 つの仮想データウェアハウスに分割されていると想定されます。アドホッククエリは明らかに時間に敏感であり、クエリは勤務時間中に集中し、クエリの同時実行性は低くなります。混合グループ化により、仮想データウェアハウスの展開モードを適切なサブグラフのモードに変換できます。

図では、n1～n2 は group1 ノードグループのコーディネーターノードであり、zookeeper パス youdata に登録されます。 Hive JDBC クライアントは、パスから任意のコーディネーターノードを取得し、それにクエリを送信します。コーディネータはクエリを解析し、分散実行プランを最適化して指定し、最終的に_{実行のために n3 n7 に送信します。 n6} n7 はグループ4 の実行ノードでもあります。グループ 4 のコーディネーターは n8 _{n9 です。これは、Zookeeper パス Ad-Hoc から入力されるクエリを受信し、分散実行プランを指定して、n6 n8 に送信します}。

（２）時分割多重

時分割多重化は、リソースの使用率を向上できるもう 1 つの高度な機能です。特定の期間にクラスターグループリソースを自動的に構成することで、特定の高負荷グループのクエリ負荷を軽減し、ユーザーエクスペリエンスを向上させることができます。

実装面では、同じコーディネーターを複数の Zookeeper アドレスに登録することをサポートし、各アドレスへの登録の有効時間を設定することもできます。上図に示すように、Ad-Hoc 仮想データウェアハウスの 2 つのコーディネーター n8 と n9 (またはそのうちの 1 つ) を、毎日午後 8 時から午前 8 時まで BI レポート仮想データウェアハウスの同じ Zookeeper アドレスに登録して、BI レポートのクエリ負荷を共有できます。

混合グループ化と比較すると、タイムシェアリング多重化機能は、同様の仕様を持つノードグループ間での使用にのみ適しており、異なるグループ間でのクエリパフォーマンスに明らかなギャップがないことが保証されます。

（３）負荷に基づくノード選択

実行ノードのコンピューティングリソースの使用が不均一になる理由は多数あります。たとえば、データの偏りにより、一部のエグゼキュータノードがデータのスキャンと処理に多くのコンピューティングリソースを消費したり、混合グループ化機能の導入により一部のノードグループに過度のノード負荷が発生したりする可能性があります。

この問題に対処するために、NDH Impala は 2 つの最適化を行いました。 1 つ目は、エグゼキュータノードの負荷に基づいてクエリの分散実行をサポートすることです。実装方法は、クエリ SQL の分散実行プランを決定する際に、エグゼキュータノードの現在使用可能なコンピューティングリソースを考慮し、使用可能なリソースが少ないエグゼキュータノードを排除することです。 2 つ目は、複数のキューがある場合に、エグゼキュータの同じキューでのクエリ要求の合計リソース使用量を制限して、エグゼキュータのリソースが特定のキューによって独占されるのを防ぐことです。

5. まとめ

このセクションでは、主に仮想データウェアハウスの概念の起源と実装を紹介し、NDH Impala の仮想データウェアハウスの探求、考え方、使用法の分析に焦点を当てます。現在、仮想データウェアハウスは、NetEase のインターネット事業と NetEase Cloud Computing の商用顧客クラスターで成功したアプリケーション事例があります。

著者は、仮想データウェアハウスが新世代の分析データウェアハウスに不可欠な機能であるべきだと考えています。複雑で多様なビジネス負荷を取り除き、実行エンジン自体の機能を最大限に活用できます。最後に、仮想データウェアハウスはクラウドネイティブの機能であり、コンピューティングリソースを柔軟に拡張できる環境ではその価値を最大化できることを指摘しておく必要があります。

オープンソースの詳細については、以下をご覧ください。

51CTO オープンソース基本ソフトウェアコミュニティ

https://ost..com.

<<: エッジコンピューティング: これがクラウドの終焉か?

>>: ビジネスデータをクラウドに移行する際の技術的な考慮事項