分散型で高可用性のメタデータ収集の原則

導入：

メタデータの収集は、メタデータ製品の中核部分です。収集効率をどのように向上させるかについては慎重な検討が必要です。主流技術の開発動向に追随しながら安定性を維持する必要があります。メタデータ製品は、初期の集中型 WEB アプリケーションシステムから、現在普及している分散型およびマイクロサービスシステムアーキテクチャへと進化してきました。元のメタデータ収集効率では、アプリケーションのニーズを満たすことができなくなりました。

[[279335]]

1. メタデータ収集の原則

メタデータを収集したい場合は、まずメタデータとは何か、メタデータはどこに保存されるのか、そしてなぜメタデータが収集されるのかを理解する必要があります。

メタデータは一般的に、データを説明するために使用されるデータとして説明されます。実際、ビジネスロジックによって直接読み取られ、書き込まれ、処理されるビジネスデータに加えて、システム全体の動作を維持するために必要なその他のすべての情報/データをメタデータと呼ぶことができます。たとえば、データベースのスキーマ、テーブル、列の情報、タスクの血縁関係、ユーザーとスクリプト/タスク間の権限マッピング関係情報などです。

ビッグデータプラットフォームを例にとると、メタデータはビッグデータプラットフォーム内のデータフローの全プロセスを通じて実行され、主にデータソースメタデータ、データ処理プロセスメタデータ、データサブジェクトライブラリメタデータ、サービス層メタデータ、アプリケーション層メタデータなどが含まれます。

データガバナンスの鍵は情報を収集することです。当然のことながら、データがなければ分析する方法はなく、プラットフォームのデータリンクを効果的に管理および改善することは不可能です。したがって、メタデータ管理プラットフォームの非常に重要な機能は情報収集です。どのような情報を収集するかは、ビジネスニーズと解決すべき対象の問題によって異なります。

メタデータを収集するには？

メタデータ収集とは、データのライフサイクル中にメタデータを取得し、メタデータを整理し、メタデータをデータベースに書き込むプロセスを指します。

異なるソースからメタデータを取得する方法も異なります。収集方法には、直接データベース接続、インターフェース、ログファイルなどの技術的手段を使用して、構造化データのデータディクショナリ、非構造化データのメタデータ情報、ビジネス指標、コード、データ処理プロセスなどのメタデータ情報を自動または手動で収集することが含まれます。収集されたメタデータは、CWM モデルに準拠した構造に整理され、リレーショナルデータベースに保存されます。

2. 分散コレクションアーキテクチャ

最近では、メタデータ管理ツールによって収集されたメタデータの適時性に対する懸念が高まっています。当社のメタデータ管理ツールは、さまざまなソースからのメタデータを管理し、定期的にデータを収集するためのさまざまな収集タスクを構成します。収集タスクを効率的に完了する方法は、メタデータ管理ツールに保存されるメタデータの適時性に影響します。当初の収集タスク戦略は、単一の収集プログラムを使用して収集タスクを連続的に実行するというものでした。この戦略では収集効率が非常に低かったです。収集効率を向上させるために、複数の収集プログラムを使用して収集タスクを同時に実行しました。

一般的なメタデータ管理ツールのアーキテクチャは、すべての機能モジュールが 1 つのアプリケーションに集中している従来の集中型 WEB アプリケーションアーキテクチャです。

3. 分散コレクションアーキテクチャの応用

ある証券会社でデータガバナンスを実施していたとき、クライアントのネットワークアーキテクチャが比較的複雑であることがわかりました。ネットワークアーキテクチャは、業務システム層、データ収集層、データストレージ層の3層に大別されます。

業務システムは、北京の業務システム A、上海の業務システム B、広州の業務システム C など、業務システム層のさまざまな地域に分散されています。各業務システムのデータベースにアクセスするには、データ収集層のプロキシ IP を介してのみアクセスできます。異なる地域のビジネスシステムプロキシの IP アドレスセグメントも異なります。データ収集層のネットワークセグメントを接続できません。データストレージ層は、データ収集層のすべてのネットワークセグメントに直接接続できます。

現在のメタデータアーキテクチャは、アプリケーションとコレクションサービスの 2 つの部分に分かれています。アプリケーションと収集プログラムの間には 1 対 1 の関係があります。このようなネットワーク状況に対応するために、メタデータ製品のアーキテクチャを調整する必要があります。

1. メタデータアプリケーションとコレクションサービスを 1 対多モードに変更します。このように、収集サービス情報 (IP、ポート) を維持 (追加、削除、変更) し、収集対象データソースを収集プログラムサービスにマッピングし、対象データソースをプライマリおよびバックアップ収集サービスで構成できる収集サービス管理モジュールが必要です。プライマリ収集サービスに障害が発生した場合、バックアップ収集サービスを通じて収集作業を継続できます。

収集サービス管理モジュールは、収集サービスの動作状況の確認、デフォルトの収集サービスの設定など、操作性と適用性を考慮する必要があります。

2. メタデータ収集タスクは並列実行に調整されます。メタデータを収集する手順は、メタデータを取得 > 一時テーブルに入力 > 正式テーブルと比較、メタデータ ID を更新、メタデータ変更情報を取得 > メタデータと変更情報を正式テーブルに入力、となります。

コレクションタスクを並列実行に調整する際の主な難しさは、メタデータストレージデータベースに一時テーブルのコピーが 1 つしかないため、一時テーブルをキャンセルする方法です。現在の収集タスクが完了し、一時テーブルがクリアされた後にのみ、次の収集タスクを実行できます。

一時テーブルの機能は次のとおりです。

メタデータ ID を更新し、新しく追加、変更、削除されたメタデータを見つけます。メタデータを収集すると、メタデータ ID としてメタデータごとにランダムな UUID が生成されます。正式テーブルと比較する場合、特定のメタデータが以前にデータベースに保存されていた場合は、メタデータの一時テーブル内の ID を正式テーブルの ID に更新する必要があります。

一時テーブルをキャンセルするには:

1. メタデータコード + メタデータタイプ + メタデータ親パスの MD5 暗号化によって生成された文字列をメタデータ ID として使用することを選択します。この方法では、メタデータ ID が固定され、公式テーブルと比較する必要がなくなります。

2. メタデータ ID を介して正式なテーブルをクエリすると、新しく追加されたメタデータと削除されたメタデータを確認できます。

メタデータのすべての属性値を MD5 で暗号化し、メタデータの属性 ID として文字列を生成します。このように、メタデータの属性 ID を比較することで、メタデータが変更されたかどうかを知ることができます。

この方法では、一時テーブルをキャンセルし、収集サービスプログラム内でメタデータを正式なテーブルデータと比較し、変更されたメタデータを取得し、メタデータレコードをデータベース内の正式なテーブルに直接書き込むことができます。メタデータ収集タスクも並行して実行できます。

データ収集層の各ネットワークセグメントに収集サービスを展開し、高同時実行のメタデータ収集を実現します。この分散収集戦略の利点は次のとおりです。

1. メタデータ収集の効率化

2. 収集タスクは並列実行できる

3. 複雑なネットワーク環境に適応できるメタデータ収集。

<<: コストと時間を節約し、効率化を図る: Amazon Aurora Serverless の包括的な分析

>>: マイクロVMはフルVMとコンテナの間のギャップを埋める