アリババのクラウドネイティブなビッグデータ運用・保守プラットフォームSREWorksが正式にオープンソース化

アリババのクラウドネイティブなビッグデータ運用・保守プラットフォームSREWorksが正式にオープンソース化

著者 |盛白

業界が発展し続けるにつれて、ビッグデータと AI は徐々にクラウドネイティブの傾向を示しつつあります。複雑なビジネス シナリオとその背後にあるオープン ソースおよび自社開発のテクノロジにより、製品の運用と保守は、高度な技術的複雑さ、大規模、複数のシナリオなどの課題に直面します。

Alibaba のクラウドネイティブ ビッグデータ運用・保守プラットフォーム SREWorks には、約 10 年にわたって社内業務によって鍛えられてきたチームの SRE エンジニアリング プラクティスが蓄積されています。現在、外部に対して正式にオープンソースとなっています。 「データベースとインテリジェント」な運用と保守のコンセプトを堅持し、運用と保守業界のより多くの実務者が「デジタルインテリジェンス」のコンセプトを採用して効率的な運用と保守を実行できるように支援します。

SREWorks とは何ですか?

2003 年に Google は、ソフトウェア エンジニアとシステム管理者を組み合わせた SRE (Site Reliability Engineer) という職種を提案しました。運用・保守担当者の開発能力を重視し、日常の運用・保守業務を 50% 以内に抑え、残りの 50% のエネルギーを自動化ツールの開発に使用して人手要件を削減することを要求しています。

SREWorks は、Alibaba Cloud Big Data SRE チームによる SRE コンセプトのエンジニアリング プラクティスです。アプリケーション中心のワンストップ「クラウドネイティブ」かつ「デジタル化」された運用および保守の SaaS 管理スイートに重点を置き、エンタープライズ アプリケーションとリソースの管理と運用および保守開発という 2 つのコア機能を提供して、企業がクラウドネイティブ アプリケーションとリソースの提供と運用を実現できるように支援します。

Alibaba Cloud ビッグデータ SRE チームは、当然ながらビッグデータと AI に近く、ビッグデータと AI のテクノロジーに精通しており、すぐに利用できるビッグデータと AI のコンピューティング リソースを備えています。同社は、「データベース」と「インテリジェント」な運用と保守の概念の実装に力を入れています。業界のDataOps(データベースの運用と保守)は、このチームによって初めて提案されました。 SREWorks は、標準的な運用および保守データ ウェアハウス、データ運用および保守プラットフォーム、オペレーション センターなどを含む、エンドツーエンドの DataOps クローズド ループ エンジニアリング プラクティスを備えています。

クラウドネイティブ時代の到来に伴い、Alibaba Cloud Big Data SRE チームは、運用保守エンジニアにすぐに使用できる運用保守プラットフォームを提供することを目指して、SREWorks 運用保守プラットフォームをオープンソース化しました。

2. SREWorks の利点は何ですか?

運用保守分野のニーズに戻ると、上位の製品や業務形態がどのように変化しても、運用保守は本質的に「品質、コスト、効率、安全性」という関連するニーズを解決します。 SREWorks は、運用および保守 SaaS アプリケーション インターフェイスを使用して上記の要件をサポートすると同時に、「デジタル インテリジェンス」を中核として SaaS 機能を推進します。具体的には、配信、監視、管理、制御、運用、サービスの 6 つの部分が含まれます。

1. 体系的な運用保守プラットフォーム階層化アーキテクチャ

「品質、コスト、効率、安全性」の観点から、運用保守の本質的な業務には、プラットフォームの構築、仕様の策定、標準の作成だけでなく、自動化の概念を使用して効率を向上させ、データを使用してテスト/開発/運用保守を推進し、インテリジェントな手段を使用してリスクの問題を事前に発見/予測する必要があります。これらは方法論として見ることができます。上記の 4 つの次元のニーズをサポートするために、理論から体系的、エンジニアリング的、製品化された機能プラクティスのセットを迅速に取得する方法は、SREWorks が検討する問題です。

Alibaba Cloud Big Data SRE チームは、階層化アプローチを使用して SREWorks プラットフォーム製品システムを構築しました。 SREWorks は、従来の SPI (SaaS/PaaS/IaaS) の 3 層分割アプローチを採用し、「運用保守 SaaS アプリケーション シナリオ層、運用保守 PaaS ミドルエンド サービス層、運用保守 IaaS アクセス層」の 3 つの部分で構成されています。

SREWorks は、運用と保守の仕様および標準化のアイデアも取り入れており、自動化されたプロセス、データ駆動型、インテリジェント コアに製品ベースの方法論を使用します。コードからオンラインビジネスサービスまでのプロセス全体において、運用と保守は多かれ少なかれ一部の作業に関わってきます。そのため、アプリケーションのライフサイクルに基づいて、SaaS シナリオ層は「配信、監視、管理、制御、運用、サービス」の 6 つの主要領域に分割されます。下図に示すように、各コンテンツには代表的なコア機能があります。

SREWorks では、アプリケーション抽象化を使用してビジネス システムを統一的に記述します。開発者が開発したアプリケーション製品をオンラインで配信した後、オンライン アプリケーション インスタンスのライフ サイクルが監視、管理、制御されます。 SREWorks の運用・保守データ機能は、付加価値の高い運用とサービスを提供し、必要な人に便利な表示と管理機能を提供します。

「配信、監視、管理、制御、運用、サービス」の 6 つの主要シナリオについては、SREWorks 製品マニュアルに詳細な定義と境界の説明があります。

2. データベースに基づく運用・保守システムの実践

データベース化された運用保守システムは、あらゆるシステムの運用保守データを収集して接続し、これらのデータの価値を深く探究して、運用保守のためのデータ決定を提供します。同時に、データに基づく運用保守ビジネスモデルを構築し、そのモデルに基づいて標準化された運用保守データウェアハウスを確立し、データ運用保守プラットフォームを構築します。プラットフォームでは、運用・保守データの収集、保管、計算、分析が標準化され、上位レベルの運用・保守シナリオでの使用を目的とした一連のデータサービスが提供されます。

運用保守に関する定量的なデータにより、運用保守作業の記述と測定がより立体的になり、長期的に持続可能で最適化された運用保守作業モデルを確立して、運用保守の真の価値を実現できます。

3. サービス指向のAIOpsインテリジェント運用保守プラットフォーム

Alibaba Cloud Big Data SRE チームの見解では、AIOps の登場によって運用と保守の形態は変わっていません。それは依然として「配信、監視、管理、制御、運用、サービス」のインターフェースです。これは、大量の運用および保守データ作業に基づいており、AI 機能を使用してインテリジェントな運用および保守シナリオを探索およびマイニングします。そのため、AIOps エンジニアリング プラクティスの構築を開始したとき、私たちは自動運転の概念に似た「認識、意思決定、実行」のクローズド ループを作成することにこだわりました。

SREWorks は、カスタマイズされたアルゴリズムと運用・保守シナリオを組み合わせることで、相関関係を事前に予測・分析し、リスクの予防や障害の区分・特定機能を強化し、従来の手段では得られない運用・保守の価値を実現します。具体的には、各インテリジェント運用保守サービスを、認識「モニター」、意思決定「アナライザー」、実行「ストラテジスト」にパッケージ化し、ヘルス管理や変更管理などの一連のサービスから呼び出すことで、既存の運用保守シナリオを強化し、通常の手段では解決できないいくつかの問題を解決できます。

4. 運用保守プラットフォームベース、ローコード、クラウドネイティブの運用保守開発経験

SREWorks スイート自体もクラウドネイティブアプリケーションであり、運用保守ミドルプラットフォームという発想で構築されています。ミドルプラットフォームに多数のPaaS運用保守サービス機能を構築し、フロントエンドでは「伝送、監視、管理、制御、運用、サービス」の6大シナリオを中心としたSaaS運用保守シナリオアプリケーションを提供します。

ほとんどのページは、クールなインタラクティブなデザインを必要としないエンタープライズ バックエンド コンソール システムです。そのため、運用保守開発分野​​におけるフロントエンド開発では、フロントエンドのトレンドに追いつくことが常に困難でした。これらの特性に対応して、SREWorks はサーバーレス エクスペリエンスを備えたフロントエンド開発モデルを革新的に設計しました。

なぜオープンソースなのか?

Alibaba Cloud Big Data SRE チームはこれまで、数多くの技術共有セッションで「DataOps と AIOps」の機能を強調してきましたが、それらはすべて純粋に理論的な紹介でした。特に SRE の分野では、この一連の理論をエンジニアリングの実践にどのように実装できるでしょうか?運用保守要件、インターフェース、カーネルの 3 つのレイヤーの理解をどのように実装すればよいでしょうか。

データとインテリジェンスの核心ストーリーを明確にするために、Alibaba Cloud Big Data SRE チームは、障壁が低く効率の高いクラウドネイティブの運用および保守プラットフォームである SREWorks をオープンソース化しました。

彼らは、運用・保守チームがクラウド ネイティブをさらに推進する必要があると強く信じています。このようにして初めて、運用と保守はクラウド ネイティブの波の中で位置づけられるようになります。

また、チームは、SREWorks のオープンソース化により、より多くの実務者が「ビッグデータと AI」の機能を活用して運用と保守を実施し、運用と保守プラットフォームの「データ + インテリジェンス」の中核を実現できるようになることを期待しています。

報道によると、SREWorks は、MaxCompute、Flink、DataWorks、Hologres、Elasticsearch などの Alibaba Cloud コンピューティング プラットフォーム シリーズの「ビッグデータ & AI」製品によってサポートされています。オープン ソース バージョンでは、Flink、Elasticsearch のオープン ソース バージョンなど、これらの製品の対応するオープン ソース バージョンも選択されます。

4. その後の計画

SREWorks プラットフォームは現在、毎月反復的な開発タスクを実行しています。その後、バージョン管理者は、関連する機能と問題の修正を統一的に保守および統合し、最新のクラウドネイティブの運用および保守機能が以降のバージョンにも引き続き含まれるようにします。

現在、SREWorks には、SREWorks のコア エンジンと見なすことができる OAM (Open Application Model) 仕様のエンジニアリング プラクティスのセットがあります。 SREWorks チームは、このエンジンを中心に、自動化、データ化、インテリジェント機能を含む一連の運用および保守ミドルオフィス サービスを構築しており、コミュニティの OAM 仕様の開発に合わせて継続的に反復していきます。

5. 最後に

今日の SREWorks のオープンソース化はほんの小さな一歩であり、開発者からのフィードバックを心待ちにしています。 SREWorks はプラグイン拡張機能も備えて設計されています。 SREWorks を使用して、独自の運用および保守プラットフォームを構築できます。最後に、SRE、DataOps、AIOps、クラウドネイティブに興味がある場合は、私たちの構築に参加できます。皆様とコミュニケーションを取り、最も特徴的な SRE クラウド ネイティブ運用保守プラットフォームを一緒に構築できることを大変光栄に思います。

プロジェクトアドレス: https://github.com/alibaba/sreworks

<<:  Canalys:中国のクラウドインフラサービス市場は2021年に45%成長し、総額274億ドルに達した。

>>:  K8s クラスタの安定性を向上させる方法を紹介する記事

推薦する

Alexaを通じてユーザーのニーズを分析し、ユーザーエクスペリエンスを向上させる

Baidu アルゴリズムの更新により、ユーザー エクスペリエンスの問題にますます注目が集まっています...

どちらの検索結果がより公平でしょうか?マイクロソフト、グーグルの「有料ランキング」を非難

[はじめに] Microsoft: Google に対し、「有料ランキング」の慣行をやめ、消費者が本...

陳一州氏、百度によるNuomi.comの買収について語る:O2Oトレンドの最前線に立つ

新浪科技新聞は8月23日午後、百度(138.64、-0.80、-0.57%)とNuomi.comが共...

Google、Chromeのウェブサイト検索ランキングを60日間ダウングレード

北京時間1月4日夕方のニュースで、Googleは本日、Chromeウェブサイトが自社の広告規制に違反...

ウェブサイト構築の最適化における内部要因と外部要因についての簡単な説明

ウェブサイトの最適化は、すべてのウェブサイト管理者にとって必須のコースですが、ウェブサイトの SEO...

旅行ウェブサイトのコンバージョン率を向上させるためのいくつかの重要なポイント

旅行サイトは、顧客と直接やりとりするため、インターネット企業にとって大きなプレッシャーがかかるタイプ...

香港沙田CN2: pzea-9 USD/KVM/windows/1G RAM/20G HDD/無制限トラフィック

pzea.com の香港沙田データセンター VPS 補充。すべてのマシンはセルフホストされ、CN2 ...

#台湾サーバー# serverfield-$169/E5-2407/16g メモリ/250g SSD/無制限トラフィック

serverfield は 2009 年に設立された台湾の会社 (登録番号: 66607099) で...

マイクロソフトはAIの助けを借りてWindows全体をクラウドに移行する

Microsoft は、Windows 365 を通じて、ますます多くの Windows 機能とコン...

dwidc: 湖北省 VPS - 99 元 / 16G メモリ / 8 コア / 100 ハードディスク / 10M 帯域幅 / 100g の高防御、香港 / 韓国 / 米国 VPS は月額 50 元から (CC 攻撃に対する防御)

dwidcは現在、春のハイエンドインスタンスの期間限定フラッシュセールを開催しています。湖北100G...

4年以上ブログを書いてきましたが、またやり直すことにしました

2013年10月13日から現在まで、4年5ヶ月が経ちました。過去 4 年間、私は 1 日に少なくとも...

Docker: 人々が後悔する賭け

【編集後記】Docker には利点もありますが、その裏には無理な設計も数多く存在します。この記事の目...

JVM パフォーマンスの最適化は難しいと聞きました。今日試してみました!

[[403396]] Java 開発を行う学生にとって、JVM パフォーマンス最適化は習得するのが比...

SwiftVM 128 RAM 6 USD/半年/5g SSD

swiftvm は、優れたサーバー ハードウェア、優れたデータ センター、優れた価格といった特徴を備...