著者 |盛白 業界が発展し続けるにつれて、ビッグデータと AI は徐々にクラウドネイティブの傾向を示しつつあります。複雑なビジネス シナリオとその背後にあるオープン ソースおよび自社開発のテクノロジにより、製品の運用と保守は、高度な技術的複雑さ、大規模、複数のシナリオなどの課題に直面します。 Alibaba のクラウドネイティブ ビッグデータ運用・保守プラットフォーム SREWorks には、約 10 年にわたって社内業務によって鍛えられてきたチームの SRE エンジニアリング プラクティスが蓄積されています。現在、外部に対して正式にオープンソースとなっています。 「データベースとインテリジェント」な運用と保守のコンセプトを堅持し、運用と保守業界のより多くの実務者が「デジタルインテリジェンス」のコンセプトを採用して効率的な運用と保守を実行できるように支援します。 SREWorks とは何ですか?2003 年に Google は、ソフトウェア エンジニアとシステム管理者を組み合わせた SRE (Site Reliability Engineer) という職種を提案しました。運用・保守担当者の開発能力を重視し、日常の運用・保守業務を 50% 以内に抑え、残りの 50% のエネルギーを自動化ツールの開発に使用して人手要件を削減することを要求しています。 SREWorks は、Alibaba Cloud Big Data SRE チームによる SRE コンセプトのエンジニアリング プラクティスです。アプリケーション中心のワンストップ「クラウドネイティブ」かつ「デジタル化」された運用および保守の SaaS 管理スイートに重点を置き、エンタープライズ アプリケーションとリソースの管理と運用および保守開発という 2 つのコア機能を提供して、企業がクラウドネイティブ アプリケーションとリソースの提供と運用を実現できるように支援します。 Alibaba Cloud ビッグデータ SRE チームは、当然ながらビッグデータと AI に近く、ビッグデータと AI のテクノロジーに精通しており、すぐに利用できるビッグデータと AI のコンピューティング リソースを備えています。同社は、「データベース」と「インテリジェント」な運用と保守の概念の実装に力を入れています。業界のDataOps(データベースの運用と保守)は、このチームによって初めて提案されました。 SREWorks は、標準的な運用および保守データ ウェアハウス、データ運用および保守プラットフォーム、オペレーション センターなどを含む、エンドツーエンドの DataOps クローズド ループ エンジニアリング プラクティスを備えています。 クラウドネイティブ時代の到来に伴い、Alibaba Cloud Big Data SRE チームは、運用保守エンジニアにすぐに使用できる運用保守プラットフォームを提供することを目指して、SREWorks 運用保守プラットフォームをオープンソース化しました。 2. SREWorks の利点は何ですか?運用保守分野のニーズに戻ると、上位の製品や業務形態がどのように変化しても、運用保守は本質的に「品質、コスト、効率、安全性」という関連するニーズを解決します。 SREWorks は、運用および保守 SaaS アプリケーション インターフェイスを使用して上記の要件をサポートすると同時に、「デジタル インテリジェンス」を中核として SaaS 機能を推進します。具体的には、配信、監視、管理、制御、運用、サービスの 6 つの部分が含まれます。 1. 体系的な運用保守プラットフォーム階層化アーキテクチャ「品質、コスト、効率、安全性」の観点から、運用保守の本質的な業務には、プラットフォームの構築、仕様の策定、標準の作成だけでなく、自動化の概念を使用して効率を向上させ、データを使用してテスト/開発/運用保守を推進し、インテリジェントな手段を使用してリスクの問題を事前に発見/予測する必要があります。これらは方法論として見ることができます。上記の 4 つの次元のニーズをサポートするために、理論から体系的、エンジニアリング的、製品化された機能プラクティスのセットを迅速に取得する方法は、SREWorks が検討する問題です。 Alibaba Cloud Big Data SRE チームは、階層化アプローチを使用して SREWorks プラットフォーム製品システムを構築しました。 SREWorks は、従来の SPI (SaaS/PaaS/IaaS) の 3 層分割アプローチを採用し、「運用保守 SaaS アプリケーション シナリオ層、運用保守 PaaS ミドルエンド サービス層、運用保守 IaaS アクセス層」の 3 つの部分で構成されています。 SREWorks は、運用と保守の仕様および標準化のアイデアも取り入れており、自動化されたプロセス、データ駆動型、インテリジェント コアに製品ベースの方法論を使用します。コードからオンラインビジネスサービスまでのプロセス全体において、運用と保守は多かれ少なかれ一部の作業に関わってきます。そのため、アプリケーションのライフサイクルに基づいて、SaaS シナリオ層は「配信、監視、管理、制御、運用、サービス」の 6 つの主要領域に分割されます。下図に示すように、各コンテンツには代表的なコア機能があります。 SREWorks では、アプリケーション抽象化を使用してビジネス システムを統一的に記述します。開発者が開発したアプリケーション製品をオンラインで配信した後、オンライン アプリケーション インスタンスのライフ サイクルが監視、管理、制御されます。 SREWorks の運用・保守データ機能は、付加価値の高い運用とサービスを提供し、必要な人に便利な表示と管理機能を提供します。 「配信、監視、管理、制御、運用、サービス」の 6 つの主要シナリオについては、SREWorks 製品マニュアルに詳細な定義と境界の説明があります。 2. データベースに基づく運用・保守システムの実践データベース化された運用保守システムは、あらゆるシステムの運用保守データを収集して接続し、これらのデータの価値を深く探究して、運用保守のためのデータ決定を提供します。同時に、データに基づく運用保守ビジネスモデルを構築し、そのモデルに基づいて標準化された運用保守データウェアハウスを確立し、データ運用保守プラットフォームを構築します。プラットフォームでは、運用・保守データの収集、保管、計算、分析が標準化され、上位レベルの運用・保守シナリオでの使用を目的とした一連のデータサービスが提供されます。 運用保守に関する定量的なデータにより、運用保守作業の記述と測定がより立体的になり、長期的に持続可能で最適化された運用保守作業モデルを確立して、運用保守の真の価値を実現できます。 3. サービス指向のAIOpsインテリジェント運用保守プラットフォームAlibaba Cloud Big Data SRE チームの見解では、AIOps の登場によって運用と保守の形態は変わっていません。それは依然として「配信、監視、管理、制御、運用、サービス」のインターフェースです。これは、大量の運用および保守データ作業に基づいており、AI 機能を使用してインテリジェントな運用および保守シナリオを探索およびマイニングします。そのため、AIOps エンジニアリング プラクティスの構築を開始したとき、私たちは自動運転の概念に似た「認識、意思決定、実行」のクローズド ループを作成することにこだわりました。 SREWorks は、カスタマイズされたアルゴリズムと運用・保守シナリオを組み合わせることで、相関関係を事前に予測・分析し、リスクの予防や障害の区分・特定機能を強化し、従来の手段では得られない運用・保守の価値を実現します。具体的には、各インテリジェント運用保守サービスを、認識「モニター」、意思決定「アナライザー」、実行「ストラテジスト」にパッケージ化し、ヘルス管理や変更管理などの一連のサービスから呼び出すことで、既存の運用保守シナリオを強化し、通常の手段では解決できないいくつかの問題を解決できます。 4. 運用保守プラットフォームベース、ローコード、クラウドネイティブの運用保守開発経験SREWorks スイート自体もクラウドネイティブアプリケーションであり、運用保守ミドルプラットフォームという発想で構築されています。ミドルプラットフォームに多数のPaaS運用保守サービス機能を構築し、フロントエンドでは「伝送、監視、管理、制御、運用、サービス」の6大シナリオを中心としたSaaS運用保守シナリオアプリケーションを提供します。 ほとんどのページは、クールなインタラクティブなデザインを必要としないエンタープライズ バックエンド コンソール システムです。そのため、運用保守開発分野におけるフロントエンド開発では、フロントエンドのトレンドに追いつくことが常に困難でした。これらの特性に対応して、SREWorks はサーバーレス エクスペリエンスを備えたフロントエンド開発モデルを革新的に設計しました。 なぜオープンソースなのか?Alibaba Cloud Big Data SRE チームはこれまで、数多くの技術共有セッションで「DataOps と AIOps」の機能を強調してきましたが、それらはすべて純粋に理論的な紹介でした。特に SRE の分野では、この一連の理論をエンジニアリングの実践にどのように実装できるでしょうか?運用保守要件、インターフェース、カーネルの 3 つのレイヤーの理解をどのように実装すればよいでしょうか。 データとインテリジェンスの核心ストーリーを明確にするために、Alibaba Cloud Big Data SRE チームは、障壁が低く効率の高いクラウドネイティブの運用および保守プラットフォームである SREWorks をオープンソース化しました。 彼らは、運用・保守チームがクラウド ネイティブをさらに推進する必要があると強く信じています。このようにして初めて、運用と保守はクラウド ネイティブの波の中で位置づけられるようになります。 また、チームは、SREWorks のオープンソース化により、より多くの実務者が「ビッグデータと AI」の機能を活用して運用と保守を実施し、運用と保守プラットフォームの「データ + インテリジェンス」の中核を実現できるようになることを期待しています。 報道によると、SREWorks は、MaxCompute、Flink、DataWorks、Hologres、Elasticsearch などの Alibaba Cloud コンピューティング プラットフォーム シリーズの「ビッグデータ & AI」製品によってサポートされています。オープン ソース バージョンでは、Flink、Elasticsearch のオープン ソース バージョンなど、これらの製品の対応するオープン ソース バージョンも選択されます。 4. その後の計画SREWorks プラットフォームは現在、毎月反復的な開発タスクを実行しています。その後、バージョン管理者は、関連する機能と問題の修正を統一的に保守および統合し、最新のクラウドネイティブの運用および保守機能が以降のバージョンにも引き続き含まれるようにします。 現在、SREWorks には、SREWorks のコア エンジンと見なすことができる OAM (Open Application Model) 仕様のエンジニアリング プラクティスのセットがあります。 SREWorks チームは、このエンジンを中心に、自動化、データ化、インテリジェント機能を含む一連の運用および保守ミドルオフィス サービスを構築しており、コミュニティの OAM 仕様の開発に合わせて継続的に反復していきます。 5. 最後に今日の SREWorks のオープンソース化はほんの小さな一歩であり、開発者からのフィードバックを心待ちにしています。 SREWorks はプラグイン拡張機能も備えて設計されています。 SREWorks を使用して、独自の運用および保守プラットフォームを構築できます。最後に、SRE、DataOps、AIOps、クラウドネイティブに興味がある場合は、私たちの構築に参加できます。皆様とコミュニケーションを取り、最も特徴的な SRE クラウド ネイティブ運用保守プラットフォームを一緒に構築できることを大変光栄に思います。 プロジェクトアドレス: https://github.com/alibaba/sreworks |
<<: Canalys:中国のクラウドインフラサービス市場は2021年に45%成長し、総額274億ドルに達した。
>>: K8s クラスタの安定性を向上させる方法を紹介する記事
[編集者注] この記事はIT Migrant Workerから転載したものです。この問題は、ユーザー...
最近、有名な分析機関IDCが2019年中国政府クラウドサーバーオペレーター市場シェアレポートを発表し...
私の同僚の SEO 担当者は、Baidu がユーザー エクスペリエンスを非常に重視しており、コンテン...
Industry Media は最近、2022 年のオハイオ州 CIO オブ ザ イヤー賞を受賞した...
A5 Webmaster Networkは9月10日に報じた。9月10日は中国の伝統的な教師の日であ...
Eurasia Cloud (新ブランド、設立1年、商標、ISP\ICPおよびその他の資格を完備) ...
12月20日、2023年百度クラウドインテリジェンスカンファレンスおよびインテリジェントコンピューテ...
分散型 IM インスタント メッセージング システムの本質は、オンライン チャットとユーザーの管理で...
時には、ウェブサイトのタイトルを変更しなければならないと本当に思うこともありますが、他の人が共有した...
Racknerd は 2 月末に、トラフィックの多い 3 つの VPS のプロモーションを開始しまし...
Burst の VPS クラウド 60% 割引コードが再び有効になりました。1 月 31 日まで有効...
[[322641]] Apache Kafka を使用してメッセージを生成および消費する場合、データ...
[51CTO.com からのオリジナル記事] 今日の話は、QingCloud の分散ストレージ製品で...
6月29日に「#48Hours:WLS-$19/年払い/メモリ1g/SSD30g/トラフィック2T/...
導入Kubernetes によって報告されたエラーは次のとおりです。 Failed to creat...