消防活動の反撃戦略: クラウドネイティブ + DevOps + SRE + ITIL

消防活動の反撃戦略: クラウドネイティブ + DevOps + SRE + ITIL

序文

この共有は、次の重要なポイントから始まります。

時代: 時代の傾向と全体的な方向性を理解することによってのみ、半分の労力で 2 倍の結果を達成できます。雷軍は「飛豚説」という有名な理論を持っています。これは、風の上に立てば豚でも飛べるという理論です。これも時代の流れを掴むことの大切さを表しています。

加速:時代の動向を踏まえ、重要な技術要素を選択し、運用・保守技術サポートシステムの構築を加速します。同時に、企業の現状の特性を考慮し、現状から乖離した「空中楼閣」の構築を避けることも必要です。

テクノロジー: クラウドネイティブ時代の主要テクノロジーが、私たちの詳細な議論の焦点です。しかし、テクノロジーは私たちの目標ではありません。ビジネス上の問題や問題点を解決し、ビジネス価値をもたらすことが私たちの目標です。したがって、接続を開き、車輪の再発明を避け、クラウド ネイティブ時代の IaaS、PaaS、SaaS 機能を活用して、機能の成長を加速する必要があります。

2014 年に設立された Quwan Technology は、興味に基づくソーシャル ネットワーキングと e スポーツ事業を統合する革新的なテクノロジー企業です。同社は、Z世代の精神発達に追従し、ユーザー価値を最大化するために、多様なコースを積極的に開発しています。 TT Voice は、中国を代表する興味関心に基づくソーシャル プラットフォームであり、登録ユーザー数が 1 億人を超える当社の主力製品です。また、LPL、KPL、PELを含む6つの主要なプロeスポーツイベントの公式パートナーにもなりました。

以下の内容は当社の現在の経験に基づくものであり、他の企業やシナリオには当てはまらない可能性があります。他にご質問がございましたら、お気軽にお問い合わせください。

1. O&Mのトレンドと課題

トレンドに関して言えば、私は「VUCA」という言葉を思い浮かべます。

VUCA という用語は、世界が不確実かつ複雑になった 1990 年代の冷戦時代に初めて作られました。この3年間の変化を振り返ると、VUCAの重要性も痛感します。

VUCA時代を迎え、私たちは対策を講じる必要があります。この問題は 2 つの観点から見ることができます。1 つは「ブラック スワン」で、発生確率が低いイベントを指します。もう 1 つは「グレー サイ」で、発生確率が高いイベントを指します。

ブラックスワン(低確率のイベント)については、「適応性」という一言でまとめられます。この用語は、ダーウィンの『種の起源』における見解に由来しています。生き残ることができる種は最も強い種ではなく、環境に最も適応できる種です。不確実性や発生確率の低い出来事に直面して、私たちは適応力を構築する必要があります。適応性の本質は、迅速な反復と自己変革です。変化にはリスクが伴いますが、将来についての最も可能性の高い仮定に基づいた最小限のバージョンを通じて検証することで、組織の適応性を継続的に向上させる必要があります。

もう 1 つの側面であるグレー サイ (高確率イベント) については、グローバル化、マルチクラウド、コスト削減という 3 つの点に重点を置いた長期計画を立てることができます。

  • グローバル化:国内の株式競争は激しいが、海外市場はインフラ、ユーザー数、成長性の面で比較的ブルーオーシャンである。また、海外事業は監督の面でも比較的緩やかであり、
  • マルチクラウド: 安定性、ビジネス特性、ビジネス交渉のニーズを満たすため。
  • コスト削減: 成長が弱いため収益を増やすことは難しいため、コスト削減をさらに進めることができます。

2. 技術戦略の選択

技術戦略の選択という観点から、過去 10 年間の運用・保守分野における最も重要な技術概念のいくつかの関係と重要性について簡単に説明したいと思います。

1. 技術的コンセプト

1つ目は、ITサービスマネジメント(ITSM)の従来実践手法であるITIL(ITインフラストラクチャライブラリ)です。その目的は、プロセスを通じて IT サービスの品質を管理および制御することです。重要なのは、適切なプロセスを設計し、参加者の役割を明確に定義することです。しかし、ITIL の実装には、煩雑で非効率的なプロセス、品質が必ずしも大幅に向上しない、品質の失敗が特定の人のせいにされることが多いなどの問題もあります。

次は、弾力的にスケーラブルなアプリケーション サービスを構築および実行することを目的としたクラウド ネイティブです。重要な要素には、弾力性、スケーラビリティ、高可用性が含まれます。技術面では、コンテナ化、マイクロサービス、サービス メッシュ、不変のインフラストラクチャ、宣言型 API がクラウド ネイティブの重要な技術要素です。さらにもう 1 レベル深く掘り下げると、クラウド ネイティブの 12 の要素があります (https://12factor.net/zh_cn/)。

その後、頻繁かつ迅速なソフトウェア配信を可能にすることを目標とした DevOps が登場しました。エンドユーザーに価値を提供するために複数のチームのコラボレーションを重視しており、主要な技術要素はツールと自動化です。

最後はGoogleのSREに代表されるSRE(サイト信頼性エンジニアリング)です。 SRE は、可用性、レイテンシ、パフォーマンス、容量などの側面に重点を置き、ソフトウェア エンジニアリング手法を使用して問題を解決する方法です。 Wikipedia には、SRE のソフトウェア エンジニアリング機能に関する詳細な説明があります。簡単に言えば、問題を解決するためのコードを書く能力です。まとめると、SRE として資格のある SRE になるためには、目標と手段に関するこれらの技術的概念を理解し、習得する必要があると思います。

2. 技術アーキテクチャ

技術的なアーキテクチャに関しては、私は 2 つの観点から見ています。

1 つ目は、アプリケーションの観点です。アプリケーション アーキテクチャの中核は、アプリケーションの弾力的なスケーリングを実現することです。これは、ステートレス、BaaS (Backend as a Service)、強力なアプリケーション トラフィック管理機能という 3 つの側面を通じて実現できます。

2つ目はインフラの観点です。インフラストラクチャの中核は、リソースの弾力性を実現することであり、これは、リソースの統一された配信とスケジュール、およびマルチクラウドの相互接続という 2 つの側面を通じて実現できます。

技術アーキテクチャを構築する際には、次のようないくつかの技術的能力を備えていなければなりません。

  • DCI ネットワーク (データセンター相互接続): マルチクラウド環境での相互接続と高可用性を実現します。
  • K8S (Kubernetes): アプリケーション配信とリソーススケジューリングの標準化を実現します。 Kubernetes は、コンテナ化されたアプリケーションの管理と展開を支援するコンテナ オーケストレーション プラットフォームです。
  • Istiod: プログラミング言語に依存しないサービス ガバナンス フレームワーク。サービス検出、トラフィック管理、負荷分散などの機能を提供し、アプリケーション サービスのガバナンスをより便利かつ柔軟にします。
  • アプリケーションの可観測性: 障害の認識、場所の特定、回復機能を向上させます。アプリケーションの主要な指標とログ情報を監視することで、障害をタイムリーに発見して対処することができます。
  • ユーザー エクスペリエンスの監視: ユーザー エクスペリエンスを向上します。ユーザーの行動とフィードバックを監視することで、ユーザーのニーズと問題点を理解し、それに応じた改善をタイムリーに行うことができます。

上記の技術的機能を構築することで、弾力性、拡張性、可用性に優れた技術アーキテクチャを実現し、システム パフォーマンスとユーザー エクスペリエンスを向上させることができます。

3. 組織構造設計

テクノロジー戦略の実装においては、組織構造と行動が重要な安全策となります。下の図は、「ハイパフォーマンスチームモデル」という書籍に掲載されている組織構造設計図です。この図は過去 2 年間で非常に人気がありました。図の設計はコンウェイの法則に基づいており、認知負荷理論をさらに拡張して 4 種類のチームと 3 つのインタラクション モードを導き出しています。

コンウェイの法則は、ソフトウェア エンジニアリングに携わる人にとっては馴染みのある概念であるはずです。その中心的な考え方は、組織構造がシステム アーキテクチャを決定するというものです。逆に、特定のシステム アーキテクチャが必要な場合は、それに応じた組織構造を設計する必要があります。組織構造によってチーム間の相互作用パターンが決まり、チーム間のコミュニケーション自体にも認知負荷と呼ばれるコストがかかります。したがって、組織設計においては、コミュニケーションコストを削減し、チーム間の認知負荷を軽減するように努めるべきです。

たとえば、クラウドネイティブ時代では、オペレーティングシステム、仮想化、コンテナ化などのテクノロジーの複雑さは非常に高くなります。アプリケーション開発者がビジネス開発とソフトウェア配信を完了するために各レイヤーの技術的な詳細に精通している必要がある場合、認知負荷は非常に大きくなります。この目的のために、オペレーティング システム層、仮想化層、コンテナー層 (Kubernetes など) などの組織層が実装され、基礎となる複雑な概念が隠蔽され、認知負荷が大幅に軽減されることが実際に確認されています。

この基本的なロジックに基づいて、この本では、ビジネス フロー チーム、プラットフォーム チーム、複雑なサブシステム チーム、エンパワーメント チームという 4 種類のチームを提案しています。同時に、コラボレーション(一緒に行う)、サービス(ブラック ボックス モード)、ファシリテーション(コーチングによるエンパワーメント)という 3 つのインタラクション モードが提案されています。

これらの組織構造設計の原則とモデルを理解し、習得することで、より有能なチームメンバーになり、実際の作業におけるコミュニケーションコストを削減し、チーム間の認知負荷を軽減し、作業効率とチームコラボレーション能力を向上させることができます。

4. 行動価値ガイダンス

  • SRE の職務責任: SRE の中心的な責任は安定性の保証であり、安定性に対する主な責任者であることを強調します。さらに、SRE にはプラットフォーム製品の構築能力も求められるようになります。
  • チームワーク: 目標を達成するには、複数のチーム間の連携が必要です。チームワークの第一の優先事項は、信頼関係を確立し、その信頼に基づいて十分にコミュニケーションをとり、共通の目標を達成することです。
  • レビュー文化: レビューの目的は、人々に責任を負わせることではなく、より良い成長を達成することです。良い経験をまとめ、他のシナリオに適用する必要があります。同時に、他のプロジェクトで同じ間違いを繰り返さないように、教訓を学ぶ必要もあります。
  • 技術的卓越性: チームメンバーが技術的卓越性を追求し、個人の能力を継続的に向上させる機会を与える環境を整えます。
  • オープンな接続: 私たちは巨人の肩に立ち、クラウドベンダーと双方に利益のあるパートナーシップを確立する必要があります。このコラボレーションを通じて、さまざまな方法でチームをサポートし、力を与えることができます。私たちは将来に向けた設計に基づいて、いくつかの製品機能を共同で構築することができます。

最後に、文化は単なる壁に掛けられたスローガンではないということを強調したいと思います。それは、誰が報酬を受け、誰が昇進し、誰が解雇されるかに反映されます。本当の文化はこれらの行動に反映されます。

V. 具体的な実践方法

1. 1 つのグローバル ネットワーク: 過去 2 年間の実践で、複数の VPC 間の接続の問題に直面しました。静的ルートの設定は非常に面倒で忘れやすく、ネットワークが部分的に切断され、障害が発生する原因となります。この問題を解決するために、私たちは「One Global Network」というコンセプトを提案しました。これは、任意のノード間のイントラネット相互接続を実現し、シンプルな構成で可用性の高いインターネット ネットワークを実現するというものです。

2. 統合リソース配信、統合リソース スケジューリング、およびアプリケーション配信機能: これら 3 つの機能には、有効性の観点から見た品質、効率、コストが含まれます。当社は、標準化、体系化、自動化、インテリジェンスを通じてこれらの機能を実現します。

  • 統一されたリソース配信: CMP システムを通じてユーザー インターフェイスを統一し、独自のモデル標準の定義など、不正確な配信アクションによって発生する問題を回避します。ユーザーは、システム ディスクのサイズ、オペレーティング システム カーネル、ディスクの種類とサイズについて心配する必要はありません。
  • 統合リソース スケジューリング: リソースをプールして標準化を実現し、管理を簡素化します。オフラインおよびオンライン サービスのタイムシェアリング再利用を通じてリソースの使用率を最大化します。
  • 統合アプリケーション配信: Kubernetes ベースのイメージ配信はクラウドネイティブ アプリケーション配信の標準となり、一度ビルドすればどこでも実行できるようになりました。アプリケーション リソース プロファイルと組み合わせることで、リソース構成 (制限と要求)、レプリカの数、およびエラスティック スケーリング ポリシーが自動的に設定されます。

3. 可観測性: 指標の監視、追跡、ログ記録など、可観測性は現在注目されているトピックです。ユーザーの視点から始めて、安定性、パフォーマンス、製品の使いやすさに重点を置くことができます。市場には成熟した製品が数多く存在し、外部連携(購入)を通じて観測機能を迅速に獲得することができます。

4. 障害レビュー機能: 障害レビュー機能は組織の成長の鍵となります。技術チームにとって、健全なレビュー文化を確​​立するのは簡単ではありません。以下に、参考までに私たちの経験談を 2 つご紹介します。

  • 違法な操作によって生じた障害に対しては、一定の罰則を課すべきである。
  • 障害の責任を負うチームまたは担当者を定義する必要はありませんが、障害修正措置の責任を負うチームおよび担当者は明確に特定する必要があります。多くの場合、私たちは実際に問題を解決することに取り組むよりも、失敗の責任は誰にあるかについて議論することに多くの時間を費やします。

チームの努力を通じて、次のような成功が期待されます。

  • いつでもどこでも無制限のコンピューティング パワー: 地理的な制限なしに十分なコンピューティング リソースを迅速に提供できる機能。
  • 一度ビルドすればどこでも実行可能: アーティファクトのプロモーションを通じて、同じビルドをさまざまな環境やリージョンにデプロイします。
  • ユーザー エクスペリエンスを継続的に改善: クライアントの監視とデータ分析を通じてユーザー エクスペリエンスを継続的に最適化します。
  • 将来に向けた継続的な成長: 失敗を改善の機会と捉え、チームの能力を継続的に強化します。

VI.結論

Quwan Technologyは、具体的なビジネス実践シナリオに基づき、VUCA時代の課題と機会を組み合わせ、「クラウドネイティブ+ DevOps + SRE + ITIL」の技術コンセプトを形成し、グローバルワンネットワーク、統一リソース配信/統一リソーススケジューリング/アプリケーション配信機能、可観測性機能、障害回復機能の具体的な実践パスを明確にし、OKRと組み合わせて実装し、クラウドネイティブ時代の一連の運用および保守技術保証システムを構築しました。

劉 ヤダン

Quwan Technology 技術サポート部門責任者


  • 会社のインフラストラクチャ、SRE 保証、FinOps 財務管理、運用保守製品システムを担当します。彼は15年以上にわたりインターネットの運用・保守技術分野に深く関わっており、ゲーム、ビデオ、音声ライブ放送業界の運用・保守シナリオに精通しています。 IDC、クラウドコンピューティング、インフラストラクチャ、クラウドネイティブアプリケーションアーキテクチャ、SRE運用保守保証、データベースマルチアクティブおよび災害復旧、リソースコスト最適化、運用保守製品の計画と実装に関する深い理解と幅広い実践を持ち、運用保守チームの管理に関して豊富な経験を持っています。

<<:  2023年のパブリッククラウドデータセキュリティ状況に関する観察:企業の約40%が既存のセキュリティ対策に自信を持てていない

>>:  Terraform を使用してクラウド構築を高速化します。学びましたか?

推薦する

ワールドカップが始まります!ブランドマーケティングを行うには?マーケティングの準備はできていますか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています6月14日...

12星座のマーケティングに関する洞察についての簡単な議論

最近、映画「十二支」が公開されました。多くの大ヒット映画の登場により、旧正月シーズンはさらに盛り上が...

マイクロサービス分散アーキテクチャでログリンクトラッキングを実装するにはどうすればよいですか?

背景システムの問題をトラブルシューティングするために最も一般的に使用される方法は、システム ログを確...

.INFOドメイン名登録数上位10カ国:米国が1位

中国IDCレビューネットワークは1月29日に次のように報告した。WebHosting.infoが発表...

CKA 試験の効率性の向上: 準備完了状態のノードを正確にカウントするための実用的な戦略

Kubernetes クラスターは、マスター ノードと複数のノード ノードで構成されます。ノードはク...

クラウドコンピューティングの開発動向:「フルクラウド」

クラウドコンピューティングの開発動向には、「フルクラウドコンピューティング」、「クラウドネットワーク...

domain.com、ドメイン名5ドル/年、長年登録可能.comと.net

低価格の .com および .net ドメイン名を登録したい方へ: EIG グループ傘下の doma...

SEO 最適化とソーシャル メディア、Web サイトを「爆発的に」成長させたい場合、どちらを行うべきでしょうか?

SEO とソーシャル メディアはどちらも Web サイトのプロモーションとブランド構築に役立ちますが...

新しいサイト最適化におけるコンテンツ品質の問題を解決する方法

あらゆるウェブサイトの基礎はコンテンツです。サイトのコンテンツの基礎を確保しながら、外部リンクを掲載...

CMS: 聞いてください、これが本番環境で JVM パラメータを構成する方法です

[[413156]] JDK16 GA がリリースされてからかなり経ちますが、ほとんどの本番環境では...

デジタル変革を背景とした銀行におけるプライベートクラウドの構築に関する簡単な議論

01. 銀行におけるクラウドコンピューティングの発展の背景クラウド コンピューティングは、金融業界の...

地方病院のウェブサイトは3つの問題に注意する必要がある

インターネット時代がますます発展するにつれて、各地の病院のウェブサイトも発展しており、市場の見通しは...

コンタボはどうですか?オーストラリアのデータセンターのクラウドサーバーの簡単なレビュー

コンタボはどうですか?オーストラリアのコンタボはどうですか? contabo は最近、オーストラリア...

アトランティック - $0.99/KVM/256m メモリ/10Gssd/1T トラフィック/G ポート/3 データセンター

Atlantic、この老舗 IDC が業界の超衝撃ニュースを明かしました。KVM と SSD ハード...

#クリスマス# desivps: 年間 22 ドル、ロサンゼルス VPS、1Gbps 帯域幅、無制限トラフィック、3 回の無料 IP 変更、中国語 Windows をサポート

desivps は、クリスマスと年末のプロモーション、米国西海岸のロサンゼルス データ センター、1...