新型コロナウイルス治療薬の開発では一秒一秒が重要です。 Alibaba の高性能コンピューティングはどのように貢献できるのでしょうか?

新型コロナウイルス治療薬の開発では一秒一秒が重要です。 Alibaba の高性能コンピューティングはどのように貢献できるのでしょうか?

[[318091]]

アリ姉の紹介:新型コロナウイルスの発生後、流行との闘いを支援するために、アリババクラウドは、高性能コンピューティング、SCCスーパーコンピューティングクラスターとCPU / GPUマシン、クラウドスーパーコンピューティング、AIテクノロジーを世界中の公的研究機関に無料で提供しています。

最近、多くの研究機関や大学がアリババクラウドのE-HPCクラウドスーパーコンピューティング上で医薬品開発に関する数値計算を実施しており、アリババクラウドスーパーコンピューティングチームは技術サポートとフォローアップを提供しています。

この記事では主に、E-HPC クラウド スーパーコンピューティングが、医薬品スクリーニング段階で R&D 担当者が多数の小分子ライブラリを迅速に同時処理するのにどのように役立つかを紹介します。同時に、グローバル健康医薬品研究開発センターのGHDDIコンピューティングパワーと結果共有オープンプラットフォーム向けのAlibaba Cloudソリューションが導入されました。

ウイルス、新薬発見、高性能コンピューティング

薬の誕生サイクルは非常に長いです。新薬の研究開発から市場投入までには少なくとも 10 年かかります。

一秒一秒が重要な感染症の状況では、時間は特に貴重です。したがって、このプロセスでは、多くの科学者が既存の薬から新型コロナウイルスを治療できる薬を見つけようとし、その後の承認や販売の膨大な手順が不要になります。

化合物の発見段階では、従来の方法では、多数の実験を通じてスクリーニングを行い、潜在的に適切な化合物を見つけていました。今日、科学者は機械を使って分子化合物と標的との相互作用をシミュレートし、それによって実験に潜在的に効果的な化合物を選別しようとしています。

このプロセスにおいて、しばしば「スーパーコンピューティング」と呼ばれる高性能コンピューティング (HPC) は、現代の医薬品研究開発に欠かせないサポートとなっています。

クラウド コンピューティングの台頭により、科学者がコンピューティング能力を獲得し、スーパーコンピューティング サービスを利用する方法が変化しました。たとえば、Alibaba Cloud の E-HPC スーパーコンピューティング製品を使用すると、科学者はクラウド上に高性能なクラスター システムを独自に構築でき、医薬品開発者のコ​​ンピューティング プラットフォームのニーズを満たすことができます。

さらに、クラウド上の計算能力は大規模かつ柔軟であり、科学者は計算能力の規模によって研究開発の速度が制限されることを心配することなく、オンデマンドでそれを購入できます。

では、ウイルス、医薬品開発、高性能コンピューティングの間には具体的にどのようなつながりがあるのでしょうか?まず、ウイルスが宿主内でどのように複製され、広がるかを説明し、薬物阻害方法の例を示し、最後に医薬品開発における高性能コンピューティングの役割について説明します。

ウイルスと医薬品の開発

ウイルスは、タバコモザイクウイルスの下の図に示すように、核酸分子 (DNA または RNA) とタンパク質で構成された非細胞形態です。ウイルスは非細胞性であり、細胞分裂によって数を増やすことができないため、宿主細胞に侵入し、宿主細胞内の代謝ツールを使用して自分自身のコピーを合成し、ウイルスの組み立てを完了します[1]。コロナウイルス (CoV) は、上記のウイルス特性を持ち、さまざまな重症度の呼吸器系、腸管系、肝臓系、神経系のさまざまな疾患を引き起こす可能性がある、高度に相同な一本鎖のポジティブ翻訳 RNA ウイルスのグループです。過去12年間に出現した2つの新しいタイプのコロナウイルス、すなわち重症急性呼吸器症候群(SARS-CoV)と中東呼吸器症候群(MERS-CoV)[2]、そして現在猛威を振るっているCOVID-19は、すべてこのウイルスグループに属します。

COVID-19 ウイルス

ウイルスタンパク質の分子構造[4]

ウイルスが宿主細胞に侵入すると、ウイルスゲノムは複製、転写(RNA ウイルスを除く)、ウイルスタンパク質合成を完了し、その後、より多くのウイルスに組み立てられます。そのライフサイクルは下の図(エンベロープを持たないウイルスの簡略図)に示されています。

ウイルスの複製プロセスを妨げる薬剤を使用すると、ウイルスによる身体へのダメージを効果的に抑制できます。たとえば、ウイルスタンパク質の合成には、3cl プロテアーゼや ProPL プロテアーゼなどのプロテアーゼの介入が必要です。プロテアーゼの機能を阻害することは、ウイルスを阻害する方法の一つです。他の物質(リガンド、薬物)によって認識または結合されるプロテアーゼ上の構造は、ターゲット(生物学的ターゲット)と呼ばれます。ウイルスプロテアーゼの適切な標的に結合できるリガンド(小分子薬)を見つけ、薬の作用によりプロテアーゼの立体構造を変化させ、その機能を変化させ、ウイルスタンパク質の合成を妨げ、ウイルスを複製できなくし、ウイルス複製を阻害する効果を達成します。 [3]

創薬と高性能コンピューティング

医薬品の開発は非常に複雑で時間のかかるプロセスであり、医薬品のスクリーニングはプロセスの初期段階における 1 つのステップにすぎません。例えば、前述のタンパク質ウイルス酵素に結合する小分子の探索は、さまざまなタイプや研究機関のリガンド(小分子)ライブラリが存在するため、現実的ではありません。リガンド(小分子)ライブラリの数は膨大であり、各リガンドライブラリに含まれるリガンドの数は数万以上にもなります。コンピュータ数値シミュレーションによるスクリーニング、異なるリガンドの結合効果のスコアリング、そして高いスコアと妥当な結合モードを持ついくつかのリガンドを実験検証のための候補薬として選択することにより、薬物研究プロセスを効果的に加速することができます。

リガンドライブラリは非常に大きいため、限られた時間内にスクリーニングを完了することも大きな課題です。たとえば、リガンドライブラリに 10,000 個の候補リガンドがあり、各リガンドの平均処理時間が 1.5 時間の場合、合計 15,000 時間 (625 日) が必要になります。したがって、指定された時間内に計算を完了するには、次の条件が必要です。

  • 強力なコンピューティング機能を備えたコンピューティング プラットフォーム。
  • 処理データや計算結果を保存するための大容量ストレージ。

さらに、スクリーニング計算が効率的かつスムーズに完了できるようにするには、次のようなコンピューティング サービスも必要です。

  • マルチマシン環境でのソフトウェア操作とデータ アクセスを保証するクラスタ ソフトウェア操作環境。
  • 複数マシン環境で複数のタスクの同時処理をサポートできる並列ソリューション。

コンピューティング プラットフォームに加えて、薬物スクリーニングには高性能なアプリケーション ソフトウェアも必要です。薬物スクリーニングシミュレーション計算には、ドッキングと分子動力学計算が含まれます。ドッキングは比較的時間がかからず、多数のリガンドの予備スクリーニングによく使用されます。主なソフトウェアには、dock6、Autodock Vina、Glide などがあります。分子動力学シミュレーションの計算は比較的時間がかかり、テストアクションの時間変化はドッキングの予備結果をさらに分析するために使用されます。主なソフトウェアには、Gromacs、Namd、Amberなどがあります。GPGPU の加速効果は一般的に顕著です。

E-HPC ハイスループット薬物スクリーニングソリューション

医薬品の開発には、強力な計算能力を備えた高性能クラスターが必要です。これらのコンピューティング リソースとサービスをどのように入手すればよいでしょうか?

クラウド コンピューティングの台頭により、クラウドからコンピューティング サーバー サービスを取得することが新しい方法になりました。同時に、アリババクラウドは、クラウドスーパーコンピューティング製品E-HPC(Elastic High Performance Computing)、クラスター共有ファイルシステムNAS / CPFS、データベースなど、さまざまな製品サービスを提供しています。その中でも、E-HPCクラウドスーパーコンピューティング製品により、ユーザーはクラウド上で独自の高性能クラスターシステムを構築し、高性能サーバーと大容量ストレージを構成し、ソフトウェアマルチノード操作と高スループットタスク処理ソリューションを提供し、医薬品開発者のコ​​ンピューティングプラットフォームのニーズに直接応えることができます。

E-HPC クラウド スーパーコンピューティング

Alibaba Cloud E-HPC クラウド スーパーコンピューティング製品は、Alibaba Cloud のコンピューティング製品 (ECS/EGS/ベアメタル サーバー/スーパーコンピューティング クラスター)、ネットワーク (VPC/RoCE)、ストレージ (NAS/OSS/CPFS) を統合し、高性能コンピューティングのジョブ管理とアカウント管理を構成し、一般的に使用される HPC アプリケーション ソフトウェアを統合したクラウドネイティブの高性能コンピューティング クラスター ソリューションです。これにより、ユーザーはページ上で操作し、独自の高性能コンピューティング クラスターを取得し、ルート権限を持ち、クラスターを管理および構成できます。

Alibaba Cloud は機能に加えて、パフォーマンスの面でもさまざまなコンピューティング インスタンス タイプを提供しており、さまざまなコンピューティング機能 (1vCPU、2vCPU、4vCPU...104vCPU)、異なるメモリ比率 (1vCPU:2GB、1vCPU:4GB、1vCPU:8GB) を提供したり、GPU または FPGA アクセラレーション カードを搭載したりすることができます。 CPUの種類は、ほとんどがIntelの最新アーキテクチャです。その中で、Elastic Bare Metal Server(ECS BareMetal Instance)は、Alibaba Cloudが独自に開発した次世代仮想化技術に基づいて構築された新しいコンピューティングサーバー製品です。仮想マシンの弾力性と物理マシンのパフォーマンスおよび機能特性の両方を備え、マシン全体のコンピューティング パフォーマンスを最大限に引き出します。ベアメタル サーバーには、RMDA をサポートする RoCE 高速ネットワークが搭載されており、大規模で高同時実行のアプリケーション シナリオに対応するスーパーコンピューティング クラスター SCC (SuperComputing Cluster) 製品になります。

E-HPC 高スループットタスクソリューション

高性能コンピューティング環境は、基本的なコンピューティング プラットフォームを提供します。効率的な薬物スクリーニングを実現するには、ハイスループットのタスクソリューションも必要です。

例えば、DOCK6 を使用してリガンド (小分子) ライブラリを処理するドッキングの場合、mol2 などのフォルダーに多数の小分子ファイルが格納されます。各小分子の処理フローは同じであり、すべて同じ受容体(ウイルスプロテアーゼなど)を使用して計算する必要があります。

シリアル処理を使用する場合、コードは以下のようになります。このうち、dock.inはDOCK6コマンドの入力ファイルであり、小分子ファイル名に応じて対応するパラメータ値を変更する必要があります。このコードは、mol2 フォルダー内の各分子ファイルを反復処理し、各ファイルに対応する dock.in 入力ファイルを生成してから、処理のために dock6 コマンドを実行します。

  1. molinmol2/* ですする
  2. molin_name=`ベース名 $molin`
  3.  
  4. CPドック。 $molin_name.dock 
  5. sed -ie "/^ligand_atom_file/cligand_atom_file $molin" $molin_name.dock。 
  6. sed -ie "/^ligand_outfile_prefix/cligand_outfile_prefix $molin_name" $molin_name.dock。 
  7.  
  8. dock6 -i $molin_name.dock. -o $molin_name.dock 
  9. 終わり

シリアル実行には長い時間がかかり、高性能クラスターの計算能力を活用できません。クラスター上でマルチノードおよびマルチコアの同時処理による高速処理を実現するにはどうすればよいでしょうか?これを実現するには、mol2 フォルダーを手動で複数のサブフォルダーに分割し、各フォルダーに少数の小さな分子ファイルを格納してから、各サブファイルを順番に実行するなど、さまざまな方法があります。この方法では、特にタスクにエラーがあり、調整して再送信する必要がある場合に、手動による介入があまりにも多く必要になり、再計算や省略につながる可能性があります。

  • E-HPCの高スループットタスクの定義と起動

E-HPC は、高スループットのミッション ソリューションを提供します。この場合、3 つのステップで多数の小分子ファイルの同時処理を実現できます。

1. mol2 ファイルの下にある分子ファイル名を molin などのファイルに保存します。

  1. $ ls mol2/* > モリン

2. 単一の小分子ファイルを処理するためのスクリプト task.sh を作成します。小分子ファイル名は $molin に置き換えられます。シリアルロジックを比較すると、for ループ内の処理コードが直接コピーされていることがわかります。

  1. molin_name=`ベース名 $molin`
  2.  
  3. CPドック。 $molin_name.dock 
  4. sed -ie "/^ligand_atom_file/cligand_atom_file $molin" $molin_name.dock. 
  5. sed -ie "/^ligand_outfile_prefix/cligand_outfile_prefix $molin_name" $molin_name.dock。 
  6.  
  7. dock6 -i $molin_name.dock. -o $molin_name.dock 

3. E-HPC高スループットタスク処理コマンドehpcarrを使用してtask.shを送信し実行すると、ジョブ番号2[].managerが返されます。この時点で、タスクは 96 個の CPU コアを使用して同時に処理されています。ノード上の CPU コア数が 96 未満の場合、複数のノードに自動的に分散されます。たとえば、12 個の CPU コアを持つインスタンスを使用すると、すべての分子処理タスクは 8 つのノードで実行されます。

  1. $ ehpcarr submit -w 96 ./task.sh molin
  2. 2[].マネージャー
  • E-HPC 高スループットタスクステータスクエリ

ehpcarr コマンドを使用して、ジョブ番号に基づいてタスクの同時実行ステータスを照会します。クエリ結果には、完了 (DONE)、実行中 (RUNNING)、失敗 (FAILED)、キュー (INIT) などの各タスクの現在の処理ステータスと、各タスクの処理期限が表示されます。タスク実行時間を使用して、次回使用するコンピューティング リソースを推定できます。

クエリ結果から、次のことがわかります。

  • E-HPC ジョブ スケジューラは、薬物スクリーニング処理用に 8 つのノードを開始しました。
  • 異なるタスクは異なるコンピューティング ノードに割り当てられます (タスク 0 は compute001 に割り当てられ、タスク 10520 は compute008 に割り当てられます)。
  • 同じノードに異なる同時タスクがあります (compute001 では 0 と 111 の両方が同時に処理されます)。

  1. $ ehpcarrステータス2[].manager

E-HPC ソリューションは、高性能クラスター ジョブ スケジューラのアレイ ジョブに基づいており、次の機能が強化されています。

  • 同時実行タスクの数を制限して、1 つのタスクまたは 1 つのジョブによってクラスター内に多数のキュージョブが発生し、他のクラスター ユーザーのジョブの操作に影響が及ぶのを防ぎます。
  • タスクの動的なスケジューリングを実現し、コンピューティング リソースを最大限に活用できます。

GHDDIオープンシェアリングプラットフォーム

コロナウイルスのパンデミックの間、リソースと研究結果を共有することで、研究者の進歩を大幅に加速し、作業の重複を避けることができます。

グローバルヘルスドラッグディスカバリーインスティテュート(GHDDI)は、ビル&メリンダ・ゲイツ財団、清華大学、北京市政府が共同で設立し、構築した、独立運営の非営利の新薬研究開発機関です。

GHDDI は Alibaba Cloud 上にオープンな共有プラットフォームを構築し、E-HPC を使用して医薬品研究開発におけるシミュレーション計算用の高性能コンピューティング クラスターを構築しました。また、パートナーがコンピューティング リソースを共有するためのさまざまなクラウド スーパーコンピュータ アカウントも作成します。

同時に、E-HPCクラウドスーパーコンピューティングクラスター上の計算結果を共有・公開するために、Alibaba Cloudのオブジェクトストレージ製品OSSをE-HPCスーパーコンピューティングクラスターに直接マウントし、公開する結果をOSS上に配置します。さらに、クラウド上に新たなECSコンピューティングサーバーを作成し、Webサーバーを構築し[4]、OSSアクセスリンクをWebサーバー上に配置して、誰でも閲覧・ダウンロードできるようにしています。

要約する

医薬品の開発には、強力な計算能力を備えた高性能コンピューティング クラスターが必要です。たとえば、薬物スクリーニングには、多数の小分子のドッキング処理が必要です。

科学者は、Alibaba Cloud の E-HPC スーパーコンピューティング製品を使用して、クラウド上に高性能クラスターを迅速に構築し、コンピューティング能力のニーズを満たす高性能コンピューティングインスタンスを取得できます。

同時に、E-HPC は高スループットのタスク処理ソリューションを提供し、薬物スクリーニングを複数のコンピューティング ノードと複数のコアで同時に処理できるようにして、全体的なタスク実行時間を短縮します。また、E-HPCはクラウドネイティブなスーパーコンピューティング製品であるため、オブジェクトストレージOSSなどの他のクラウド製品と接続して、コンピューティングおよび情報公開プラットフォームを簡単かつ迅速に構築できます。

<<:  オペレーティング システムのプロセス スケジューリング アルゴリズム (CPU 仮想化)

>>:  適切なKubernetesディストリビューションを選択する方法

推薦する

OpenVirtuals - 256M メモリ/512M VSWAP//5gSSD/年間 24 ドルの支払い

OpenVirtuals は 2016 年に設立されましたが、自社の機器を運用および管理しています。...

ウェブサイトの最適化中に、ウェブサイトのどの要素に特に注意を払うべきでしょうか?

ウェブサイトの最適化中に、ウェブサイトのどの要素にもっと注意を払う必要がありますか? SEO最適化ワ...

ウェブサイトのトラフィックを増やすYoudaoが高品質のトラフィックを獲得するための最新の方法を共有

ウェブサイトにとって、トラフィックはウェブサイトの血液です。トラフィックがなければ、それは死んだウェ...

コロナウイルスはクラウドサービスの導入にどのような影響を与えましたか?

MariaDB の調査によると、世界中の IT プロフェッショナルの 99% が、COVID-19 ...

ネットワーク最適化: 競合他社を上回ることよりも、自らを上回ることの方が重要

2012 年 6 月と 7 月は、Baidu の最適化に取り組んでいた国内のウェブマスターにとって暗...

315 ブラックリストはここにあります!

みなさん、もう遅いですよ。 315ガラのライブ放送を見たばかりですホットなブラックリストはこちら今年...

arkecxはどうですか? arkecxのスペインデータセンターのクラウドサーバーの簡単なレビュー

arkecxのデータセンターは現在、世界24の国と地域に設置されており、将来的にはヨーロッパのスペイ...

モバイルエッジコンピューティングは爆発的な成長を遂げると予想されている

モバイル エッジ コンピューティングを使用することの最も重要な意味は、効率的なデータ処理とタイムリー...

新しいインフラストラクチャにおけるクラウドとオープンソース、知りたいことはすべてここにあります

疫病のブラックスワンは私たちに前例のない影響をもたらしました。人々の生産と生活のパターンを変える!オ...

ZooKeeper 分散ロック キュレーター ソース コード 1: 再入可能ロック

序文一般的な作業でよく使用される分散ロックは、Redis と ZooKeeper に基づいています。...

ザックはリン・シゲのゲストとしてSEOに関する質問に答えました

中国語 SEO の分野では、Zac の名前は非常に優れているため、彼を紹介するのにこれ以上言葉を無駄...

MyServerPlanet - $6.47/KVM/ロサンゼルス/4G メモリ/4 コア/50G ハードディスク/2IP/3T トラフィック

MyServerPlanet (設立年、Hostcat に 8 回登場、登録会社、会社番号 0915...

LoveVps - 600M メモリ/KVM/25G ハードディスク/2 データセンター/月額 6.99 USD

Lovevps は 2010 年に設立された企業です。現在は XEN KVM ベースの VPS とサ...

エッジコンピューティングが商用 IoT ソリューションの構築にもたらす意味

ガートナーによると、2023年末までに、大企業の50%以上がIoT向けにインストールされた少なくとも...

U-Mail はどのようにして電子メール マーケティングを自動化するのでしょうか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています多くの企業...