AWS上海AI研究所が開発したDGLグラフニューラルネットワークフレームワークがAmazon SageMakerでリリースされました

AWS上海AI研究所が開発したDGLグラフニューラルネットワークフレームワークがAmazon SageMakerでリリースされました

 

ディープラーニングは近年、自由形式のテキスト、画像、ビデオなどの複雑なデータから複雑なパターンを抽出できる驚異的な能力により、世界中で大きな注目を集めています。ただし、多くのデータセットはこれらのカテゴリに当てはまらず、グラフやネットワークで表現する方が適切です。当然のことながら、畳み込みニューラル ネットワークや再帰型ニューラル ネットワークなどの従来のニューラル ネットワーク アーキテクチャはこのようなデータセットには適しておらず、新しいアプローチが必要であることがわかります。

グラフニューラルネットワーク入門

グラフ ニューラル ネットワーク (GNN) は、今日の機械学習における最もエキサイティングな進歩の 1 つであり、次の参考論文は始めるのに役立ちます。

GNN は、次のデータセットの予測モデルをトレーニングするために使用されます。

ソーシャルネットワークは、グラフを使用して関連する人々のつながりを示し、

顧客とアイテムの相互作用を示すグラフを備えたレコメンデーションシステム、

化学分析では、化合物は原子と結合の図として表されます。

ネットワークセキュリティ、送信元と宛先のIPアドレス間の接続を説明する図、

その他にも多数あります!

ほとんどの場合、これらのデータセットは非常に大きく、ラベルが付けられているのはそのうちのごく一部だけです。たとえば、不正行為検出のシナリオでは、特定のユーザーと既知の不正行為者との関係を分析して、彼らが不正行為に関与している可能性を予測します。この問題は、グラフ ノードのごく一部にのみラベル (「詐欺師」または「正当」) が付けられる半教師あり学習タスクとして定式化できます。このようなソリューションは、従来の機械学習アルゴリズムで使用するために、手動でラベル付けされた大規模なデータセットを構築し、それを「線形化」する作業よりも優れたパフォーマンスを発揮します。

これらの問題を解決するには、ドメイン知識 (小売、金融、化学など)、コンピューター サイエンスの知識 (Python、ディープラーニング、オープン ソース ツール)、インフラストラクチャの知識 (トレーニング、展開、モデルのスケーリング) が必要です。しかし、これらすべてのスキルを備えた人はほとんどいないため、DGL グラフニューラルフレームワークや Amazon SageMaker などのツールが必要になります。

DGL グラフ ニューラル フレームワークの紹介

DGL グラフ ニューラル フレームワークは、2018 年 12 月に Github でリリースされました。これは、研究者、データ サイエンティスト、科学者がデータセット上でグラフ ニューラル ネットワークを迅速に構築、トレーニング、評価するのに役立つオープン ソースの Python フレームワークです。


DGL は、PyTorch や Apache MXNet などの一般的なディープラーニング フレームワーク上に構築されています。これらのうち 1 つまたは 2 つ知っていれば、便利であることがわかります。私たちは TensorFlow ファンのことを忘れていません。DGL の次のマイナー バージョンでは TensorFlow の予備サポートが追加され、次のメジャー バージョンでは完全なサポートが期待されています。

どのフレームワークを使用する場合でも、初心者向けの例を使用すれば簡単に始めることができます。また、GTC 2019 ワークショップのスライドとコードも非常に役立ちました。

簡単な例を完了したら、DGL に実装されているさまざまな最先端モデルの探索を開始できます。たとえば、グラフ畳み込みネットワーク (GCN) と CORA データセットを使用してドキュメント分類モデルをトレーニングできます。

  1. $ python3 train.py --dataset cora --gpu 0 --self-loop

すべてのモデルのコードを検査および調整できます。 AWS チームはこれらの実装を慎重に検証し、パフォーマンスを確認し、結果が再現できることを確認しました。

DGL には、簡単にダウンロードして実験できるグラフ データセットのコレクションも含まれています。

もちろん、DGL をローカルにインストールして実行することもできますが、エクスペリエンスをよりシンプルでスムーズにするために、PyTorch および Apache MXNet ディープラーニング コンテナに追加しました。これにより、Amazon SageMaker で DGL を簡単に使用できるようになり、個々のサーバーを管理することなく、モデルの大規模なトレーニングとデプロイが容易になります。

WuXi AppTec は、世界的な医薬品および医療機器サービス企業です。新薬の開発は複雑で費用がかかり、長いプロセスであり、通常は26億ドルの費用がかかり、平均12年かかります。このプロセスをスピードアップするために、WuXi AppTec のコンピューター支援医薬品設計 (CADD) チームは、候補となる薬物分子の薬物特性を予測するニューラル ネットワーク モデルを調査してきました。従来の方法を使用すると、科学者はモデルの構築と検証、およびそれを適用するために必要なコンピューティング リソースの設定に数週間、場合によっては数か月を費やします。 DGL と Amazon SageMaker は、科学者に薬物特性予測モデルを迅速に展開するソリューションを提供し、モデリング時間を 5 分の 1 に短縮して、医薬品開発プロセスを加速します。

Bio-Techne は、世界中の研究者や臨床医にサービスを提供するグローバルなライフサイエンスおよび診断会社です。同社の製品ポートフォリオには、500,000 を超える高品質の試薬、機器、臨床管理、組織および液体生検診断テストが含まれています。幅広い顧客に対して、効率的かつ有意義な方法で製品を整理し、推奨することが重要になります。 Bio-Techne Data Labs は、現在の推奨アルゴリズムを改善するために、AWS と連携してグラフニューラルネットワーク (GNN) の使用を積極的にテストしています。 DGL はシンプルで使いやすい API を通じて実装を簡素化し、開発時間を数か月から数週間に短縮します。 BioTechne の評価結果によると、DGL を使用して実装された GNN ベースの推奨モデルによる上位 10 件の推奨は、非 GNN モデルの推奨よりも 70% 正確です。 Bio-Techne は今後もこれらのモデルを最適化し、DGL と Amazon SageMaker を使用して推奨アルゴリズムを正式に導入していきます。

DGL の開発は、2018 年末に設立された AWS 上海人工知能研究所によって推進され、米国パロアルトの MXNet 科学チームとの緊密な協力により完了しました。

<<:  最適なパフォーマンスを得るために Tomcat と JVM のパラメータを調整するにはどうすればよいでしょうか?

>>:  AWS が AWS Wavelength を開始

推薦する

「百度重量」の不正行為を見分ける方法

いわゆる「百度重み」とは、ウェブサイトにトラフィックをもたらすと予想されるウェブサイトのキーワードラ...

ウェブマスターネットワークニュース:JD.comが再びSina Weiboを放棄、Pacific Direct Purchaseが崩壊

1. 菜鳥の最新動向:アリババの物流事業を統合昨日(9月3日)、Cainiao Networkは最初...

アリババの音声AIが「世界の画期的技術トップ10」に選ばれ、中国企業もリスト入り!

2月28日、アリババの音声AI技術がMITの2019年「世界トップ10の画期的技術」の1つに選ばれま...

百度が2015年の年間検索ランキングを発表

本日、百度は2015年百度沸点ホット検索リストを正式に発表しました。この最終リストは、1年間の検索行...

コンテンツマーケティングのための優れたアイデアの最終保存

この記事はコンテンツ マーケティングに当てはまります。ビジネスマンであれば、将来のためにベスト ピッ...

Douban CEO ヤン・ボー: テクノロジーはニーズを解決し、多目的ネットワークを構築する

Abei は楊波(Weibo)の Douban でのオンライン ニックネームであり、Douban の...

入札をより完璧にするために除外キーワードの役割を無視しないでください

多くの医療業界はSEOの役割を特に重視していないと思います。結局のところ、Baidu K-stati...

テストレポート RadonDB 分散データベース: パブリック クラウド検証からエンタープライズ データ センター アプリケーションまで

ここ2年ほどで、AWSやAzureなど国内外のパブリッククラウド大手が相次いで自社開発のデータベース...

Baidu K-ed ウェブサイトを回復するためのクレイジーな方法の分析

6月28日以来、SEOコミュニティで最も議論されているトピックは、禁止されたウェブサイトを復元する方...

ウェブサイトの魂 - サーバー

「外部リンクが王様、コンテンツは二の次​​」「今や検索エンジンが最も重視するのはユーザーエクスペリエ...

クラウドコストを最適化する10の方法

データストレージ設備は大きな進歩を遂げてきました。進化するにつれて、磁気ドラム、テープ、ハードドライ...

検索エンジンに優しくないウェブサイトの特徴を数える。あなたもそうでしょうか?(パート2)

SEO を行う際、私たちは特定のルールを持つ検索エンジンと対峙します。ウェブサイトが検索エンジンに優...

SEO は速くて良いものです。速い SEO と良い SEO のどちらか一方を達成することは不可能です。どちらを望みますか?

昨日(6月13日)の午後、友人がQQのURLを送ってきて、なぜこのウェブサイトが上位にランクされてい...

「不良少年」頼林鋒:玉林木峰フォーラムから115クラウドディスクへ

115 Technology Co., Ltd. 会長兼 CEO の Lai Linfeng 氏 (...