DeepMind は、RL エージェントを簡単に作成できる効率的な分散強化学習アルゴリズム フレームワーク Acme をリリースしました。

DeepMind は、RL エージェントを簡単に作成できる効率的な分散強化学習アルゴリズム フレームワーク Acme をリリースしました。

[[329133]]

DeepMind は今週、強化学習最適化フレームワーク Acme をリリースしました。これにより、AI 駆動型エージェントをさまざまな実行スケールで実行できるようになり、強化学習アルゴリズムの開発プロセスが簡素化されます。

この研究に関する技術論文を共同執筆した Acme のエンジニアと研究者によると、エージェントを作成するこのアプローチにより、より優れた並列処理が可能になるという。

強化学習は、インテリジェントエージェントが環境と対話し、独自のトレーニングデータを生成できるようにするもので、ビデオゲーム、ロボット工学、自動運転ロボットタクシーなどの分野で画期的な進歩をもたらしました。

使用されるトレーニング データの量が増加するにつれて、エージェントが環境のインスタンスと対話することで経験を急速に蓄積するシステムを設計する動機が生まれます。 DeepMind は、アルゴリズムの単一プロセス プロトタイプを分散システムに拡張するには、関連するエージェントを再実装する必要があることが多く、ここで Acme フレームワークが役立つと主張しています。

DeepMind の研究者は、「Acme は、読みやすく、効率的で、研究指向の RL アルゴリズムを構築するためのフレームワークです。本質的に、Acme は、分散エージェントを含むさまざまな実行スケールで実行できる RL エージェントを簡単に記述するために使用できるように設計されています。」と書いています。

「Acme をリリースすることで、学術界や業界の研究室で開発されたさまざまな RL アルゴリズムの結果を、機械学習コミュニティ全体でより簡単に複製および拡張可能にすることが私たちの目標です。」

Acme フレームワークの目的は何ですか?

研究者たちは、Acme フレームワークの高レベルの目標を明確に述べました。

1. 方法と結果の再現性の達成

新しいアルゴリズムの設計を簡素化する 2 つの方法

3. RLエージェントの可読性の向上

これを実現するにはどうすればよいでしょうか?

最高レベルでは、Acme は、アクター (アクション選択エージェントなど) を環境に接続するという役割を持つ、古典的な強化学習インターフェースと考えることができます。

アクターは、アクションを選択し、観察し、自己更新を実装する機能を備えたシンプルなインターフェースです。

内部的には、学習エージェントは「実行」と「学習」の 2 つの部分に分けられます。表面的には、これにより、異なるマルチエージェント間で動作部分を再利用できます。

しかし、さらに重要なのは、これにより学習プロセスを分割して並列化できる重要な境界が提供されることです。ここからスケールダウンして、環境なしで固定データセットのみを使用してバッチ RL 設定にシームレスに取り組むこともできます。

これらのさまざまな複雑さのレベルを以下に示します。

研究者らは、Acme ベースのフレームワークに加えて、Acme フレームワークを使用して作成された多数のエージェントの単一プロセスの例も公開しました。

実行/学習の境界を越えることで、プロセスの変更を最小限に抑えながら、同じエージェントを分散方式で実行できるようになります。

Acme フレームワークの最初のバージョンは、主に学生や研究者によって最も一般的に使用される単一プロセス エージェントを対象としています。

研究者らは、コントロール スイート、Atari、bsuite などの環境でこれらのエージェントをベンチマークしました。

Acme フレームワークの利点は何ですか?

Acme は、アルゴリズムやポリシーから学習者まで、さまざまな抽象化レベルでエージェントをガイドするためのコンポーネントを備え、複雑性と規模の問題に対処するための強化学習エージェントをトレーニングするための開発キットです。

そうすることで、主にトレーニング ループ、徹底的なログ記録、チェックポイント設定を通じて、アイデアを迅速に反復し、運用環境でそれらのアイデアを評価することが可能になります。

特別なタイプの Acme アクターは、実行コンポーネントと学習コンポーネントの両方 (どちらも「エージェント」と呼ばれます) で構成され、その状態の更新は学習コンポーネントのいくつかのステップによってトリガーされます。つまり、エージェントは主にアクションの選択を自身の実行コンポーネントに委任します。

Acme フレームワークでは、アクターは環境を観察し、アクションを実行し、環境にマテリアルを提供することで、環境と密接に対話します。

その後の変化を観察した後、アクターは状態を更新する機会を持ちます。これは通常、環境に応じて実行するアクションを決定するアクション選択ポリシーに関連しています。

Acme は、アクター コンポーネントと学習者コンポーネントの間に位置するデータセット モジュールを提供します。これは、DeepMind も今週リリースした Reverb と呼ばれる低レベルのストレージ システムによってサポートされています。さらに、このフレームワークは Reverb への共通インターフェースを確立し、さまざまなスタイルの前処理と観測データの継続的な集約を可能にします。

Reverb は、機械学習研究用に特別に設計された、効率的で使いやすいデータ保存および転送システムです。 Reverb は主に分散強化学習アルゴリズムの体験再生システムとして使用されますが、FIFO、LIFO、優先キューなどの複数のデータ構造表現もサポートしています。

Acme では、実行、学習、およびストレージの各コンポーネントが異なるスレッドまたはプロセスに分割されており、環境の相互作用と学習プロセスが非同期で行われ、データ生成が加速されるという 2 つの利点があります。

一方、Acme では、プロセスが特定の定義された許容範囲内にある限り、学習から実行まで、プロセスを妨げられることなく任意の速度で実行できます。たとえば、ネットワークの問題やリソース不足により、あるプロセスが別のプロセスより遅れる場合、レート リミッターは遅れているプロセスをブロックし、他のプロセスが追いつくようにします。

これらのツールとリソースに加えて、Acme には、それぞれの強化学習アルゴリズムのリファレンス実装や強力な研究ベースラインとして機能するサンプルエージェントのセットが付属しています。

「これらを提供することで、Acme が [強化学習] の再現性を向上させ、学術研究者に新しいエージェントを作成するためのシンプルな構成要素を提供してくれることを期待しています」と DeepMind の研究者は書いています。 「さらに、私たちのベースラインは、この分野の進歩を測定できる追加の指標を提供する必要があります。」

GitHub アドレス: https://github.com/deepmind/acme

論文アドレス: https://arxiv.org/pdf/2006.00979v1.pdf

<<:  RongCloud CPO の Ren Jie 氏に、リアルタイムオーディオとビデオの新しいアップグレードの背後にある製品技術戦略についてインタビューしました。

>>:  調査: IT プロフェッショナルの半数以上がハイブリッドおよびマルチクラウド アーキテクチャを好む

推薦する

業界ウェブサイトの電子メールプロモーションに関する簡単な説明

業界ウェブサイトのさまざまなプロモーション方法の中でも、電子メールによるプロモーションは欠かせない方...

企業がエッジとクラウドを採用する理由

コンピューティング戦略は数十年にわたって大きく変化しました。ますます多くの企業が AI と機械学習機...

Baidu の新しいアルゴリズムは SEO 業界に打撃を与えるつもりでしょうか?

なぜかは分かりませんが、Baiduの新しいアルゴリズムの影響で、個人のSEOブログやSEOフォーラム...

Kubernetesのアーキテクチャはとてもシンプルです

KubernetesとはKubernetes (K8s とも呼ばれる) は、コンテナ化されたアプリケ...

ZoroCloud: 新年限定 25% オフ割引、米国デュアル ISP 住宅用 IP/香港/韓国/日本/AS9929/AS4837/CN2 GIA/無制限トラフィック サーバー

zorocloudは最新の新年イベントを開催し、すべてのVPSクラウドサーバーを対象に、年間支払いで...

百度の検索結果は今日からオリジナルコンテンツを優先する

Baidu が準備を進めてきたオリジナルの Spark プロジェクトがひっそりと開始されました。検索...

ブランドイベントマーケティングの分析!

近年、トラフィックスター、ネットセレブブランド、さらにはホットスポットのライフサイクルは急速に短くな...

「知っているサイトを探して」の感想

最近暇だったので、ある疑問について考えました。つまり、ウェブサイトを探すときに、一部の人々は何を検索...

spinservers: 米国 10G 帯域幅専用サーバー、月額 89 ドルから、E3-1280v5/32gDDR4/1T NVMe

spinserversは、一貫してハイエンドかつ低価格の米国独立サーバー事業に注力しており、主に米国...

最適化されたトレーニングウェブサイトを記録する

前回と同様に、この記事には他の URL リンク、特に以前に最適化された URL リンクをあまり多く含...

ナビゲーションサイトの SEO 最適化に関するヒント: 現実とシンプルさについて簡単に説明します。

多くの草の根ウェブサイトでは、有料トラフィックを購入するために多額の広告費を費やすことはなく、大多数...

Nutanixのレポートによると、企業はマルチクラウド運用の一貫性を確保するためにハイブリッドクラウドソリューションを必要としている

Nutanix は最近、ハイブリッド クラウドを導入する際に世界中の企業が直面する主な課題と機会を分...

医療現場の戦略 百度の検索結果に意外にも出願情報が表示される

Baidu が「低品質サイトに対抗するためのアルゴリズムアップグレード」と「ハイパーリンク不正に関す...

DevOps 向け Kubernetes 管理ソフトウェア 7 選

新興のクラウドネイティブ環境では、Kubernetes が広く普及しています。コンテナをオーケストレ...

北京市衛生監督局:医療ウェブサイトに「中国」という名称をつけることは許可されない

北京時報(李秋萌記者)記者は昨日、北京市衛生監督管理研究所から、同市がインターネット上の医療・健康情...