NetEase Interactive Entertainment AI Labが世界初のダンスアニメーション合成システムを発表

NetEase Interactive Entertainment AI Labが世界初のダンスアニメーション合成システムを発表

AI によるダンス合成にはさまざまな方法がありますが、実際に実装して実際の制作に使用できる成熟したシステムは初めて登場しました。 NetEase Interactive Entertainment AI Labはこのほど、SIGGRAPH 2021の公式特集トレーラーで、実際の制作環境のアプリケーション要件を満たす初のダンスアニメーション合成システムChoreoMasterを披露した。同システムは、音楽スタイルに合わせて、ジャズ、2次元、ストリートダンスなど、さまざまなタイプのダンスアニメーションを生成できる。同社は現在、NetEase 傘下の多くのゲーム プロジェクト向けに、数時間にわたる高品質なダンス動作リソースを制作しています。まずは素晴らしいデモを見てみましょう。

ダンスアニメーションは、ゲーム、映画、テレビ業界ではすでに非常に一般的です。現在、業界で制作されているダンスアニメーションのほとんどは、ハンドKやモーションキャプチャーを使用して制作されており、高品質のダンスアニメーションを制作するには、依然として多くのエネルギーと時間が必要です。このような背景から、AI合成ダンスは昨今注目の研究テーマとなっています。しかし、独立した芸術形式として、ダンスの動きと音楽はすべて、スタイル、リズム、構造の面での振り付けの専門知識を明らかにします。高品質な結果を安定的に生み出すことは容易ではありません。業界ではAI ChoreographerやDanceNet3Dなど、人気の高い研究成果が数多く発表されていますが、これらのソリューションには多かれ少なかれ制限があり、実際の商用制作アプリケーションには導入されていません。

(左からAI Choreographer、DanceNet3D、ChoreoMasterでヒップホップ音楽を入力し、その効果を比較しています)

NetEase Interactive Entertainment AI LABのR&Dチームは、2年以上にわたる熱心な研究開発を経て、ついに実際の制作環境のアプリケーション要件を満たすAIダンスアニメーション合成ソリューションChoreoMasterを発見しました。このソリューションのハイライトは、振り付けの美学に準拠し、さまざまなダンススタイルに準拠し、一貫性と自然さを備えたダンスアニメーションを迅速かつ安定的に出力できることに加えて、指定されたセグメントの置き換えや削除、ダンスの軌跡のプリセット、ダンスの範囲の制限など、ユーザーが期待する方向にダンスアニメーションを合成するようにアルゴリズムを導くさまざまな制約を柔軟にサポートしていることです。

では、ChoreoMaster はこれらすべてをどのように実現するのでしょうか? NetEase Interactive EntertainmentのAI LABの研究者たちは、実用的な生産性ツールを作成するという観点から、AIダンス合成の問題を新たな視点で検討しました。アートリソース制作ツールとして、アート関係者はダンスアニメーション合成システムに2つの期待を抱いています。まず、着地品質基準を満たすダンス動作リソースを継続的かつ安定的に出力できなければなりません。第二に、合成プロセスは、ユーザーが最も直感的な方法で目的の結果を迅速に得られるよう、十分に説明可能かつ制御可能である必要があります。

最近、NetEase Interactive Entertainment AI LABは清華大学と協力してソリューションの体系的な技術レビューを実施し、「ChoreoMaster:振り付け指向の音楽駆動型ダンス合成」という記事を執筆しました。この記事は SIGGRAPH 2021 に受理され、SIGGRAPH 2021 Technical Papers Preview Trailer に選出されました。この作品は、コンピュータアニメーションフェスティバル(CAF)でも上映されます。

研究内容の共有は以下の通りです。

既存のソリューション

学術界では「音楽ベースのダンス合成問題」に関する研究がすでに多く行われていますが、残念ながら、既存のアルゴリズムフレームワークでは上記 2 つの期待を満たすことはできません。技術的な原則の観点から見ると、現在のソリューションは、従来のグラフ最適化に基づくソリューションと深層生成モデルに基づくソリューションの 2 つの流派に分けられます。

従来のグラフ最適化に基づくソリューションは、「グラフベースのモーション合成」フレームワーク上に構築されています。アイデアは、既存のダンス動作データを多数のダンス動作クリップに分割し、ダンス動作クリップに関するモーション グラフを構築することです。グラフの各ノードはダンスの動きのクリップに対応し、グラフの各有向エッジは隣接する 2 つのノード間の遷移コストを示します。この遷移コストは、1 つのアクション セグメントが別のアクション セグメントにスムーズに続くことができるかどうかを測定します。音楽クリップとダンスアクションクリップ間の一致度に関する経験的関数を定義することにより、音楽ベースのダンスアニメーション合成の問題は、入力音楽にできるだけ一致し、内部遷移コストが最小となるアクショングラフ内のパス(ウォーク)を見つける問題に変換されます。この最適化問題は、標準の隠れマルコフモデル (HMM) を使用してモデル化でき、Viterbi アルゴリズムまたはビームサーチ アルゴリズムを使用して効率的に解決できます。このグラフ最適化フレームワークは、エレガントで完全な理論的保証を備えており、堅牢で説明可能かつ制御可能な方法でスムーズな動きを合成できます。そのため、グラフィックス分野におけるモーション合成の問題を処理するための標準的なソリューションとなっています。しかし、現在のグラフ最適化ベースの方法で生成されるダンスの動きは、プロの芸術の美的基準を満たすにはほど遠いものです。一方で、浅い人工的な特徴に基づいて定義された音楽とダンスのマッチングは、音楽とダンスの本質的な関係を真に表現することはできません。一方、たとえ各クリップが非常に美しかったとしても、完全なダンスとは、ダンスの動きのクリップのグループを単に滑らかにつなぎ合わせただけのものではありません。これらの方法で合成された結果を見たプロのアーティストは、「動きのつぎはぎ感が強い」「音楽と動きのフィット感が悪い」「振り付けの合理性に欠ける」などのフィードバックを与えます。

ディープラーニング技術の台頭以降、ディープ生成モデルは画像、音声、テキストなど多くの分野のタスクで目覚ましい成果を上げており、当然のことながら音楽ベースのダンス合成タスクにも応用されてきました。生成モデルの観点から見ると、音楽ベースのダンス合成タスクは、時系列データの古典的なクロスモーダル変換問題に属します。上記の DanceNet3D と AI Choreographer ソリューションはどちらもこの考え方に従っています。特徴抽出と表現におけるディープニューラルネットワークの強力な機能のおかげで、十分なデータと十分なトレーニングがあれば、このタイプの方法は音楽とダンスの間の深いつながりをある程度学習することができます。しかし、他の分野で直面している問題と同様に、深層生成モデルに基づく手法が実際の生産環境に実装されるまでには、まだ長い道のりがあります。まず、人工ニューラル ネットワークはよく知られたブラック ボックス モデルであり、それによって合成される結果には解釈可能性と制御可能性がほとんどありません。第二に、機械学習の観点から見ると、人工ニューラル ネットワークがデータの本質的な特性を理解する方法は、それを低次元の潜在空間に投影することです。この投影プロセスでは、高周波の動きの詳細は重要でないノイズとして扱われ、意図的に破棄されることがよくあります。これらの高周波情報の損失により、ディープ生成モデルによって合成されたダンスの動きは「鈍重」に見えやすく、時には滑らかさを保証することさえ難しく、プロの芸術の期待に応えることは困難です。最後に、高品質の 3 次元ダンス動作データの制作コストは、画像、音声、テキストなどの形式のデータよりもはるかに高く、トレーニングに使用できる高品質の音楽ダンスデータは非常に限られています。ダンス自体は比較的複雑な芸術形式であるため、現在のすべての深層生成モデルの一般化には限界があります。モデルがトレーニングデータセット外の音楽を処理する場合、有効性を保証することが難しく、奇妙な結果が出力されやすくなります。

振り付けの法則

多くの解決策を試したものの、合成結果が満足のいくものでないことが多かったため、NetEase Interactive Entertainment AI LABの研究チームはダンスアートの観点から結果を検討し始め、振り付けと呼ばれる独立した分野を体系的に研究しました。研究者たちは、振り付けの複雑な主観的経験法則からいくつかの普遍的なルールを抽出しました。プロのアーティストとの継続的な反復の中で、合成されたダンスがこれらのルールに従うことができれば、芸術の品質要件を満たし、プロの振付師からも認められることがわかりました。

これらの一般的な振り付けのルールは次のように要約できます。

スタイルは一致している必要があります。つまり、音楽とダンスの動きによって伝えられる気分や雰囲気は似ている必要があります。

リズムのマッチング、つまり音楽とダンスのリズムポイントが同期する(一般に「ビートに合わせる」と呼ばれる)必要があり、これらのリズムポイントのパターンは一般に明らかな規則性と周期性を示します。

構造は互いに反響し合う必要があります。つまり、音楽と動きの組織構造は一貫している必要があります。たとえば、繰り返される音楽セクション(詩、コーラスなど)に対応するダンス動作セクションは、一般的に繰り返され、繰り返される音楽セクションに対応するダンス動作セクションは、一般的に鏡像対称です。

ChoreoMasterソリューション

NetEase Interactive Entertainment AI LAB の研究者は、これらの振り付けルールに基づき、既存のソリューションの長所と短所を組み合わせて、新しい音楽ベースのダンス合成システムである ChoreoMaster を提案しました。このシステムは、着地基準を満たす高品質のダンス動作を、安定的かつ説明可能かつ制御可能な方法で継続的に出力できます。これは、業界初の制作対応ダンス合成ツールです。

ChoreoMaster の技術的ソリューションは上図に示されており、振り付け用の音楽とダンスの埋め込み (左) と振り付け用のダンス動作の合成 (右) の 2 つのモジュールが含まれています。その中で、音楽とダンスの埋め込みモジュールは、ディープラーニング技術を使用して、高品質の音楽/ダンスデータベースから音楽とダンスのスタイルとリズムの適合メトリックを構築し、音楽クリップとダンスクリップ間のスタイルのマッチングとリズムのマッチングを定量的に記述するために使用されます。一方、ダンスムーブメント合成モジュールは、従来のグラフ最適化フレームワークを拡張し、スタイル、リズム、構造の振り付けの法則をアクショングラフの構築と最適化の目的関数に組み込みます。以下は、これら 2 つのモジュールの簡単な紹介です。

a) 振り付けのための音楽とダンスの埋め込み

このモジュールの目標は、音楽とダンスの間のスタイルの適合とリズムの一致という 2 つの主観的な法則を、計算可能な客観的な定量的表現に変換することです。したがって、モジュール全体は、スタイルとリズムの 2 つのブランチを含むクロスモーダル埋め込みアーキテクチャであり、それぞれのモーダル空間から音楽/アクション クリップを、同じ低次元空間 (32 次元) のスタイル埋め込みと、同じ低次元空間 (8 次元) のリズム埋め込みにマッピングするために使用されます。ネットワーク構造を下図に示します。

スタイルに関しては、ChoreoMaster はまずスタイル ラベル付きの音楽データとアクション データを使用して、2 つの分類ネットワークを個別にトレーニングします。音楽分類ネットワークは、音楽タグ付けの分野における最先端の畳み込み再帰バックボーンを使用しており、これは 4 つの畳み込み層と 2 つの GRU 層で構成されています。アクション分類ネットワークは対称的な設計を採用していますが、畳み込み層をスケルトンアニメーション データでよく使用されるグラフ畳み込み層に置き換えています。 2 つのネットワークは独立してトレーニングされるため、この段階ではペアになった音楽とダンスのデータは必要ありません。 2 つのブランチが収束するようにトレーニングされた後、ChoreoMaster はペアになった音楽とダンスのデータを使用して、2 つのブランチを共同でトレーニングします。トレーニングの目標は、2 つのネットワークが、それぞれの分類精度を可能な限り維持しながら、ペアになった音楽とダンスのデータを最小の距離で特徴ベクトルにマッピングできるようにすることです。 2 段階の独立トレーニングと共同トレーニングの後、音楽とアクションのブランチの最後のレイヤーによって出力される 32 次元ベクトルが、音楽とアクションのスタイル埋め込みを構成します。 2 つのスタイル埋め込み間のユークリッド距離により、音楽と音楽、音楽とアクション、アクションとアクションの間のスタイルの適合性を定量的に測定できます。

スタイルとは異なり、音楽のリズムは音楽理論の観点から明確に定義できます。音楽を編曲するときは、等しい時間単位に編成され、その最小単位は拍子です。いわゆるリズムとは、音楽における強拍と弱拍の組み合わせパターンを指します。音楽作品における強拍と弱拍の組み合わせはランダムではなく、一定のパターンを示します。このパターンを表現する最小単位が拍子であり、同じ楽曲内の各拍子の長さも固定されています。たとえば、3/4 拍子の音楽は、四分音符が 1 拍子で、小節ごとに 3 拍子あることを意味します。 2/4、3/4、4/4 などの拍子記号は、音楽の拍子記号と呼ばれます。実際の音楽演奏では、スタッカート音符、スラー、修飾子などの記号が存在するため、小節内の拍は必ずしも拍子記号で定義された位置に厳密に現れるわけではありません。空拍や半拍などが存在する場合もあります。そのため、ChoreoMaster はリズム埋め込みをリズム署名と呼ばれる 0-1 ベクトルとして表現します。このベクトルでは、偶数ビットと奇数ビットがそれぞれ音楽の拍子記号の主拍と半拍の位置に対応し、各位置の値は、その位置に実際の楽器のリズム ポイントがあるかどうかを示します (1: 存在、0: 存在しない)。リズム記号内の連続する 0 は、楽譜のレガートに対応します。収集されたデータセットと実際のビジネスニーズは基本的に 4 ビートの音楽であるため、ChoreoMaster の現在の実装では、次の図に示すように、リズム シグネチャは 8 ビットとして定義されています。

2 つのリズム署名間の距離は、加重マンハッタン距離 (偶数ビットの場合は加重 1、奇数ビットの場合は加重 0.5) として定義できます。このように、8 ビットのリズム シグネチャは自然に低次元の埋め込みを構成します。理論的には、最大 256 種類のリズム シグネチャが存在します。しかし、専門家にデータベース内のすべての音楽とダンスのデータのペアに注釈を付けるよう依頼したところ、研究者は実際には共通のリズムシグネチャは 13 個しかないことを発見しました。したがって、リズムブランチの目標は、音楽とアクションの 2 つのブランチも含む単純な分類ネットワークを通じて達成できます。各ブランチは、特徴抽出に 2 つの畳み込み層 + 1 つの完全接続層を使用し、それを分類のために 3 つの重み共有完全接続層に送信します。スタイルブランチとは異なり、リズム情報は、音楽の強さの変化や動きの速度、加速などの情報に、より直感的に反映されます。したがって、リズム ブランチでは、音楽信号のエネルギーと開始、および動きデータ スケルトン ポイントの速度、加速度、タッチダウンなどの高レベル情報を入力として使用します。さらに、リズムシグネチャの分布は音楽/ダンスのスタイルと明らかに相関しているため(たとえば、中国の伝統舞踊のリズムシグネチャにはゼロが多く含まれ、ストリートダンスのリズムシグネチャには半拍が多く含まれています)、音楽/ダンスのスタイル埋め込み情報もリズムブランチに送信され、リズム機能と一緒に接合され、共有重みを持つ3つの完全接続分類レイヤーに送信されます。

前回の紹介から、ChoreoMaster は、他の多くのディープラーニングベースの音楽とダンスの合成フレームワークのように、音楽とダンスのクロスモーダルな関連性を構築するために統合ネットワークを使用するのではなく、スタイルとリズムを処理するために分離されたアプローチを採用していることがわかります。実用的な観点から見ると、ChoreoMaster の設計には 2 つの考慮事項があります。一方では、スタイルとリズムを切り離すことで、後続の合成アルゴリズムの解釈可能性と制御性が向上します。一方、独立したリズムブランチは、音楽理論の事前条件をより適切に統合し、ネットワークの使いやすさと一般化を向上させることもできます。

b) 振り付けのためのダンス動作の統合

システムの堅牢性、解釈可能性、制御可能性を確保するために、ChoreoMaster はダンスの動きの合成を実現するためのグラフ最適化フレームワークを選択しました。これまでのグラフ最適化スキームとは異なり、ChoreoMaster は音楽とダンスの合成シナリオにおける「グラフベースのモーション合成」フレームワークを完全に拡張し、スタイル、リズム、構造の振り付けの法則をモーション グラフの構築とグラフ最適化の目的関数に統合します。前回の記事では、グラフ最適化に基づくダンス合成の考え方について簡単に紹介しました。ここでは、ChoreoMaster の違いをリストすることに焦点を当てます。

アクショングラフの構築に関しては、次のようになります。

1) ダンスの動きはビートではなくメーターで分割されます。つまり、アクション グラフの各ノードは、完全なダンス動作メーターに対応します。これにより、合成されたダンスの動きの各メーターの内部構成の合理性が保証されます。

2) アクショングラフノード間の遷移コストを計算する際に、従来の連続性コストに加えて、32次元スタイル埋め込みによって測定されるスタイル互換性コストも導入され、合成されたダンスの動きにおける突然のスタイルジャンプを効果的に回避できます。下の図のように、動きの連続性にコストがかかるだけであれば、キュートなスタイルの動きから、セクシーなスタイルやクールなスタイルの動きに簡単に移行できます。

3) アクショングラフ内のノード数を拡張するために、左右ミラーリング(下図の左側)、上下半身融合(下図の右側)、サブセクション再編成などのいくつかのデータ拡張方法が使用されます。このうち、小節の再編成とは、「1234」と「abcd」のリズム署名が一致し、スタイルの埋め込みが非常に近く、「12」と「cd」、「ab」と「34」をスムーズに接合できることを条件として、2つの小節「1234」と「abcd」から2つの新しい小節「12cd」と「ab34」を生成することを指します。上半身と下半身の融合およびセクションの再編成によって生成されたすべての新しいデータは手動で検証されました。

最適化の目標に関しては:

1) スタイルエンベディングとリズムシグネチャ間の距離は、音楽とダンスセクション間の一致度を測定するために使用されます。これは、HMM(隠れマルコフモデル)のデータ項です。

2) アクショングラフのエッジに保存された遷移コストに基づいてHMMの遷移項を定義する

3) 音楽とダンスの構造的一貫性ルールは、繰り返しとミラーの 2 つの制約に変換され、ペナルティ項に緩和されて HMM の目的関数に統合されます。両方の制約は、内容が非常に類似した音楽小節間でのみ発生します。 2 つの音楽小節の内容が同じであることが検出された場合、2 つの小節が異なる音楽チャプター (フレーズとも呼ばれる) に属している場合は、繰り返される詩とコーラスに対応する動きも繰り返されるなど、2 つの小節に対応するダンス動作が繰り返されます。 2 つの小節が同じ音楽章に属している場合、2 つの小節に対応するダンスの動きは、左手のスローモーションと右手のスローモーションなど、互いに鏡像になっている必要があります。

最後に、スタイル、リズム、構造という3つの振り付けルールが合成結果に与える影響を直感的に感じ取るために、3セットの比較実験を実施しました。

上記は、ChoreoMaster の基本的な考え方の大まかな紹介にすぎません。実装の詳細とさらなる結果については、プロジェクトのホームページをご覧ください。

https://netease-gameai.github.io/ChoreoMaster/

<<:  Kubernetes ネットワーク障害の詳細なトレースを記録する

>>:  Oracle Fusion ERP Cloud、ガートナー社のマジック・クアドラントで5年連続リーダーに選出

推薦する

教育業界におけるクラウドコンピューティングへの道

科学技術の発展により、伝統的な教育モデルは覆されました。学習の方法や場所、学習の構造や論理など、大き...

海外ウェブサイトのおすすめ:Broadcastr ユーザーストーリーテリングウェブサイト

Broadcastr の Web サイトでは、ユーザーが自分の体験を語り、思い出に残る場所を共有でき...

ホームページがないのに、Baidu 検索エンジンからの何十万ものトラフィックはどこから来るのでしょうか?

「10日間で体重7を減らす神話を解読する」という記事を読みました。記事で言及されているウェブサイトに...

NodePacket - $4 / 256M RAM / 15G SSD / 500G

NodePacket LLC は 20013 年に設立されたホスティング会社で、VPS およびサーバ...

profitserver: ロシアの専用サーバーが 40% オフ、月額 28 ドルから、帯域幅 100M、トラフィック無制限

ロシアのサーバープロバイダーである Profitserver (2005 年設立) は現在、ロシア南...

2020 年に注目すべき Kubernetes の 5 つのトレンド

Kubernetes の採用が拡大し続ける中、IT リーダーは来年何を期待できるでしょうか?セキュリ...

クラウド バックアップ ソリューションが解決できるビジネス上の問題

大量のデータを保有することは、法的に義務付けられており、組織にとっての責任でもあります。多くの組織は...

Akamai: ネットワーク セキュリティの新たなトレンドを理解する

[51CTO.comより引用] 現在、サイバーセキュリティ市場は急速な発展期を迎えており、中国はサイ...

ByteDance 第2回インタビュー: 分散ロックを使用したことはありますか?分散ロック実装ソリューションは何ですか?分散ロックを使用する利点と欠点は何ですか?

導入ビジネス規模の継続的な拡大と技術アーキテクチャの進化により、分散システムは、高同時実行性と大量デ...

クラウドコンピューティングがDimensity Technologyの新たな事業拡大を推進

はじめに:上海天極科技有限公司は、設立から 10 年を経て、多くの企業に高品質の IT サービスを提...

VMware: フルスタック HCI による企業のデジタル変革の推進

ハイパーコンバージェンスは、わずか数年の開発期間を経て急速に普及し、シンプルな構造、容易な管理と保守...

モバイル地域生活サービスステーションが再び増加中:フォーカスメディアとジュフアサンO2O

地域生活サービスにおける新たな激しい競争が起こりつつある。現在の状況から判断すると、新たな激しい競争...

台湾VPS、台湾VPS販売業者が集められ、台湾VPSの比較と購入が簡単にできるようにまとめられています

台湾の VPS、台湾のクラウド サーバーは、国内のアクセス速度が速く、登録が不要で、中国本土の法的規...

SEO担当者として、私はGoogleが中国に戻ってくることを望んでいます

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています「グーグル...

「食通」のためのネット同盟レシピサイト独自の生存戦略

オンライン予約やオンラインフードデリバリーは、伝統的な外食産業との直接的な協力によって利益を上げてお...