アリババクラウドの新たなAIのブレークスルー:AIレジ係が人間よりも速く正確に勤務

アリババクラウドの新たなAIのブレークスルー:AIレジ係が人間よりも速く正確に勤務

[[230167]]

「チョコレート5杯、バニララテ2杯、チョコレートとクリーム。」

「ミディアムサイズのキャラメルラテ2杯、1杯はホット、もう1杯はコールド。」

「忘れてください。チョコレートはいらないんです。」

「氷少なめのスモールモカをあと6杯、キャラメル入りが3杯、バニラ入りが3杯。」

「そして、冷たいラテのラージサイズ、氷なし、砂糖半分、スキムミルクを持ち帰ります。」

Yan Zhijie は、1 秒あたり最大 5 語の速度で機械に命令を出しました。マシンは会話に正確に反応したが、待機していた経験豊富なバリスタは「早すぎて覚えられない」と言い、途中で諦めてしまった。

これは5月23日の雲奇会議武漢サミットで起こった。ヤン・ジージエ氏はアリババ機械知能技術研究所の音声インタラクションの上級科学者である。ヤン・ジージエ氏の2度目の話を聞いた後、人間のバリスタは2分37秒で注文を完了したが、機械はわずか49秒しかかからなかった。

「今日、私たちは機械が人間の話し言葉を理解する能力を新たなレベルに引き上げました」とヤン・ジージエ氏は語った。このインタラクション方法は、「音声ウェイクアップ + 音声コマンド」という従来の命令型インタラクション方法を完全に打ち破ります。当社の先駆的なストリーミング マルチインテント音声言語理解エンジンは、人間の日常的で自然な話し言葉の理解を大幅に向上させ、ウェイクアップなしで自然な人間とコンピューターのコミュニケーション スタイルの音声対話を実現できます。

上記の注文プロセスには、注文の変更、削除、追加などの複数回のダイアログが含まれます。コミュニケーションプロセス全体を通じて、顧客は「こんにちは、注文機」などの退屈なウェイクアップの言葉を言う必要がなく、直接注文することができ、これは人々の間の自然な会話にさらに沿っています。

Yan Zhijie 氏によると、これらのモジュールは単純にカスケード接続されるのではなく、公共の場の強い騒音環境での信号処理と音声認識、ビデオ認識と顔認識、シーン認識、その他のマルチモーダル融合知覚インテリジェンスを含む、深く統合されてマルチモーダル音声インタラクション ソリューションを形成します。同時に、ストリーミング ダイアログ、マルチラウンドおよびマルチインテントの音声言語理解、ビジネス ナレッジ グラフの適応などの認知インテリジェンスも統合します。

Alibaba Cloud のソリューションは、レジ機能に加えて、地下鉄のチケット販売もできるとされています。現在、上海地下鉄はこの技術を導入しています。乗客は目的地を言うだけで、券売機が適切な停留所とルートを選択します。これは上海に到着したばかりの乗客にとって特に役立ちます。 10 を超える路線と 300 を超える駅を前にすると、誰でも混乱するでしょう。テストデータによると、通常のチケット購入には 30 秒以上かかることが多いのに対し、音声チケット購入には約 10 秒しかかかりません。

Yan Zhijie 氏は、適応型ビジネス ナレッジ グラフのテクノロジを利用することで、このソリューションをより多くのシナリオに迅速に実装できると紹介しました。実装されているシナリオには、車載音声アシスタント、電話によるインテリジェントな顧客サービス、リモコンなしで操作できる遠距離音声テレビ、複数の人の会話を正確に区別できるスマートマイクなどがあります。 「将来的には、公共空間にあるあらゆるものが相互に通信できるようにしたいと考えています。」

アリババクラウドの製品ディレクターである何雲飛氏は、アリババクラウドは昨年「産業用AI」戦略を提示し、AI技術を業界に統合し、株価を吊り上げるためのマーケティング用語とならないように業界に呼びかけたと述べた。コーヒーの注文から地下鉄の切符の販売まで、私たちは AI が実際の業界のシナリオでその価値を実現できるようにしています。これは、研究室でスキルを披露する AI よりも有意義で、重要なことです。

アリババクラウドは、これらのソリューションのほかに、ET シティブレイン、ET インダストリアルブレイン、ET メディカルブレインなどを含む ET ブレインもリリースしているとのことです。現在、ET インダストリアルブレインは工業製造企業が数十億ドルの利益を生み出すのを支援しており、ET シティブレインは杭州、マカオ、クアラルンプールなどの都市に導入され、交通の最適化や安全な都市などの責任を担っています。

<<:  馬化騰:テンセントはクラウド時代に「3つのネットワーク」を構築する

>>:  テンセントクラウドは、351の都市指標を網羅した「クラウド利用状況」レポートを発表した(レポートのダウンロードリンクを添付)

推薦する

x5x: 月額わずか 1.5 ユーロで無制限の VPS、ロシア、オランダ、米国

x5x.ru は、2006 年から運営されているロシアのホスティング会社です。その事業には、仮想ホス...

w3space: 著作権フリーの VPS/月額 4.97 ドル/ルーマニアの VPS/ハンガリーの VPS

w3space はバングラデシュのホスティング プロバイダーです。2009 年から運営されています。...

ウェブサイトのタイトルを正しく書く方法

ユーザーがキーワードを検索するときに最初に比較するのは、Web サイトのタイトルです。ユーザーはタイ...

検索エンジンマーケティングの初心者と専門家を区別する方法

国内インターネットの過去 10 年間で、検索エンジン マーケティングは著しい成長を遂げました。SEO...

zji: 香港 VDS (専用リソース)、450 元、16G メモリ/8 コア (Platinum 8352Y)/240g SSD/10M 帯域幅 (cn2+bgp)/無制限トラフィック/2IPv4

zji は、KVM 仮想化と専用リソースに基づく新製品シリーズ「Hong Kong VDS」を発表し...

コンテナが単一プロセス モデルであるのはなぜですか?

現在、Go 言語の主な応用分野の 1 つは、コンテナ (Docker に代表される)、Kuberne...

業界のウェブサイトから効果的なキーワードを合理的に抽出する方法

みなさんこんにちは。私はHongtu Internetです。数日前、エンジニアリング情報ネットワーク...

クラウドコンピューティング業界に関する詳細なレポート: 企業のデジタル変革が加速し、クラウドコンピューティングには大きな可能性があります

1. 市場レビュー: パンデミックにより海外のクラウドサービスプロバイダーの業績と評価が上昇1.1 ...

韓国の文化産業の台頭により、オンライン販売商品の人気が高まり、文化マーケティングが韓国の主流のマーケティングモデルになりました。

1993年に韓国CCTVが初めて紹介した韓国ドラマ「嫉妬」に始まり、「愛がなんだ」「天橋風雲」「銭湯...

ユーザーエクスペリエンスを分析するにはどうすればいいですか?

この記事は、Pizirui の「SEO 詳細分析」の知識ポイントから引用したもので、非常に優れていま...

WeChat はどのようにして想像力とユーザーのバランスをとっているのでしょうか?

10年分の価値を放出したい製品の場合、その製品が持つ可能性が無限であればあるほど、想像力を抑制する必...

EasyStack が新世代のプライベート クラウド ECS を発表、クラウド コンピューティングの新たな章を開く

[51CTO.com からのオリジナル記事] 2006 年に Amazon AWS がクラウド サー...

SEO実践におけるページ最適化についての簡単な説明

「検索エンジン技術の基礎」という本には、検索エンジンはコンテンツの類似性、データ品質評価結果、ユーザ...

画像閲覧時代のウェブサイト画像を最適化する方法

画像を読む時代において、人々は記事の中心となるテーマを素早く明確に理解することを求めています。これは...

Java メッセージ キューの概要 (ActiveMQ、RabbitMQ、ZeroMQ、Kafka)

[[266704]] 1. メッセージキューの概要メッセージ キュー ミドルウェアは、分散システムの...