AliceMindから新製品が登場!最初の中国語表事前トレーニングモデルがここにあり、業界にオープンソース化されています

AliceMindから新製品が登場!最初の中国語表事前トレーニングモデルがここにあり、業界にオープンソース化されています

12月2日、DAMOアカデミーの深層言語モデルシステムであるAliceMindは、中国語コミュニティ初のテーブル事前トレーニングモデルSDCUPをリリースしました。このモデルは、世界で最も権威のあるテーブル データセットである WikiSQL と SQuALL で業界最高の結果を達成し、モデルとトレーニング コードは両方ともオープン ソースになっています。 (https://github.com/alibaba/AliceMind)

テーブルは広く使用されている構造化データであり、インテリジェントな対話システムや検索エンジンにとって重要な回答ソースです。しかし、従来のテーブル クエリでは、技術者が専門的なクエリ ステートメントを記述する必要があり、テーブル クエリの大規模な適用を妨げています。新興のテーブル質問応答技術は、自然言語をクエリ文に変換できるため、ユーザーは簡単な質問を通じてテーブルデータベースと直接対話することができ、幅広い応用の可能性を秘めています。

しかし、表の内容が複雑かつ多様であり、さまざまな業界の専門知識が関与していることから、表の質問応答タスクは自然言語処理の分野では常に難しい問題となってきました。これまで、グーグル、マイクロソフト、アマゾンなどの海外企業が関連する探査を行ってきたが、中国のシナリオではこの方向性は空白となっている。

今回、DAMOアカデミー対話インテリジェンスチームは、「パターン依存性」方式に基づく初の中国語表事前トレーニングモデルSDCUPを提案しました。モデルを通じて自然言語と表構造コンテンツ間のキーワードマッピングを直接予測し、表の質問と回答の精度を向上させます。具体的には、意味依存性解析手法を参考にしてスキーマ依存性タスクをモデル化し、完全接続ネットワークを使用して各ノードを親ノードおよび子ノードとして意味表現を取得します。次に、バイアフィン ネットワークを使用して、各エッジの存在確率とエッジ関係タイプの確率を予測します。同時に、研究チームは人間のような「カリキュラム学習」手法を使用してデータのノイズを削減しました。


(SDCUP によって生成された SQL の例)

SDCUP モデルは、イェール大学がリリースした業界最大の英語テキスト テーブル データセットである WikiSQL と、Microsoft が構築した難易度の高い英語テキスト テーブル予測タスク データセットである SQuALL で、業界最高の結果を達成しました。 DAMO アカデミーが構築した中国語の表形式の質問応答データセットである TaBLUE では、SDCUP は同じパラメータ スケールの BERT モデルよりも約 3 パーセント ポイント優れたパフォーマンスを発揮します。


(SDCUP は WikiSQL データセットで業界最高の結果を達成しています)


(SDCUP は SQuALL データセットで業界最高の結果を達成しました)

DAMOアカデミーの上級アルゴリズム専門家であるLi Yongbin氏は、SDCUPモデルはDAMOアカデミーのテーブル対話技術の研究開発シリーズの一部であり、今後も外部にオープンソースとして公開され続けると紹介した。その関連技術は、WikiSQL、Spider、SParC、CoSQL という 4 つの主要な国際公開データセットで連続して 1 位を獲得しています。

この技術はすでに商用化されており、Alibaba Cloud Intelligent Customer Serviceを通じて政府関係、金融、小売などの業界の顧客にフォームの質疑応答やデータベースの自然な対話サービスを提供しているとのことです。

<<:  IoT セキュリティにおけるブロックチェーン、フォグ コンピューティング、エッジ コンピューティング、機械学習の応用

>>:  誰もが開発者になれる: SAP が一般開発者とプロの開発者向けにツール、組み込み AI、無料の学習体験を提供

推薦する

母の日に大手ブランドが送る優れたコピーライティング集

もうすぐ母の日がやってきます。大手ブランドのコピーライティングから学んでみましょう〜今週の日曜日、5...

江蘇省史上最大のオンライン求人詐欺事件で12人が有罪判決

今年3月、江蘇省高郵警察は大規模なオンライン求人詐欺事件を摘発し、容疑者12人を逮捕した。被害者は全...

ウェブサイト内部最適化戦略の12の要素の詳細な説明

ウェブサイトの内部最適化は、SEO 作業の難しさと焦点です。ここで取り上げる内部最適化戦略は、特定の...

2019 年の SaaS 犠牲者リストが公開されました。将来の見通しは心配ですか?

Salesforceが株式を公開した2004年の国内SaaS産業の始まりから数えると、中国のSaaS...

企業がクラウドコンピューティングを正しく利用してビジネスを変革する方法

デジタル時代において、企業のビジネスはデジタル変革を実現する必要があります。いずれにせよ、企業がクラ...

斗宇には闘志がない

第2四半期の財務報告が発表された後、斗玉の株価は同日11.01%急落した。これは斗玉の上場以来の株価...

ブランドマーケティングの4つの成長ロジック

2016年12月に開催された2017年中央経済工作会議では、中国の経済発展は現在、需要の縮小、供給シ...

「クラウドネイティブ」時代の効率的な開発のためのワンストップチェックイン:マイクロサービスやデータベースもこんな使い方ができることが判明

今週末、古都金陵は輝かしい文化で満ち溢れます。人気のDevRun開発者サロンがひっそりとスタートしま...

議論: 記事の下部にリンクを追加できない理由

今日、パン・リクアンは奇妙な現象を発見しました。独立系ブログの記事は転載かオリジナルかに関わらず、記...

オラクル、企業の言語モデルの導入と微調整を支援するクラウドベースの生成AIサービスを開始

データベース大手のオラクルは最近、Oracle Cloud Infrastructure Gener...

注: HostGa の「言葉にできない」公式中国語サイトの説明

最近、一部のネットユーザーから、HostGa「Undescribable」が中国語のウェブサイトを開...

ウェブサイトのプロモーションと最適化(SEO)に関する経験を共有しましょう

主要な検索エンジンですぐにインデックスされるようにするにはどうすればよいでしょうか?ウェブサイトが完...

tmhhost: 香港 cn2 サーバー (物理マシン)、400 元/月、X3450/8g メモリ/240gSSD/5IP/10Mcn2

tmhhost の香港サーバーを紹介します。サーバーは香港安昌のコンピューター室にホストされています...

百度プロモーションを行う際に化粧品サイトでどのような分析を行うべきか

3月は養成校の入学者ピーク時期です。この時期にいかにうまく宣伝するかが、各養成ユニットに優秀な学生を...

草の根ウェブマスターの戦場でロングテールキーワードをうまく活用する方法

クリックしてウェブマスターの統計情報を表示すると、ロングテール キーワードは、私たちが提案するメイン...