AliceMindから新製品が登場!最初の中国語表事前トレーニングモデルがここにあり、業界にオープンソース化されています

AliceMindから新製品が登場!最初の中国語表事前トレーニングモデルがここにあり、業界にオープンソース化されています

12月2日、DAMOアカデミーの深層言語モデルシステムであるAliceMindは、中国語コミュニティ初のテーブル事前トレーニングモデルSDCUPをリリースしました。このモデルは、世界で最も権威のあるテーブル データセットである WikiSQL と SQuALL で業界最高の結果を達成し、モデルとトレーニング コードは両方ともオープン ソースになっています。 (https://github.com/alibaba/AliceMind)

テーブルは広く使用されている構造化データであり、インテリジェントな対話システムや検索エンジンにとって重要な回答ソースです。しかし、従来のテーブル クエリでは、技術者が専門的なクエリ ステートメントを記述する必要があり、テーブル クエリの大規模な適用を妨げています。新興のテーブル質問応答技術は、自然言語をクエリ文に変換できるため、ユーザーは簡単な質問を通じてテーブルデータベースと直接対話することができ、幅広い応用の可能性を秘めています。

しかし、表の内容が複雑かつ多様であり、さまざまな業界の専門知識が関与していることから、表の質問応答タスクは自然言語処理の分野では常に難しい問題となってきました。これまで、グーグル、マイクロソフト、アマゾンなどの海外企業が関連する探査を行ってきたが、中国のシナリオではこの方向性は空白となっている。

今回、DAMOアカデミー対話インテリジェンスチームは、「パターン依存性」方式に基づく初の中国語表事前トレーニングモデルSDCUPを提案しました。モデルを通じて自然言語と表構造コンテンツ間のキーワードマッピングを直接予測し、表の質問と回答の精度を向上させます。具体的には、意味依存性解析手法を参考にしてスキーマ依存性タスクをモデル化し、完全接続ネットワークを使用して各ノードを親ノードおよび子ノードとして意味表現を取得します。次に、バイアフィン ネットワークを使用して、各エッジの存在確率とエッジ関係タイプの確率を予測します。同時に、研究チームは人間のような「カリキュラム学習」手法を使用してデータのノイズを削減しました。


(SDCUP によって生成された SQL の例)

SDCUP モデルは、イェール大学がリリースした業界最大の英語テキスト テーブル データセットである WikiSQL と、Microsoft が構築した難易度の高い英語テキスト テーブル予測タスク データセットである SQuALL で、業界最高の結果を達成しました。 DAMO アカデミーが構築した中国語の表形式の質問応答データセットである TaBLUE では、SDCUP は同じパラメータ スケールの BERT モデルよりも約 3 パーセント ポイント優れたパフォーマンスを発揮します。


(SDCUP は WikiSQL データセットで業界最高の結果を達成しています)


(SDCUP は SQuALL データセットで業界最高の結果を達成しました)

DAMOアカデミーの上級アルゴリズム専門家であるLi Yongbin氏は、SDCUPモデルはDAMOアカデミーのテーブル対話技術の研究開発シリーズの一部であり、今後も外部にオープンソースとして公開され続けると紹介した。その関連技術は、WikiSQL、Spider、SParC、CoSQL という 4 つの主要な国際公開データセットで連続して 1 位を獲得しています。

この技術はすでに商用化されており、Alibaba Cloud Intelligent Customer Serviceを通じて政府関係、金融、小売などの業界の顧客にフォームの質疑応答やデータベースの自然な対話サービスを提供しているとのことです。

<<:  IoT セキュリティにおけるブロックチェーン、フォグ コンピューティング、エッジ コンピューティング、機械学習の応用

>>:  誰もが開発者になれる: SAP が一般開発者とプロの開発者向けにツール、組み込み AI、無料の学習体験を提供

推薦する

サーバーレス アプリケーション決定ガイド

翻訳者 |崔浩企画 |趙雲サーバーレスを適用すると、多くの困難な問題に直面することになります。この記...

IBMは、現在の関連製品を上回ると言われる新しいチップを発売した。

長い間沈黙していたIBMも、ついに黙っていられなくなった。 IBM は AI の波が押し寄せる中、現...

2020 GIDC: Tianyi Cloud CDN コンテナが新しいクラウド、ネットワーク、エッジ エコシステムの構築を支援

2020年、新型コロナウイルス感染症のパンデミックが世界を席巻し、伝統的な実体経済は大きな打撃を受け...

midphase - 70% オフ/最低 $3.29、無料ドメイン名、無制限のウェブサイト構築、ホスティング/VPS/x サーバー

19 年間運営されているトップクラスのホスティング会社である Midphase は、ブラック フライ...

地域不動産ネットワーク開発の考え方:不動産開発業者が活用し、政府が開発を促進

近年、不動産ウェブサイトの人気が高まっています。住宅価格は規制されていますが、住宅を購入する人の数は...

ウールとギャング:インターネット クラウドソーシングをファッションに導入

「編み物」といえば、多くの人は次のような光景を思い浮かべるでしょう。庭のロッキングチェアに座り、老眼...

クラウド移行によるデータ資産への悪影響

現在、私たちはクラウドへの大規模なデータ移行の真っ最中です。その主な推進力となっているのは、高度な分...

コピーから学ぶ教訓: 「中国へのコピー」モデルは中国でどれくらい続くのか?

C2Cは、李開復教授とイノベーションワークスの強力な推進により、突然人気が出ました。では、C2Cモデ...

ソフトコンテンツマーケティング: 高品質のメディアと低品質のメディアをどのように区別するか?

ソフトテキストマーケティングのプロセスにおいて、最も重要なのは原稿プランニングとメディアプランニング...

プロのSEO担当者は独自の長期リソースを構築する必要がある

実際、SEO はデータ、つまりリソー​​スがすべてです。昨日、1年間SEOに携わってきた人と話をしま...

さまざまなエッジ クラスタ管理ソリューションの比較と選択

[[429682]]この記事は、Double_Dong&Huazi が執筆した WeChat...

SEO は自分の意見を貫くべきか、それとも先人の意見に耳を傾けるべきか?

ウェブサイトの最適化の過程で、誰もが Baidu ランキングの最適化に関する独自の経験を蓄積し、どの...

ホットなおすすめ:バースト専用サーバー月額25ドル

エイプリルフール?まだ早いですよ!おっしゃる通り、バーストは特別価格のサーバーを 3 つ発売しました...

ウェブサイトの障壁を排除して、検索スパイダーがより速くクロールできるようにします

ウェブサイトがBaiduスパイダーの支持を得られるかどうかは、ウェブサイトのコンテンツの質の高さだけ...