AliceMindから新製品が登場!最初の中国語表事前トレーニングモデルがここにあり、業界にオープンソース化されています

AliceMindから新製品が登場!最初の中国語表事前トレーニングモデルがここにあり、業界にオープンソース化されています

12月2日、DAMOアカデミーの深層言語モデルシステムであるAliceMindは、中国語コミュニティ初のテーブル事前トレーニングモデルSDCUPをリリースしました。このモデルは、世界で最も権威のあるテーブル データセットである WikiSQL と SQuALL で業界最高の結果を達成し、モデルとトレーニング コードは両方ともオープン ソースになっています。 (https://github.com/alibaba/AliceMind)

テーブルは広く使用されている構造化データであり、インテリジェントな対話システムや検索エンジンにとって重要な回答ソースです。しかし、従来のテーブル クエリでは、技術者が専門的なクエリ ステートメントを記述する必要があり、テーブル クエリの大規模な適用を妨げています。新興のテーブル質問応答技術は、自然言語をクエリ文に変換できるため、ユーザーは簡単な質問を通じてテーブルデータベースと直接対話することができ、幅広い応用の可能性を秘めています。

しかし、表の内容が複雑かつ多様であり、さまざまな業界の専門知識が関与していることから、表の質問応答タスクは自然言語処理の分野では常に難しい問題となってきました。これまで、グーグル、マイクロソフト、アマゾンなどの海外企業が関連する探査を行ってきたが、中国のシナリオではこの方向性は空白となっている。

今回、DAMOアカデミー対話インテリジェンスチームは、「パターン依存性」方式に基づく初の中国語表事前トレーニングモデルSDCUPを提案しました。モデルを通じて自然言語と表構造コンテンツ間のキーワードマッピングを直接予測し、表の質問と回答の精度を向上させます。具体的には、意味依存性解析手法を参考にしてスキーマ依存性タスクをモデル化し、完全接続ネットワークを使用して各ノードを親ノードおよび子ノードとして意味表現を取得します。次に、バイアフィン ネットワークを使用して、各エッジの存在確率とエッジ関係タイプの確率を予測します。同時に、研究チームは人間のような「カリキュラム学習」手法を使用してデータのノイズを削減しました。


(SDCUP によって生成された SQL の例)

SDCUP モデルは、イェール大学がリリースした業界最大の英語テキスト テーブル データセットである WikiSQL と、Microsoft が構築した難易度の高い英語テキスト テーブル予測タスク データセットである SQuALL で、業界最高の結果を達成しました。 DAMO アカデミーが構築した中国語の表形式の質問応答データセットである TaBLUE では、SDCUP は同じパラメータ スケールの BERT モデルよりも約 3 パーセント ポイント優れたパフォーマンスを発揮します。


(SDCUP は WikiSQL データセットで業界最高の結果を達成しています)


(SDCUP は SQuALL データセットで業界最高の結果を達成しました)

DAMOアカデミーの上級アルゴリズム専門家であるLi Yongbin氏は、SDCUPモデルはDAMOアカデミーのテーブル対話技術の研究開発シリーズの一部であり、今後も外部にオープンソースとして公開され続けると紹介した。その関連技術は、WikiSQL、Spider、SParC、CoSQL という 4 つの主要な国際公開データセットで連続して 1 位を獲得しています。

この技術はすでに商用化されており、Alibaba Cloud Intelligent Customer Serviceを通じて政府関係、金融、小売などの業界の顧客にフォームの質疑応答やデータベースの自然な対話サービスを提供しているとのことです。

<<:  IoT セキュリティにおけるブロックチェーン、フォグ コンピューティング、エッジ コンピューティング、機械学習の応用

>>:  誰もが開発者になれる: SAP が一般開発者とプロの開発者向けにツール、組み込み AI、無料の学習体験を提供

推薦する

SEOがすべての生き物に役立つときのみ、世界中で広く利用されるようになる

検索エンジンの人気は単に時代の傾向を表しているだけです。生活の利便性の向上は科学技術の発展の前提であ...

大手女性向けメイクアップポータルの代替ロングテール戦略の解釈

ウェブサイトの最適化中に、偶然、大手女性化粧品サイトを見たのですが、そのロングテールコンテンツの多く...

なぜウェブサイトの SEO を改善できないのでしょうか?

今日、ある人がフォーラムに、自分のウェブサイトは以前のものを超えることは決してできず、他の人はただウ...

インターネット製品設計のためのいくつかの戦略

昨今、インターネット上での「口コミマーケティング」が増加しています。例えば、タオバオで店舗を開くには...

アジアのクラウドプロバイダーが暗号通貨マイニングマルウェアの標的に

アジアのクラウドコンピューティングサービスプロバイダーは現在、暗号通貨のマイニングに使用されるコンピ...

server-factory: オランダの VPS、年間 9 ユーロから、ギガビット帯域幅、AMD EPYC+Ryzen+DDR4+NVMe

新しいブランドである server-factory はドイツ人によって運営されており、オランダの S...

Xiong Zhanghao ユーザー操作指標: ウェブサイトのランキングにどのように影響しますか?

月給5,000~50,000のこれらのプロジェクトはあなたの将来です熊張豪の発売以来、百度は伝統的な...

インターネットプロモーションのためのフォーラムプロモーションスキル(I)

今日もまた水曜日です。今日は皆さんが外部リンクをもう少し増やし、Baidu スパイダーに自分のウェブ...

HostMist - 年間 25 ドル / 256 MB RAM / 20 GB HDD / 300 GB Flow / ロサンゼルス QR

ここでは、手間をかけずにブログや個人のウェブサイトを構築したい友人にお勧めの、ホストミスト社の小メモ...

ダブルイレブンの低価格の裏にある本当の意図を分析する

いよいよ毎年恒例の独身の日がやってきます。カップルや独身者がお祝いに忙しくなるこの日は、いわゆる「お...

ウェブサイトのURLを静的にする必要があるかどうかについての簡単な議論

多くの SEO 担当者は、ウェブサイトの URL は静的でなければならないという点で一致しているよう...

申請不要のホストとクラウドホスト

登録不要のホスト、登録不要のクラウドホスト:登録不要のホスト(登録不要のクラウドホスト)は、香港、台...

グーグル中国に続き、ヤフー中国も来年1月に音楽関連サービスを停止する。

12月17日、Google Chinaが音楽検索サービスを停止したのに続き、Yahoo Chinaも...

Red Hat、オープンハイブリッドクラウドの新時代を計画

[51CTO.com よりオリジナル記事] 現在、あらゆる面で条件が徐々に成熟するにつれて、オープン...

Baidu の信頼を得るための 7 つの方法

ウェブサイトの品質を測る重要な指標が何かご存知ですか?それはウェブサイトの信頼性です!ウェブマスター...