12月2日、DAMOアカデミーの深層言語モデルシステムであるAliceMindは、中国語コミュニティ初のテーブル事前トレーニングモデルSDCUPをリリースしました。このモデルは、世界で最も権威のあるテーブル データセットである WikiSQL と SQuALL で業界最高の結果を達成し、モデルとトレーニング コードは両方ともオープン ソースになっています。 (https://github.com/alibaba/AliceMind) テーブルは広く使用されている構造化データであり、インテリジェントな対話システムや検索エンジンにとって重要な回答ソースです。しかし、従来のテーブル クエリでは、技術者が専門的なクエリ ステートメントを記述する必要があり、テーブル クエリの大規模な適用を妨げています。新興のテーブル質問応答技術は、自然言語をクエリ文に変換できるため、ユーザーは簡単な質問を通じてテーブルデータベースと直接対話することができ、幅広い応用の可能性を秘めています。 しかし、表の内容が複雑かつ多様であり、さまざまな業界の専門知識が関与していることから、表の質問応答タスクは自然言語処理の分野では常に難しい問題となってきました。これまで、グーグル、マイクロソフト、アマゾンなどの海外企業が関連する探査を行ってきたが、中国のシナリオではこの方向性は空白となっている。 今回、DAMOアカデミー対話インテリジェンスチームは、「パターン依存性」方式に基づく初の中国語表事前トレーニングモデルSDCUPを提案しました。モデルを通じて自然言語と表構造コンテンツ間のキーワードマッピングを直接予測し、表の質問と回答の精度を向上させます。具体的には、意味依存性解析手法を参考にしてスキーマ依存性タスクをモデル化し、完全接続ネットワークを使用して各ノードを親ノードおよび子ノードとして意味表現を取得します。次に、バイアフィン ネットワークを使用して、各エッジの存在確率とエッジ関係タイプの確率を予測します。同時に、研究チームは人間のような「カリキュラム学習」手法を使用してデータのノイズを削減しました。
SDCUP モデルは、イェール大学がリリースした業界最大の英語テキスト テーブル データセットである WikiSQL と、Microsoft が構築した難易度の高い英語テキスト テーブル予測タスク データセットである SQuALL で、業界最高の結果を達成しました。 DAMO アカデミーが構築した中国語の表形式の質問応答データセットである TaBLUE では、SDCUP は同じパラメータ スケールの BERT モデルよりも約 3 パーセント ポイント優れたパフォーマンスを発揮します。
DAMOアカデミーの上級アルゴリズム専門家であるLi Yongbin氏は、SDCUPモデルはDAMOアカデミーのテーブル対話技術の研究開発シリーズの一部であり、今後も外部にオープンソースとして公開され続けると紹介した。その関連技術は、WikiSQL、Spider、SParC、CoSQL という 4 つの主要な国際公開データセットで連続して 1 位を獲得しています。 この技術はすでに商用化されており、Alibaba Cloud Intelligent Customer Serviceを通じて政府関係、金融、小売などの業界の顧客にフォームの質疑応答やデータベースの自然な対話サービスを提供しているとのことです。 |
<<: IoT セキュリティにおけるブロックチェーン、フォグ コンピューティング、エッジ コンピューティング、機械学習の応用
>>: 誰もが開発者になれる: SAP が一般開発者とプロの開発者向けにツール、組み込み AI、無料の学習体験を提供
最近、多くの SEO 担当者は、アウトバウンド リンク、特にホームページ上のアウトバウンド リンクに...
vsis.net は、独自の AS 番号を持つベトナムの会社です。正確な設立時期は不明です (公式ブ...
友人の招待により、Taozui は今日、Himalaya SEO が何千万ページものコンテンツをどの...
エンタープライズレベルのフルスタッククラウドICTサービスプロバイダーであるQingCloud(qi...
1. 海外のホストが大量にブロックされ、MicrosoftやAlexaなどのウェブサイトにアクセスで...
アンダーレイ ネットワークは、低遅延、信頼性、セキュリティなどの特性を備えた基盤となる基本ネットワー...
組織内の複数の部門でワークフローやストレージのニーズが異なる場合は、マルチクラウド展開が役立ちます。...
雷軍の「大きな」夢は国家ラジオ映画テレビ総局の鉄壁にぶつかった。 11月23日、Xiaomi Box...
最近、基本的な農地保護標識のウェブサイトを作成しました。資格のある SEO 最適化担当者として、新し...
正直に言うと、SEO 最適化の内容は書き尽くされ、どれも同じような内容ばかりです。今後は、いくつかの...
世界的な調査によると、スマートデジタルワークプレイスのメリットは生産性の向上だけにとどまらないが、企...
OpenTelemetry Operator は、OpenTelemetry コンポーネントをデプロ...
IPXcore は、価格に関係なく製品を作るために最善を尽くす中小企業の 1 つです。IPXcore...
データ ウェアハウスは、ビジネス インテリジェンス (BI) や分析アプリケーション用に大量のデータ...
検索マーケティング キャンペーンを成功させる鍵は、タイムリーかつ複雑なコンテンツのインデックス作成を...