人工知能はさまざまな業界の変革を加速させており、ストリーミング メディア分野は最も急速に変化している分野の一つかもしれません。近年、ニューラルネットワーク関連のアルゴリズムの問題が解決されるにつれて、人工知能技術は急速に発展しました。ストリーミング メディア分野への人工知能技術の浸透により、この技術は新たなブレークスルーを達成することができました。現在、写真、長編動画、短編動画、ライブ放送、ARなど、さまざまなメディア形式がインターネット界を占めています。メディアコンテンツと形式が非常に豊富な今日の世界では、これらのコンテンツをどのように識別して解析し、人工知能を通じてフィードバックを提供するかが、すべてのテクノロジー大手の焦点となっています。その中で、画像認識、音声意味認識、同時通訳、字幕認識などの応用シナリオのさらなる探求には、人工知能の力が必要です。 人工知能とは何ですか? 簡単に言えば、人工知能とはビッグデータ+機械学習です。これは私たち人間と非常によく似ています。知識を得たいのであれば、外の世界を観察したり、さまざまな本を読んだり、先生などに質問したりするなど、多くの資料が必要です。同じ原則がコンピュータにも当てはまります。トレーニングのために大量のデータを取得し、その大量のデータから有用な情報を抽出して知識ベースを形成する必要があります。 データは人工知能の基盤である データは人工知能技術の実装の基礎となります。 UCloud プラットフォームではデータ処理はどのように実行されますか?まず、当社のオブジェクト ストレージ、ライブ ブロードキャスト クラウド、メディア ファクトリーでは、毎日大量の生データが生成されます。たとえば、オブジェクト ストレージには毎日 10 億枚を超える新しい写真が追加されます。ただし、これらの生データは必ずしもコンピューターに適しているわけではありません。たとえば、ライブ ブロードキャスト データには、送信プロトコル、オーディオとビデオのインターリーブ、さまざまなエンコーディングが含まれます。このような生データは機械学習には適していません。画像圧縮、オーディオ抽出とチャネル、サンプリング レートの正規化、ビデオ フレームの抽出など、生データを処理するための前処理プラットフォームが必要です。これらの前処理機能は現在、Docker イメージの形式で展開されており、当社の柔軟なコンピューティング プラットフォーム上で実行されています。現在、これを実行している仮想ノードは 10,000 個以上あります。 データだけでは不十分です。コンピュータがデータを認識できるように、データにラベルを付ける必要がある。次に、データ ラベルを通じてトレーニングと学習を行い、このタイプのものを認識できるようになります。現在、ラベル付けには手動ラベル付け、アクティブキーワードキャプチャなどさまざまな形式がありますが、ラベル付けが難しい音声データについては、サードパーティからデータを購入することも行います。データは人工知能の基盤です。今後、人工知能の分野では、データレベルでの競争が非常に激しくなるでしょう。 機械学習はどのような問題を解決しますか? 人工知能のもう一つの重要な部分は機械学習であり、主に分類と回帰という2種類の問題を解決します。 分類は現在広く使用されており、比較的成熟しています。たとえば、画像分類では、写真が与えられた場合に、それが子猫なのか子犬なのかを識別する必要があります。または、記事がスポーツに関するものか経済に関するものかなどをコンピューターに分析させるなど、テキスト コンテンツを分類することもあります。回帰は数学的な概念であり、扱う問題も本質的に数学的であり、入力と出力はどちらもデジタル タイプです。現在、いくつかのチームが株価予測に似たシナリオに取り組んでいることが分かっています。このようなシナリオは多くの変数に依存しており、システム自体も非常に複雑で困難です。 メディア分野における分類機能の応用 コンテンツが王様である今日の時代では、 コンテンツのレビュー、 顔認識、 自動ラベル付け、 字幕認識、 同時通訳など、分類と回帰はメディアで広く使用されています。 【コンテンツレビュー】 現在、ほとんどのコンテンツ プラットフォームはユーザーに公開されており、ユーザーは写真や動画などをアップロードできます。オープンであること自体は良いことであり、コンテンツを豊かにしますが、ネットワーク監視に関する多くの問題が伴います。オンラインコンテンツに対する国や政府の監督要件がますます厳しくなる中、多くのコンテンツプラットフォーム企業は特別なコンテンツ審査部門を設立し、手動審査方式を使用してユーザーがアップロードしたコンテンツの完全な審査を実施するだろう。この作業は、完全に手動レビューに依存すると膨大な作業となり、レビュー チームの作業は退屈なものになります。 現在、UCloud の UMAI プラットフォームは、画像やビデオ内のポルノ、暴力、その他のコンテンツの認識をサポートしています。 UMAI インターフェイスを呼び出してコンテンツを前処理することで、正常なコンテンツの大部分をフィルタリングして、不健全であると疑われ、レビュー チームによる追加のレビューが必要なごくわずかなコンテンツのみを残すことができます。これにより、手動レビューの作業負荷が大幅に軽減されます。 【顔認証】 顔認識は現在、身元認証、携帯電話の顔スキャン、システムログインなど、人工知能の分野で広く使用されています。もう 1 つは顔検索で、ビデオに重要な人物が映っているかどうか、または写真コレクションにそのような人物が含まれているかどうかをすばやく判断するなどです。顔認識の主なプロセスは、一般的に次のようになります。まず、画像の顔が検出され、次に目、鼻、口、耳、輪郭などのキーポイントが抽出されます。セグメンテーション後、畳み込みネットワークに渡されて特徴が抽出され、最後に顔認識が実行されます。現在、当社では、会社の勤怠管理や政治課題認識に関する関連アプリケーションを保有しています。 【自動ラベル付け】 ユーザー自身がアップロードした写真の場合、自動タグ付けが重要な役割を果たします。ユーザーが写真をアップロードする際、写真を説明するキーワードを 1 つまたは 2 つだけタグ付けすることがよくあります。しかし、現在多くの背景検索はキーワードに基づいているため、写真に含まれる大量の他のコンテンツや情報を取得することはできません。コンピュータビジョンのシーン認識機能により、画像の隠れた情報をうまく抽出できるため、画像にはより多くのキーワードが含まれ、より多くのシーンで検索されてその役割を果たすことができます。 【字幕認識】 字幕認識の応用は非常に直接的かつ実用的です。たとえば、ID カード、請求書、名刺の認識により手書き入力の作業負荷を軽減できます。また、同様のビデオの字幕認識により、コンピューターがビデオの内容を理解できるようになります。 【同時通訳】 現在、国内企業の海外進出が活発化しています。同時通訳に人工知能を使用すると、多国籍企業や従業員が異なる言語でコミュニケーションをとるのに役立ちます。ライブ動画ストリーミングの分野では、ライブ動画配信前に音声を抽出し、スライス後に音声を認識し、翻訳後に字幕を出力し、タイムスタンプを付加できるシステムを開発しました。再生端末は字幕と動画データを取得後、タイムスタンプを同期して再生側に表示します。 このシステムには 2 つの主な難点があります。1 つ目は、音声認識と翻訳という 2 回のコンピューター認識が行われるため、エラーが蓄積されることです。 第二に、このシナリオではリアルタイム要件が比較的高くなります。たとえば、字幕の翻訳は少し遅れ、ビデオデータは比較的低い遅延を必要とするため、エクスペリエンスは非常に悪くなります。これらは、この製品が最適化されている 2 つの方向でもあります。 人工知能プライベート展開アプリケーション 上記は、パブリッククラウドプラットフォームに焦点を当てた人工知能の応用についてです。多くのお客様とのやり取りの中で、ポリシーと機密保持上の理由から、お客様はデータをパブリック クラウドに置きたくないということがわかりました。また、社内にはサーバーや映像収録機器などのハードウェアリソースも多数保有しており、それらを直接活用したいと考えています。このようなニーズには、プライベート展開ソリューションの使用をお勧めします。 UCloud プラットフォームは、プライベート デプロイメント ソリューションを実装するために 2 つのことを行いました。1 つ目はコンポーネント化です。ライブ放送、ストレージ、録画、スクリーンショットなど、内部には多くの機能があります。これらの機能を分離し、さまざまなコンポーネントにしました。これには、コンポーネントを柔軟に組み合わせることができ、ユーザーは必要な機能に基づいてコンポーネントを展開できるという利点があります。特定の機能に対してカスタマイズされた要件がある場合は、対応するコンポーネントの機能を変更するだけで済みます。 2つ目は、トレーニング済みのモデルを提供し、それを顧客のプライベート環境にデプロイすることです。現在、このモデルは当社のパブリック クラウドでトレーニングされています。 プライベート展開は、自動出席システムなどのシナリオですでに成熟したアプリケーションが見つかります。私たちは、人工知能技術を活用して仕事の利便性を高め、生活をより良くしたいと願いながら、より適用可能なシナリオを常に模索しています。 |
<<: クラウドコンピューティングオープンソースインダストリーアライアンスが「2017年のハイブリッドクラウドユーザーと優れた事例トップ10」を発表
>>: MIIT がさらに 7 つの CDN ライセンスと 9 つのクラウド サービス ライセンスを発行
C2C は間違いなく最も自由なモデルです。しかし、自由には代償が伴います。それは、コントロールを失う...
Hostingviet はベトナムの老舗企業です。長年運営されており、その中核事業はベトナム VPS...
今日は、オンラインプロモーションのプロセスにアトリビューションモデルを適用する価値についてお話しした...
SEO に関して言えば、多くの人が次の用語を思い浮かべるでしょう: 構築の初期段階における Web ...
インターネット技術の継続的な発展に伴い、インターネットユーザーの年間成長率は直線的に上昇しており、関...
新しいテクノロジー、新しいビジネス、新しいモデル: 長年の発展を経て、電子商取引業界はもはや単一のオ...
Weibo の台頭により、人々は Weibo を使って自社製品を宣伝し、このチャネルを通じて広め、皆...
[[419431]] 「分散ロック」の問題はこれまで多くの議論がなされてきましたが、著者は満足のいく...
5月22日、上海市徐家匯嘉善路に新しくオープンしたファーストフード店で、ウー・ヘンさんは「宮保鶏定食...
AzzVPS はニュージーランドの VPS 事業です。設立されてまだそれほど経っていませんが、勢いを...
ウェブサイトのインデックスがうまくいかない場合、ほとんどのウェブマスターはまずコンテンツと外部リンク...
[[442951]] 【51CTO.com クイック翻訳】著者: エミール・ヴォージュ翻訳:崔昊企画...
みなさんこんにちは。私は陳紅然です。 2012 年上半期、Baidu は SEO 分野で一連の動きを...
Quickpacket は創立 14 周年を記念し、プロモーション用に自社専用サーバーを 2 台リリ...
編纂者:Xing Xuan制作 | 51CTO テクノロジースタック (WeChat ID: blo...