トムソン・ロイター: ストリーミングデータをコスト効率よく読み込み、処理

トムソン・ロイター: ストリーミングデータをコスト効率よく読み込み、処理

トムソン・ロイターは、企業や専門家向けのインテリジェント情報を提供する世界有数の企業であり、世界で最も信頼されているニュース組織のひとつです。信頼できる答えを見つけるために必要なインテリジェンス、テクノロジー、人間の専門知識を企業に提供し、よりスマートな意思決定をより迅速に行えるよう支援します。同社の顧客は、金融、リスク、法律、税務、会計、メディアの各市場にわたります。

[[422143]]

チャレンジ

トムソン・ロイターは、法律事務所から銀行、消費者まで、幅広い業界の顧客向けに数百種類の製品とサービスを提供しています。 2016 年、トムソン・ロイターは、自社の製品とサービスによって生成された分析データを取得、分析、視覚化し、製品チームがユーザー エクスペリエンスを継続的に改善するのに役立つ洞察を提供するソリューションを構築することを決定しました。

市場には多くの商用利用状況分析サービスが存在します。しかし、トムソン・ロイターは、コストを管理し、分析データの所有権を取得し、ドキュメントのメタデータなどの追加情報でデータを充実させるために、独自の分析サービスを構築することを決定しました。

同社は、このソリューションをクラウドで構築したいと考えており、基盤となるプラットフォームの要件の多くを認識していました。まず、情報は転送中も保存中も暗号化を使用して保護する必要があります。また、1 秒あたり数千のイベントを処理し、ニュース速報中にトラフィックが 2 倍または 3 倍に増加しても対応できるように柔軟に拡張する必要があります。また、ソリューションの構築を担当するグループはかなり小規模だったため、会社は新しい機能の構築と製品チームのサポートに集中できるように、管理タスクを最小限に抑える必要がありました。最後に、トムソン・ロイターはすぐに導入できるソリューションを求めていました。彼らにはたった5ヶ月しかありませんでした。

Amazon Web Servicesを選ぶ理由

Thomson Reuters は、Amazon Web Services (AWS) が自社のすべてのニーズを満たす唯一のプラットフォームであることにすぐに気付きました。同社はすでにさまざまな機能に AWS を使用しており、その機能と規模を熟知しています。 Thomson Reuters が構築した分析ソリューションである Product Insight は、いくつかの AWS サービスに依存しています。

初期のイベント取り込みレイヤーは、Auto Scaling グループ内の Elastic Load Balancing とカスタム NGINX Web サーバーで構成されます。 SSL/TLS が終了すると、取り込みレイヤーはイベントをメタデータで拡張し、AWS Key Management Service (KMS) を使用して暗号化します。

取り込みレイヤーは、保護されたデータを、Amazon Kinesis Streams、Amazon Kinesis Firehose、AWS Lambda サーバーレス コンピューティングで構成されるストリーミング データ パイプラインに配信します。 Thomson Reuters は、Apache Kafka を含む他のストリーミング データ ツールを評価しましたが、管理と拡張が難しいことがわかりました。同社はソフトウェアスタックとサーバー群の管理に煩わされたくなかったため、完全に管理された Amazon Kinesis を選択しました。

Amazon Kinesis ストリーミング データ パイプラインは、データを自動的にバッチ処理し、コスト効率よくプライマリ データ セットに配信して、リージョン間で複製された Amazon Simple Storage Service (Amazon S3) バケットに永続的に保存します。プライマリ データ セットを使用すると、Thomson Reuters は追加の変換手順を適用し、システムが失われた場合にデータを回復し、新しいビジネス ケースをサポートできます。イベントを取り込みレイヤーからデータパイプラインにタイムリーに送信できない場合、フェイルオーバーメカニズムによってイベントが Amazon S3 に配信され、システムが復旧して稼働しているときに再実行されます。

AWS Lambda を利用することで、Thomson Reuters はサーバーをプロビジョニングしたり管理したりすることなく、コスト効率の高い方法でストリーミングデータをロードして処理できます。 Lambda は Kinesis パイプラインからデータを収集し、Amazon S3 のプライマリデータセットにロードします。さらに、Amazon S3 からのデータ通知により、新しいデータが保存されるたびに Lambda がトリガーされ、プライマリデータセットに対して追加の変換が実行されます。 Lambda は、Kinesis および Amazon S3 との統合を通じてデータがトリガーされた場合にのみコードを実行し、コードが実行されたときのみコンピューティング処理に対して課金されます。

Amazon Kinesis ストリームに接続された並列リアルタイムパイプラインは、Thomson Reuters Services プラットフォームに接続されたカスタム抽出、変換、ロード (ETL) サーバーを介して、安全なマルチテナント Elasticsearch クラスターにイベントを配信します。すべて AWS でホストされています。オープンソースのデータ分析および視覚化ツールである Kibana は、認定された Thomson Reuters 製品チームにリアルタイム データを提供します。

さらに、Thomson Reuters Services プラットフォームは、AWS Identity and Access Management (IAM) と Amazon S3 クロスアカウントアクセス機能を使用して認証および承認レイヤーを提供します。同社はソリューションを監視するために Amazon CloudWatch を使用しました。

利点

Product Insight は予定より 2 か月早くリリースされ、技術的な期待を上回りました。 「当初の目標は、1秒あたり2,000件のイベントを処理することでした」とトムソン・ロイターの製品イノベーション担当シニアマネージャー、アンダース・フリッツ氏は語る。 「当社のテストでは、AWS 上の Product Insight は 1 秒あたり最大 4,000 件のイベントを処理できることが示されており、1 年以内に 1 秒あたり 10,000 件を超えるイベントに拡張できると予想しています。」これは、1 か月あたり 250 億件を超えるイベントに相当します。

この高いスループットでも、システムはデータを失うことはありませんでした。 「堅牢なフェイルオーバーアーキテクチャと AWS の技術的能力のおかげで、データの収集を開始して以来、イベントが 1 つも失われていません」と Fritz 氏は言います。

この期間中、米国大統領選挙や英国のEU離脱といったニュースもあり、利用が急増しました。 「毎日のイベント数が倍増しても、取り込みパイプラインは問題なくスムーズにスケールアップおよびスケールダウンできました」と、トムソン・ロイターの主席ソフトウェア エンジニア、マルコ・ピエルレオーニ氏は述べています。

社内の製品チームはすぐに Product Insight を採用し、迅速かつ簡単にシステムに導入しました。 「数時間から数日間ですぐにチームを立ち上げることができます」とフリッツ氏は言います。 「その時間のほとんどは、チームが分析したいデータの計画に費やされます。バックエンドでは、数分で製品データを受信できるようにシステムを設定できます。」 SDK と標準化されたデータ アーキテクチャにより、オンボーディング プロセスが加速されました。

Product Insight は Amazon Kinesis を使用したスト​​リーミング データ アーキテクチャ上に構築されているため、製品チームはほぼリアルタイムでデータにアクセスできます。 「Amazon Kinesis を使用することで、当社のソリューションは 10 秒以内に新しいイベントをユーザーダッシュボードに配信します」と Fritz 氏は言います。 「当社の製品チームは使用パターンを即座に理解して対応することができ、運用担当者はパフォーマンスを監視して、顧客体験に影響を与える前に異常を検出して軽減することができます。」

Product Insight では管理の関与が最小限で済むため、エンジニアはインフラストラクチャの管理に時間を費やすのではなく、製品チームと協力してビジネス価値を高めることに集中できます。さらに、AWS Key Management Service によって実装されたセキュリティは、ソリューションが内部および外部のコンプライアンス要件を満たしていることを保証するのに役立ちます。

<<:  iRobot: AWS Lambda の使いやすさにより、開発者はビジネス価値の創出に多くの時間を費やすことができます

>>:  オレンジクラウドが2021年CIFTISに初登場、中国工業企業の発展に新たな活力を注入

推薦する

世界中の40の1桁ドメイン名の現状:約3分の1がパークページ

「短い」というのは、良いドメイン名を判断する基準の一つです。1桁のドメイン名には明らかな利点がありま...

Baidu外部リンクツールの使用経験 リンク名

Baidu の外部リンク ツールはリリースされてからしばらく経っており、多くのウェブマスターが使用し...

Citrix の新しい市場戦略: デスクトップ仮想化からアプリケーション仮想化へ

[51CTO.com からのオリジナル記事] Citrix について言及すると、多くのユーザーはデス...

zgovps: 米国直販 VPS 先行販売、年間 25 ドル、2G メモリ/1 コア/30GNVMe/1T トラフィック/500M 帯域幅/ロサンゼルス

zgovps は、米国 VPS の販売を開始しようとしています。データセンターは米国西海岸のロサンゼ...

Baidu Webmaster Platform ハイエンドSEOクラブの第一回サロン活動の概要と共有

10月26日、百度ウェブマスタープラットフォームとMADconが共同で主催した百度ウェブマスタープラ...

Crissic-ロサンゼルス 再入荷/年払い $10/メモリ 256/ハードディスク 50g/トラフィック 750g

Crissic は設立されてから 1 年以上、もうすぐ 2 年になります。最近、ロサンゼルスで新しい...

SEOの現状と展望を分析する

SEOは現在、検索エンジン最適化の主流の方法です。しかし、SEO の現状はあまり楽観的ではなく、「亀...

SARFTがテレビボックスを禁止、81個のアプリをブロック

今月11日から、多くのTmall Boxユーザーから、ボックスにインストールされたライブ放送ソフトウ...

レポート: モバイル トラフィックの増加により Google 有料クリック数が減少

北京時間10月22日、Adobeは最新の第3四半期インターネット広告データレポートで、モバイルトラフ...

百度のアルゴリズムは誰が一番悲しいかを調整している

ここ数日は、多くの新旧ウェブマスターにとって非常に困難な日々でした。多くの人が、Baidu は人々の...

ウェブサイトがブロックされた後の啓示:決してあきらめないこと

私たちの SEO 業界では、Baidu のアップデート、ウェブサイトの降格、ウェブサイトの K-ou...

Nofollowを説明する

Kを歌って帰ってきたら、「Hao Yumi」が私のブログにメッセージを残していて、フレンドリーリンク...

中国の携帯電話ユーザーの特性分析

2014年9月2日、Meizuは記者会見を開催し、最新のフラッグシップモデルMX4を発表しました。数...

2020年以降に注目すべきエッジコンピューティングの4つのトレンド

接続されたデバイスは現在、膨大な量のデータを生成しており、あらゆる業界の企業がこれを活用して、より適...