トムソン・ロイター: ストリーミングデータをコスト効率よく読み込み、処理

トムソン・ロイター: ストリーミングデータをコスト効率よく読み込み、処理

トムソン・ロイターは、企業や専門家向けのインテリジェント情報を提供する世界有数の企業であり、世界で最も信頼されているニュース組織のひとつです。信頼できる答えを見つけるために必要なインテリジェンス、テクノロジー、人間の専門知識を企業に提供し、よりスマートな意思決定をより迅速に行えるよう支援します。同社の顧客は、金融、リスク、法律、税務、会計、メディアの各市場にわたります。

[[422143]]

チャレンジ

トムソン・ロイターは、法律事務所から銀行、消費者まで、幅広い業界の顧客向けに数百種類の製品とサービスを提供しています。 2016 年、トムソン・ロイターは、自社の製品とサービスによって生成された分析データを取得、分析、視覚化し、製品チームがユーザー エクスペリエンスを継続的に改善するのに役立つ洞察を提供するソリューションを構築することを決定しました。

市場には多くの商用利用状況分析サービスが存在します。しかし、トムソン・ロイターは、コストを管理し、分析データの所有権を取得し、ドキュメントのメタデータなどの追加情報でデータを充実させるために、独自の分析サービスを構築することを決定しました。

同社は、このソリューションをクラウドで構築したいと考えており、基盤となるプラットフォームの要件の多くを認識していました。まず、情報は転送中も保存中も暗号化を使用して保護する必要があります。また、1 秒あたり数千のイベントを処理し、ニュース速報中にトラフィックが 2 倍または 3 倍に増加しても対応できるように柔軟に拡張する必要があります。また、ソリューションの構築を担当するグループはかなり小規模だったため、会社は新しい機能の構築と製品チームのサポートに集中できるように、管理タスクを最小限に抑える必要がありました。最後に、トムソン・ロイターはすぐに導入できるソリューションを求めていました。彼らにはたった5ヶ月しかありませんでした。

Amazon Web Servicesを選ぶ理由

Thomson Reuters は、Amazon Web Services (AWS) が自社のすべてのニーズを満たす唯一のプラットフォームであることにすぐに気付きました。同社はすでにさまざまな機能に AWS を使用しており、その機能と規模を熟知しています。 Thomson Reuters が構築した分析ソリューションである Product Insight は、いくつかの AWS サービスに依存しています。

初期のイベント取り込みレイヤーは、Auto Scaling グループ内の Elastic Load Balancing とカスタム NGINX Web サーバーで構成されます。 SSL/TLS が終了すると、取り込みレイヤーはイベントをメタデータで拡張し、AWS Key Management Service (KMS) を使用して暗号化します。

取り込みレイヤーは、保護されたデータを、Amazon Kinesis Streams、Amazon Kinesis Firehose、AWS Lambda サーバーレス コンピューティングで構成されるストリーミング データ パイプラインに配信します。 Thomson Reuters は、Apache Kafka を含む他のストリーミング データ ツールを評価しましたが、管理と拡張が難しいことがわかりました。同社はソフトウェアスタックとサーバー群の管理に煩わされたくなかったため、完全に管理された Amazon Kinesis を選択しました。

Amazon Kinesis ストリーミング データ パイプラインは、データを自動的にバッチ処理し、コスト効率よくプライマリ データ セットに配信して、リージョン間で複製された Amazon Simple Storage Service (Amazon S3) バケットに永続的に保存します。プライマリ データ セットを使用すると、Thomson Reuters は追加の変換手順を適用し、システムが失われた場合にデータを回復し、新しいビジネス ケースをサポートできます。イベントを取り込みレイヤーからデータパイプラインにタイムリーに送信できない場合、フェイルオーバーメカニズムによってイベントが Amazon S3 に配信され、システムが復旧して稼働しているときに再実行されます。

AWS Lambda を利用することで、Thomson Reuters はサーバーをプロビジョニングしたり管理したりすることなく、コスト効率の高い方法でストリーミングデータをロードして処理できます。 Lambda は Kinesis パイプラインからデータを収集し、Amazon S3 のプライマリデータセットにロードします。さらに、Amazon S3 からのデータ通知により、新しいデータが保存されるたびに Lambda がトリガーされ、プライマリデータセットに対して追加の変換が実行されます。 Lambda は、Kinesis および Amazon S3 との統合を通じてデータがトリガーされた場合にのみコードを実行し、コードが実行されたときのみコンピューティング処理に対して課金されます。

Amazon Kinesis ストリームに接続された並列リアルタイムパイプラインは、Thomson Reuters Services プラットフォームに接続されたカスタム抽出、変換、ロード (ETL) サーバーを介して、安全なマルチテナント Elasticsearch クラスターにイベントを配信します。すべて AWS でホストされています。オープンソースのデータ分析および視覚化ツールである Kibana は、認定された Thomson Reuters 製品チームにリアルタイム データを提供します。

さらに、Thomson Reuters Services プラットフォームは、AWS Identity and Access Management (IAM) と Amazon S3 クロスアカウントアクセス機能を使用して認証および承認レイヤーを提供します。同社はソリューションを監視するために Amazon CloudWatch を使用しました。

利点

Product Insight は予定より 2 か月早くリリースされ、技術的な期待を上回りました。 「当初の目標は、1秒あたり2,000件のイベントを処理することでした」とトムソン・ロイターの製品イノベーション担当シニアマネージャー、アンダース・フリッツ氏は語る。 「当社のテストでは、AWS 上の Product Insight は 1 秒あたり最大 4,000 件のイベントを処理できることが示されており、1 年以内に 1 秒あたり 10,000 件を超えるイベントに拡張できると予想しています。」これは、1 か月あたり 250 億件を超えるイベントに相当します。

この高いスループットでも、システムはデータを失うことはありませんでした。 「堅牢なフェイルオーバーアーキテクチャと AWS の技術的能力のおかげで、データの収集を開始して以来、イベントが 1 つも失われていません」と Fritz 氏は言います。

この期間中、米国大統領選挙や英国のEU離脱といったニュースもあり、利用が急増しました。 「毎日のイベント数が倍増しても、取り込みパイプラインは問題なくスムーズにスケールアップおよびスケールダウンできました」と、トムソン・ロイターの主席ソフトウェア エンジニア、マルコ・ピエルレオーニ氏は述べています。

社内の製品チームはすぐに Product Insight を採用し、迅速かつ簡単にシステムに導入しました。 「数時間から数日間ですぐにチームを立ち上げることができます」とフリッツ氏は言います。 「その時間のほとんどは、チームが分析したいデータの計画に費やされます。バックエンドでは、数分で製品データを受信できるようにシステムを設定できます。」 SDK と標準化されたデータ アーキテクチャにより、オンボーディング プロセスが加速されました。

Product Insight は Amazon Kinesis を使用したスト​​リーミング データ アーキテクチャ上に構築されているため、製品チームはほぼリアルタイムでデータにアクセスできます。 「Amazon Kinesis を使用することで、当社のソリューションは 10 秒以内に新しいイベントをユーザーダッシュボードに配信します」と Fritz 氏は言います。 「当社の製品チームは使用パターンを即座に理解して対応することができ、運用担当者はパフォーマンスを監視して、顧客体験に影響を与える前に異常を検出して軽減することができます。」

Product Insight では管理の関与が最小限で済むため、エンジニアはインフラストラクチャの管理に時間を費やすのではなく、製品チームと協力してビジネス価値を高めることに集中できます。さらに、AWS Key Management Service によって実装されたセキュリティは、ソリューションが内部および外部のコンプライアンス要件を満たしていることを保証するのに役立ちます。

<<:  iRobot: AWS Lambda の使いやすさにより、開発者はビジネス価値の創出に多くの時間を費やすことができます

>>:  オレンジクラウドが2021年CIFTISに初登場、中国工業企業の発展に新たな活力を注入

推薦する

顧客獲得期間:チャネル管理をうまく行うには?

これまで、ユーザーライフサイクルの5つの主要な段階(顧客獲得、成長、成熟、衰退、離脱)と、その5つの...

Baidu K サイトの共通の特徴は何ですか?

最近、多くのウェブマスターが、Baidu が多数のウェブサイトを K-ed したことを発見しました。...

NiuBo.comドメイン名が突然「復活」し、「Tmall.com」に変身

7月14日、Niubo.comの創設者である羅永浩氏は、Niubo.comのドメイン名であるbull...

Amazon Web Services: インテリジェンス、専用設計、統合保護に重点を置き、クラウド ストレージのイノベーションを加速

今日、あらゆるビジネスはデータ主導型であるべきです。データからクラウド サービス、ユーザー エクスペ...

enotchnetworks $4.95 1g メモリ openvz または 512M kvm

enotchnetworks は最近、1G メモリの openvz と 512M メモリの KVM ...

Kafka レプリカ間のデータ同期を実現するにはどうすればよいですか?

みなさんこんにちは、私は仙宇です最近かなり忙しくて、1週間近く記事を更新していませんでした。もう更新...

ウェブサイトの持続可能な開発

インターネットの普及によりウェブサイトが急速に発展し、春の雨後の竹の子のようにウェブマスターが大量に...

Kafka ベンダー向けのよくある面接の質問: 高パフォーマンスと高スループットを確保しながら高可用性を確保する

Kafka のメッセージ送信保証メカニズムは非常に直感的です。プロデューサーがブローカーにメッセージ...

cloudserver: 米国のハイエンド VPS、月額 3.5 ドル、4G メモリ/1 コア/30g NVMe/5T トラフィック/10Gbps 帯域幅

Cloudserver は現在、米国東海岸のバッファロー データ センターで、最低 4G のメモリと...

SEO の本質的な目標はランキングではない (パート 2)

今日のSEO環境は大きく悪化しています。スパムがインターネットに溢れており、SEO に取り組んでいる...

アプリケーション依存関係マッピングがクラウド移行に重要な理由

ソフトウェアの依存関係は、効果的なコンポーネントベースのプログラミングの重要な部分です。同時に、ソフ...

企業のウェブサイト最適化では、運用効率を高めるためにマーケティングの双方向モデルを忘れない

多くの企業ウェブサイトのコンテンツは比較的少なく、これは明らかにウェブサイトの最適化における本質的な...

NFVがなければ5Gもありません。 6 年間の仮想化の旅の後半の刺激的な旅が始まったばかりです。

私たちがNFVを愛してから6年が経ちました。この物語は、AT&T、ブリティッシュ・テレコム、...

#BlackFriday# ProfitServer: オランダ/シンガポール/ドイツ/スペイン、無制限トラフィック VPS、50% 割引、月額 2.8 ドルから

今から 11 月末まで、profitserver は、オランダの VPS、シンガポールの VPS、ド...

「スーパーフォンウイルス」がAndroidのセキュリティリスクを浮き彫りに

最近、「××アーティファクト」と呼ばれる「スーパー携帯ウイルス」が全国で発生し、かなりのパニックを引...