AWSの「AWS Glue」やMicrosoftの「Azure Data Factory」といったクラウドETLは、データパイプラインの構築を支援する。両者の基本的な利用方法を説明する。
Amazon Web ServicesとMicrosoftは、ETL(データの抽出、変換、読み込み)のクラウドサービス(以下、クラウドETL)として、それぞれ「AWS Glue」と「Azure Data Factory」を提供している。ユーザー企業はこれらのクラウドETLを利用することで、容易にデータパイプライン(さまざまなデータソースからデータを取り込むシステム)を構築可能だ。AWS GlueやAzure Data Factoryを使い、データパイプラインを構築する方法を説明する。
クラウドETLであるAWS GlueとAzure Data Factoryは、共通する前提条件がある。データパイプラインを構築する際に必要な要素は以下になる。
AWS GlueとAzure Data FactoryのどちらのクラウドETLでデータパイプラインを構築するとしても、クラウドETLがデータソースからデータを収集する方法を定義する必要がある。収集したデータの処理が必要な場合は、その処理方法も定義する。
データパイプラインは、外部システムからデータを取得してデータソースに足りない情報を補うことができる。データ処理の過程で、データソースから収集した重複データを削除することも可能だ。処理完了後にデータを転送するデータターゲットも指定する必要がある。
AWS GlueとAzure Data Factoryは、各クラウドサービスの管理画面またはコマンドラインインタフェース(CLI)ツールで管理できる。
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
SASのCMOが語る マーケティング部門が社内の生成AI活用のけん引役に適している理由
データとアナリティクスの世界で半世紀近くにわたり知見を培ってきたSAS。同社のCMOに、...
SALES ROBOTICSが「カスタマーサクセス支援サービス」を提供
SALES ROBOTICSは、カスタマーサクセスを実現する新サービスの提供を開始した。
「Fortnite」を活用 朝日広告社がメタバース空間制作サービスとマーケティング支援を開始
朝日広告社は、人気ゲーム「Fortnite」に新たなゲームメタバース空間を公開した。また、...