クラウドETL「AWS Glue」「Azure Data Factory」でデータパイプラインを構築する方法：「AWS Glue」と「Azure Data Factory」を徹底比較【中編】

AWSの「AWS Glue」やMicrosoftの「Azure Data Factory」といったクラウドETLは、データパイプラインの構築を支援する。両者の基本的な利用方法を説明する。

≫ 2022年11月14日 05時00分公開

[Chris Tozzi，TechTarget]

AWS GlueとAzure Data Factoryでデータパイプラインを構築する

併せて読みたいお薦め記事

連載：「AWS Glue」と「Azure Data Factory」を徹底比較

前編：クラウドETLの2大巨頭「AWS Glue」「Azure Data Factory」をざっくり理解する

データ活用の仕組みを整備する

　クラウドETLであるAWS GlueとAzure Data Factoryは、共通する前提条件がある。データパイプラインを構築する際に必要な要素は以下になる。

データソース
- データを生成する場所を指す。具体的にはデータベース管理システム（DBMS）やAWSの「Amazon Simple Storage Service」（Amazon S3）、Microsoftの「Azure Blob Storage」などのオブジェクトストレージサービスといったシステムが当てはまる。AWS Glueの場合はAWSサービスが、Azure Data Factoryの場合はMicrosoftのクラウドサービス群「Microsoft Azure」のサービスが最も簡単に連携できる。両者共に、外部のデータソースも連携可能だ。
データターゲット
- データターゲットは、データパイプラインで処理された後のデータを配置する場所を指す。オブジェクトストレージサービスまたはDBMSが当てはまる。

　AWS GlueとAzure Data FactoryのどちらのクラウドETLでデータパイプラインを構築するとしても、クラウドETLがデータソースからデータを収集する方法を定義する必要がある。収集したデータの処理が必要な場合は、その処理方法も定義する。

　データパイプラインは、外部システムからデータを取得してデータソースに足りない情報を補うことができる。データ処理の過程で、データソースから収集した重複データを削除することも可能だ。処理完了後にデータを転送するデータターゲットも指定する必要がある。

　AWS GlueとAzure Data Factoryは、各クラウドサービスの管理画面またはコマンドラインインタフェース（CLI）ツールで管理できる。

TechTarget発　先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

TechTargetジャパントップクラウド