クラウドETL「AWS Glue」「Azure Data Factory」でデータパイプラインを構築する方法「AWS Glue」と「Azure Data Factory」を徹底比較【中編】

AWSの「AWS Glue」やMicrosoftの「Azure Data Factory」といったクラウドETLは、データパイプラインの構築を支援する。両者の基本的な利用方法を説明する。

2022年11月14日 05時00分 公開
[Chris TozziTechTarget]

 Amazon Web ServicesとMicrosoftは、ETL(データの抽出、変換、読み込み)のクラウドサービス(以下、クラウドETL)として、それぞれ「AWS Glue」と「Azure Data Factory」を提供している。ユーザー企業はこれらのクラウドETLを利用することで、容易にデータパイプライン(さまざまなデータソースからデータを取り込むシステム)を構築可能だ。AWS GlueやAzure Data Factoryを使い、データパイプラインを構築する方法を説明する。

AWS GlueとAzure Data Factoryでデータパイプラインを構築する

 クラウドETLであるAWS GlueとAzure Data Factoryは、共通する前提条件がある。データパイプラインを構築する際に必要な要素は以下になる。

  • データソース
    • データを生成する場所を指す。具体的にはデータベース管理システム(DBMS)やAWSの「Amazon Simple Storage Service」(Amazon S3)、Microsoftの「Azure Blob Storage」などのオブジェクトストレージサービスといったシステムが当てはまる。AWS Glueの場合はAWSサービスが、Azure Data Factoryの場合はMicrosoftのクラウドサービス群「Microsoft Azure」のサービスが最も簡単に連携できる。両者共に、外部のデータソースも連携可能だ。
  • データターゲット
    • データターゲットは、データパイプラインで処理された後のデータを配置する場所を指す。オブジェクトストレージサービスまたはDBMSが当てはまる。

 AWS GlueとAzure Data FactoryのどちらのクラウドETLでデータパイプラインを構築するとしても、クラウドETLがデータソースからデータを収集する方法を定義する必要がある。収集したデータの処理が必要な場合は、その処理方法も定義する。

 データパイプラインは、外部システムからデータを取得してデータソースに足りない情報を補うことができる。データ処理の過程で、データソースから収集した重複データを削除することも可能だ。処理完了後にデータを転送するデータターゲットも指定する必要がある。

 AWS GlueとAzure Data Factoryは、各クラウドサービスの管理画面またはコマンドラインインタフェース(CLI)ツールで管理できる。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

ITmedia マーケティング新着記事

news094.jpg

「押し付けがましい広告」が配信されたとき、消費者はどう感じるか
消費者は個人データに依存した広告よりも、記事などのコンテンツの文脈に沿っている広告...

news074.jpg

SNS発信のベストな時間帯(2025年版) InstagramとFacebook、TikTokでどう違う?
Hootsuiteが2025年版のソーシャルメディア最適投稿時間を公開。各プラットフォームごとの...

news161.jpg

「動画広告がディスプレイ広告超え」他、電通「2024年 日本の広告費」インターネット広告媒体費の詳細分析
国内電通グループのデジタル領域をけん引する4社は共同で「2024年 日本の広告費」のイン...