検索
特集/連載

オンプレデータウェアハウスの課題を解決するクラウドサービスオンプレ/クラウドDWH【後編】

データウェアハウスをオンプレミスに構築することは可能だが、スケーリングなどの面で課題がある。ここで、十分に成熟してきたクラウドサービスが選択肢になる。

Share
Tweet
LINE
Hatena

 前編「データウェアハウスのオンプレ構築の課題を解決するアプライアンス」では、DWHを定義してDWHを構成するデータの種類、必要なストレージ、各社のアプライアンス製品を紹介した。

 後編では、AWS、「Microsoft Azure」「Google Cloud」が提供しているDWHのクラウドサービスを解説する。

クラウドへの進化

 クラウドが成熟する以前は、分析に最適なソリューションはオンプレミスのDWHアプライアンスだった。

 だが購入、運用、保守に多くのコストが必要で、スケーリングにはさらに課題が生じる。段階的にアップグレードすることはできず、必要以上のスペックの製品を購入しなければならなかった。

 ここ10年で、クラウドサービスはDWHが適合する程度まで成長している。

 DWHをクラウドで運用すれば、設備投資や保守・運用コストをプロバイダーに負担させることができる。

 AWS、Azure、Google CloudはいずれもDWHサービスを用意し、データベースを軸とするコア機能の他、ETLやデータ可視化などの追加機能を提供する。

Amazon Redshift

 「Amazon Redshift」はクラウドのマネージドDWHサービスだ。数百GBから数PBまでデータをスケーリングできる。DWHを作成するには、「Redshiftクラスタ」というノードのセットを起動する。ここでは、SQLベースのツールやビジネスインテリジェンスアプリケーションを使ってデータセットのアップロードやデータ分析クエリの実行が可能だ。Amazon Redshiftは専用コンソールまたはCLIで管理できる。APIを使って管理アプリケーションを作成することも可能だ。

 AWSはOracle製品からの移行を希望するユーザーをターゲットにしており、「Matillion ETL」や「Tableau」を含むパッケージも提供している。

 「Amazon Redshift Spectrum」でも「Amazon S3」に格納されたデータを分析できる。

Azure Synapse Analytics

 「Azure Synapse Analytics」(旧称「Azure SQL Data Warehouse」)はMicrosoftのペタバイトクラスのマネージドサービスで、データ量に応じて対称型マルチプロセッシング(SMP:Symmetric Multi Processing)またはMPPでデータを処理する。Microsoftはコンピューティングリソースとストレージリソースを個別に管理できるようにしており、データの永続化中はコンピューティング層を一時停止することでコスト削減を図れる。

 このサービスは「Azure SQL Database」を基盤とする。Azure Synapse Analyticsは物理PCを抽象化し、コンピューティングリソースを自由かつ容易にスケーリングできる。

 ETLは「Azure Data Factory」が提供する。

Google BigQuery

 「BigQuery」は「Google Cloud Platform」のDWHサービスだ。他の2社と同様、ANSI SQLによるクエリを備えたペタバイトクラスのDWHを提供する。

 BigQueryは機械学習、地理情報システム、ビジネス情報のユースケースをターゲットとするソフトウェアモジュールを備え、データベースの代わりに「Googleスプレッドシート」を使うこともできる。

 BigQueryにはコンソールかCLI、APIでアクセスする。

 Google Cloudのマーケティング資料によると、オンプレミスのTeradata製品からの移行を希望するユーザーとAmazon Redshiftユーザーが具体的なターゲットだという。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る