オンプレデータウェアハウスの課題を解決するクラウドサービス:オンプレ/クラウドDWH【後編】
データウェアハウスをオンプレミスに構築することは可能だが、スケーリングなどの面で課題がある。ここで、十分に成熟してきたクラウドサービスが選択肢になる。
前編「データウェアハウスのオンプレ構築の課題を解決するアプライアンス」では、DWHを定義してDWHを構成するデータの種類、必要なストレージ、各社のアプライアンス製品を紹介した。
後編では、AWS、「Microsoft Azure」「Google Cloud」が提供しているDWHのクラウドサービスを解説する。
関連記事
- 世界で最も人気のデータベース「MySQL」ベースの分析サービス登場
- あらゆるデータを一元的に分析できる「オープンデータレイク分析」
- データレイク、オンプレ運用か? クラウド利用か?
- いまさら聞けない「データマート」の基礎 「DWH」との違いを納得させるには?
- データウェアハウスとしてのSAP HANA
クラウドへの進化
クラウドが成熟する以前は、分析に最適なソリューションはオンプレミスのDWHアプライアンスだった。
だが購入、運用、保守に多くのコストが必要で、スケーリングにはさらに課題が生じる。段階的にアップグレードすることはできず、必要以上のスペックの製品を購入しなければならなかった。
ここ10年で、クラウドサービスはDWHが適合する程度まで成長している。
DWHをクラウドで運用すれば、設備投資や保守・運用コストをプロバイダーに負担させることができる。
AWS、Azure、Google CloudはいずれもDWHサービスを用意し、データベースを軸とするコア機能の他、ETLやデータ可視化などの追加機能を提供する。
Amazon Redshift
「Amazon Redshift」はクラウドのマネージドDWHサービスだ。数百GBから数PBまでデータをスケーリングできる。DWHを作成するには、「Redshiftクラスタ」というノードのセットを起動する。ここでは、SQLベースのツールやビジネスインテリジェンスアプリケーションを使ってデータセットのアップロードやデータ分析クエリの実行が可能だ。Amazon Redshiftは専用コンソールまたはCLIで管理できる。APIを使って管理アプリケーションを作成することも可能だ。
AWSはOracle製品からの移行を希望するユーザーをターゲットにしており、「Matillion ETL」や「Tableau」を含むパッケージも提供している。
「Amazon Redshift Spectrum」でも「Amazon S3」に格納されたデータを分析できる。
Azure Synapse Analytics
「Azure Synapse Analytics」(旧称「Azure SQL Data Warehouse」)はMicrosoftのペタバイトクラスのマネージドサービスで、データ量に応じて対称型マルチプロセッシング(SMP:Symmetric Multi Processing)またはMPPでデータを処理する。Microsoftはコンピューティングリソースとストレージリソースを個別に管理できるようにしており、データの永続化中はコンピューティング層を一時停止することでコスト削減を図れる。
このサービスは「Azure SQL Database」を基盤とする。Azure Synapse Analyticsは物理PCを抽象化し、コンピューティングリソースを自由かつ容易にスケーリングできる。
ETLは「Azure Data Factory」が提供する。
Google BigQuery
「BigQuery」は「Google Cloud Platform」のDWHサービスだ。他の2社と同様、ANSI SQLによるクエリを備えたペタバイトクラスのDWHを提供する。
BigQueryは機械学習、地理情報システム、ビジネス情報のユースケースをターゲットとするソフトウェアモジュールを備え、データベースの代わりに「Googleスプレッドシート」を使うこともできる。
BigQueryにはコンソールかCLI、APIでアクセスする。
Google Cloudのマーケティング資料によると、オンプレミスのTeradata製品からの移行を希望するユーザーとAmazon Redshiftユーザーが具体的なターゲットだという。
Copyright © ITmedia, Inc. All Rights Reserved.