データ分析の要となるDWHは、クラウドサービスの普及期を迎えて大きな転換点にある。従来型のオンプレミスDWHの“3層構造”とは何か。クラウドDWHの主要サービスは。
データウェアハウス(DWH)は、ビジネスインテリジェンス(BI)やアナリティクスツール用の大量のデータを取り込み、保存し、処理するために、さまざまな規模の企業が広く活用している。DWHを導入しようとしている企業にとって、オンプレミスDWHとクラウドDWHのどちらを選択するのかは大きな分岐点になる。自社のニーズに合致するのはどちらのDWHなのか。それを判断するために、まずはオンプレミスDWHの基本構造や、クラウドDWHの主要製品について学ぼう。
DWHを実行するには、サーバやOS、ストレージ、データベースといった要素から成るコンピューティングシステムが不可欠だ。企業は自社に適したDWHを選択するには、データベース管理システム(DBMS)だけではなく、システム全体を評価しなければならない。
オンプレミスDWHは、以下の3層で構成される。
企業におけるDWHは、業務データを単一システムに集約する。特定の部門やユーザーグループ向けに、必要なデータのみを保持した小規模なデータベースシステムとして用意できるのがデータマートだ。企業がDWHとデータマートを用いてデータベースシステムを構築する際は、以下の設計手法を参照できる。
クラウドDWHでは、DWHベンダーが上記の手法を用いて、企業のさまざまな処理要件に応えるアーキテクチャを構築する。以下に主要なクラウドDWHを挙げる。
Oracleの「Autonomous Database for analytics and data warehousing」(ADW)は、同社のクラウドDBMS「Autonomous Database」のデータ分析、DWHに特化したモデルだ。リレーショナルDBMS「Oracle Database」とデータベースアプライアンス「Oracle Exadata」を用いて構築されている。
ADWは共有インフラと専有インフラの2形態で利用できる他、自社のデータセンター内でOracleのクラウドサービスを利用できるようにする「Oracle Cloud@Customer」を通じて導入することも可能だ。共有インフラの場合、通常のクラウドサービスと同じように利用できる。専有インフラで利用する場合、企業は独自のコンピューティングやストレージ、ネットワーク、データベースシステムを備えた、プライベートなクラウドDBMSとして運用可能だ。
Microsoftの「Azure Synapse Analytics」は、サーバレスモデルと専有インフラモデルで利用できる、データ分析に特化したクラウドDWHだ。分散SQLエンジン「Synapse SQL」を使用してDWHのクエリを実行する。ビッグデータ分析エンジンとして「Apache Spark」を、データストアとして「Azure Data Lake Storage Gen2」を使うことが可能だ。
Azure Synapse Analyticsが採用しているのは、システムを水平方向に拡張できるスケールアウト型の超並列処理(MPP:大量のデータを複数のサーバで同時に処理する方式)アーキテクチャだ。この仕組みは、複数のノード(サーバ)に処理の負荷を分散させ、コンピューティングリソースとストレージを分離させる。これによって、企業はコンピューティングリソースとストレージのそれぞれを独立してスケーリングできる。
Googleの「BigQuery」は、サーバレスのクラウドDWHだ。SQLで操作可能な分散処理エンジンを備え、MPPによってデータを分析する。機械学習による予測モデリング、位置情報を用いた空間分析などを実行できる。複数のクラウドサービスにまたがるマルチクラウドDWHの構築に使うことも可能だ。
BigQueryはデータの大部分をテーブル形式で保存し、各列(カラム)を個別に格納する列指向方式を採用している。この方式によって、従来の行単位での格納方式と比べて、データセットから必要な列を効率的に取り出すことが可能だ。加えて、データへのアクセスを高速化するために、BigQueryはパーティショニング(データ分割)とクラスタリングを活用している。
Amazon Web Services(AWS)社のクラウドDWHである「Amazon Redshift」は、DWH、運用データベース(日常業務に使うシステム用のデータベース)、データレイクをソースとしてデータを取り込む。分析処理用のサーバをまとめたクラスタ構造であり、必要に応じて規模を拡張できる。サーバレス形式で利用できる他、機械学習、BI、データ統合、ビッグデータ処理などのAWSサービスと連携させることも可能だ。
BigQueryと同様に、Amazon Redshiftはテーブルの列を個別に保存して、データのアクセス性を向上させている。データの物理的な配置を改善して、クエリの実行速度を向上させる自動テーブル最適化機能も備える。
Snowflake社が提供する同名クラウドDWHは、クラウドサービス群「Amazon Web Services」「Microsoft Azure」「Google Cloud」で利用できるように設計されている。Snowflakeが採用する処理アーキテクチャは、データを共有する方式と分散して保存する方式を組み合わせたハイブリッド形式だ。具体的には、中央のストレージを使用してシステム全体でデータを共有しつつ、複数サーバで構成されるMPPクラスタで処理を分散する。クラスタ内の各ノードは、データの一部をローカルに保持して処理する。
フルマネージドサービスであるSnowflakeは、データレイク、データエンジニアリング、データサイエンスといった用途で利用可能だ。
次回は、オンプレミスDWHとクラウドDWHの長所と短所を紹介する。
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
Boseが新型イヤホンをアクセサリーに CMOが語る「オシャレ推しに転じた理由」は?
2024年2月にオープンイヤー型のイヤホン「Bose Ultra Open Earbuds」を発売したBose。従...
「コミュニティー」の正解はオフライン? オンライン? トレジャーデータがコロナ禍で学んだこと
Treasure Data CDPユーザーが主体となって活動するコミュニティー「Treasure Data Rockst...
ニトリやサツドラも導入 自社ECで「Amazonのようなビジネス」を実現するサービスの魅力
オンラインマーケットプレイス構築を支援するMiraklが日本で初のイベントを開催し、新た...