データレイクを経てデータを分析するのがデータウェアハウス(DWH)だ。DWHのストレージ要件とはどのようなものか。オンプレミス構築の課題を解決してくれるDWHアプライアンスとはどのようなものか。
「データレイクとは何か――メリット、ストレージ、オンプレ/クラウドの是非」で、データレイクの考え方を確認した。今回はデータウェアハウス(以下DWH)を定義し、DWHを構成するデータの種類、必要なストレージ、製品やサービスを紹介する。
DWHを定義する鍵は、そこに流れ込むデータのソースを理解することだ。それが、データレイクだ。
上記の記事で確認したように、データレイクは企業の全データのリポジトリだ。そこには構造化データも非構造化データも半構造化データもある。これを扱うのはデータサイエンティストの領分であり、ユーザーやほとんどのITスタッフにとってアクセスするようなものではない。
データはメタデータによって検索でき、ある程度はクエリ可能だ。だが分析する場所ではない。データレイクは分析作業前にデータを配置し、データを処理する場所だ。
分析を行うのはDWHだ。無秩序なデータレイクとは異なり、DWHは正しく整理されておりデータベースの構造化データで構成される。
データレイクはほとんど整理されておらず、アクセスはそれほど高速でなくてもよい。配置されるデータには無数の形式がある。そのデータを把握するには、多くの場合「Apache Hadoop」や「Apache Spark」などのスキーマオンリードツールやAmazon Web Services(AWS)の「Amazon Athena」(訳注:SQLでAmazon S3をクエリするサービス)が必要になる。
データがDWHに到着した時点でデータの精査とラングリング(分析用の前処理)は行われており、通常はETL(抽出、変換、読み込み)プロセスの対象として1つ以上のデータベースに保管される。
データへのアクセスは分析が目的なのでトランザクションデータベースほどの高速性は必要ない。ただし分析処理を目的としてデータセットがアクセスまたはコピーされるので、入出力(I/O)は相当量のシーケンシャルトラフィックになると考えられる。
こうした要件から、DWHのストレージにはある程度のパフォーマンス(高RPM、SAS)のHDDまたはフラッシュが利用されることが多い。シーケンシャルアクセスに適したQLCが要件を満たす可能性がある。
DWHを独自に構築することは可能だ。ストレージの仕様は比較的容易な部類に入る。だが、その影響が将来にも及ぶことを考えると複雑になる可能性がある。
こうした課題を軽減するため、多くのベンダーがDWHアプライアンスを提供している。こうしたアプライアンスはハードウェア、OS、DBMS、ストレージ、ネットワークが構成済みで、スケールアウトされるものが多い。
DWHアプライアンスを最初に提供したのがNetezzaだ。同社は2010年にIBMに買収され、ブランド名を変えて5年ほど存在したがやがて姿を消した。この状況が変わったのは2019年のことだ。IBMがRed Hatを買収し、フラッシュストレージ、FPGAでの処理、オンプレミスでもクラウドでも運用できる機能を備えたアプライアンスとしてNetezzaブランドを復活させた。
DWHのパイオニア的存在のTeradataは、クラウドおよびハードウェアベースのDWHやビジネス分析、コンサルティングサービスを提供している。「Teradata Everywhere」により、ユーザーは超並列処理(MPP:Massively Parallel Processing)を使ってオンプレミスDWH、マルチクラウドストレージ、ハイブリッドクラウドストレージ全体のパブリックデータベースとプライベートデータベースにクエリを送信できる。「Teradata IntelliFlex」はフラッシュストレージを使って数百PBにスケーリングできるDWHだ。「Teradata intelliCloud」はデータとAnalytics as a Service用のセキュアなマネージドクラウドだ。
EMCはしばらくの間オープンソースの「Greenplum」を自社のハードウェアにバンドルする形で販売していたが、現在はGreenplumのみで販売している。Greenplumは同社のDWHを軸とし、高度に並列化された「PostgreSQL」を基盤とする。このソフトウェアは大手ベンダーと競合するクラウドでの使用をターゲットにしているが、コンテナ化してオンプレミスで運用することも可能だ。
OracleはかつてDWHアプライアンスを販売していた。現在は「Oracle Autonomous Data Warehouse」をクラウドサービスとして提供している。このサービスは「Oracle Database」を基盤とする。
後編では、AWS、「Microsoft Azure」「Google Cloud」が提供しているDWHのクラウドサービスを解説する。
Copyright © ITmedia, Inc. All Rights Reserved.
工場や倉庫などの現場では、人手不足などにより業務負担の増大が懸念されており、業務のデジタル化と業務プロセスの改善が急務となっている。そこでモバイルアプリの作成からデータ連携までをノーコードで実現できる製品が注目されている。
広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。
人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。
多くの企業でデータ活用が模索されているが、データ処理の煩雑さや属人化が課題となっている企業は少なくない。そこで注目したいのが、データ分析ツールの活用で課題を一掃した「ゼンリンマーケティングソリューションズ」の取り組みだ。
複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。
「人の動き」で見えない価値を見つけ出す 人流データが切り開く都市開発の未来 (2025/5/2)
導入の壁を突破してMicrosoft 365 Copilotを活用する方法 (2025/3/12)
クラウドの利便性とオンプレの制御性を両立、AI環境構築の新たな選択肢とは? (2025/3/6)
Dellが解説する生成AIインフラの“今” モデルだけじゃない必要知識 (2024/11/21)
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。