データレイクを経てデータを分析するのがデータウェアハウス(DWH)だ。DWHのストレージ要件とはどのようなものか。オンプレミス構築の課題を解決してくれるDWHアプライアンスとはどのようなものか。
「データレイクとは何か――メリット、ストレージ、オンプレ/クラウドの是非」で、データレイクの考え方を確認した。今回はデータウェアハウス(以下DWH)を定義し、DWHを構成するデータの種類、必要なストレージ、製品やサービスを紹介する。
DWHを定義する鍵は、そこに流れ込むデータのソースを理解することだ。それが、データレイクだ。
上記の記事で確認したように、データレイクは企業の全データのリポジトリだ。そこには構造化データも非構造化データも半構造化データもある。これを扱うのはデータサイエンティストの領分であり、ユーザーやほとんどのITスタッフにとってアクセスするようなものではない。
データはメタデータによって検索でき、ある程度はクエリ可能だ。だが分析する場所ではない。データレイクは分析作業前にデータを配置し、データを処理する場所だ。
分析を行うのはDWHだ。無秩序なデータレイクとは異なり、DWHは正しく整理されておりデータベースの構造化データで構成される。
データレイクはほとんど整理されておらず、アクセスはそれほど高速でなくてもよい。配置されるデータには無数の形式がある。そのデータを把握するには、多くの場合「Apache Hadoop」や「Apache Spark」などのスキーマオンリードツールやAmazon Web Services(AWS)の「Amazon Athena」(訳注:SQLでAmazon S3をクエリするサービス)が必要になる。
データがDWHに到着した時点でデータの精査とラングリング(分析用の前処理)は行われており、通常はETL(抽出、変換、読み込み)プロセスの対象として1つ以上のデータベースに保管される。
データへのアクセスは分析が目的なのでトランザクションデータベースほどの高速性は必要ない。ただし分析処理を目的としてデータセットがアクセスまたはコピーされるので、入出力(I/O)は相当量のシーケンシャルトラフィックになると考えられる。
こうした要件から、DWHのストレージにはある程度のパフォーマンス(高RPM、SAS)のHDDまたはフラッシュが利用されることが多い。シーケンシャルアクセスに適したQLCが要件を満たす可能性がある。
DWHを独自に構築することは可能だ。ストレージの仕様は比較的容易な部類に入る。だが、その影響が将来にも及ぶことを考えると複雑になる可能性がある。
こうした課題を軽減するため、多くのベンダーがDWHアプライアンスを提供している。こうしたアプライアンスはハードウェア、OS、DBMS、ストレージ、ネットワークが構成済みで、スケールアウトされるものが多い。
DWHアプライアンスを最初に提供したのがNetezzaだ。同社は2010年にIBMに買収され、ブランド名を変えて5年ほど存在したがやがて姿を消した。この状況が変わったのは2019年のことだ。IBMがRed Hatを買収し、フラッシュストレージ、FPGAでの処理、オンプレミスでもクラウドでも運用できる機能を備えたアプライアンスとしてNetezzaブランドを復活させた。
DWHのパイオニア的存在のTeradataは、クラウドおよびハードウェアベースのDWHやビジネス分析、コンサルティングサービスを提供している。「Teradata Everywhere」により、ユーザーは超並列処理(MPP:Massively Parallel Processing)を使ってオンプレミスDWH、マルチクラウドストレージ、ハイブリッドクラウドストレージ全体のパブリックデータベースとプライベートデータベースにクエリを送信できる。「Teradata IntelliFlex」はフラッシュストレージを使って数百PBにスケーリングできるDWHだ。「Teradata intelliCloud」はデータとAnalytics as a Service用のセキュアなマネージドクラウドだ。
EMCはしばらくの間オープンソースの「Greenplum」を自社のハードウェアにバンドルする形で販売していたが、現在はGreenplumのみで販売している。Greenplumは同社のDWHを軸とし、高度に並列化された「PostgreSQL」を基盤とする。このソフトウェアは大手ベンダーと競合するクラウドでの使用をターゲットにしているが、コンテナ化してオンプレミスで運用することも可能だ。
OracleはかつてDWHアプライアンスを販売していた。現在は「Oracle Autonomous Data Warehouse」をクラウドサービスとして提供している。このサービスは「Oracle Database」を基盤とする。
後編では、AWS、「Microsoft Azure」「Google Cloud」が提供しているDWHのクラウドサービスを解説する。
Copyright © ITmedia, Inc. All Rights Reserved.
データ活用におけるさまざまな課題を解決するBIツール。近年は、その枠を超え、さらなるデータ活用を促進するデータ分析プラットフォームへの注目度が高まっている。3社の事例を基に、同製品の魅力と実力に迫る。
データの可視化/分析をサポートするツールとして定評のあるBIツールだが、導入したものの活用できていない企業は意外と多い。その理由を確認するとともに、解決策として注目したい「チャットBI」の機能やメリットを詳しく解説する。
SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?
多くの企業で「情報の分断」や「手作業によるデータ処理への依存」が課題となり、迅速な経営判断を阻害している。本資料では、クラウドとBIツールを活用した分析基盤を構築し、これらの課題を解決した2社の事例を紹介する。
データドリブン経営の必要性が叫ばれる今も、グローバルに拠点を展開する企業は、決算データの収集に時間がかかり、整合性をとるのも難しいなど、多くの課題を抱えている。この状況を改善するには、どのようなアプローチが有効だろうか。
「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...