「データウェアハウス」丸分かり 比較、事例、解説記事を紹介

ユーザー企業のIT担当者を対象に、IT製品/サービスの導入・購買に役立つ情報を提供する無料の会員制メディア「TechTargetジャパン」。このコンテンツでは、データウェアハウスに関する事例、比較、解説の記事を紹介します。製品/サービス選定の参考にご覧ください(リンク先のページはPR記事を含みます)。

データウェアハウスのオンプレ構築の課題を解決するアプライアンス

 DWHを定義する鍵は、そこに流れ込むデータのソースを理解することだ。それが、データレイクだ。(続きはページの末尾にあります)

データウェアハウス関連の比較

いまさら聞けない「オンプレミスDWH」「クラウドDWH」の基礎

データ分析の要となるDWHは、クラウドサービスの普及期を迎えて大きな転換点にある。従来型のオンプレミスDWHの“3層構造”とは何か。クラウドDWHの主要サービスは。

(2024/12/3)

オンプレデータウェアハウスの課題を解決するクラウドサービス

データウェアハウスをオンプレミスに構築することは可能だが、スケーリングなどの面で課題がある。ここで、十分に成熟してきたクラウドサービスが選択肢になる。

(2021/6/9)

いまさら聞けない「データマート」の基礎 「DWH」との違いを納得させるには?

欲しいデータをより迅速に手に入れたいというニーズを満たすのが「データマート」だ。そのメリットを整理し、データウェアハウス導入済みの企業が、新たにデータマートを構築する際の予算獲得のこつを紹介する。

(2021/4/28)

注目の比較記事一覧へ

データウェアハウス関連の事例

東急不動産HDが“脱Excel”で年間1000時間の業務を削減 その具体的な手段とは?

全社横断的なデータ活用を進める東急不動産HDの事例や、ログ分析の効率化を図る九州工業大学の事例、お天気アプリ「ウェザーニュース」の企業向け新サービスなど、データ分析の主要なニュースを紹介する。

(2022/11/10)

従来型データウェアハウスでは分析できない、次世代ツールの「分析対象」

データウェアハウスもデータレイクも限界が見えた今、各社は「次世代型データウェアハウス」で市場をリードしようとしている。最後に生き残るアーキテクチャとは?

(2021/12/16)

医療問題に取り組む非営利団体は「データウェアハウス」(DWH)をどう選んだのか

世界各国で産科瘻孔の問題に取り組むOperation Fistulaは、データ分析の要としてデータウェアハウスの「Exasol」を重視している。同団体がExasolを採用したいきさつとは。

(2020/9/15)

注目の事例記事一覧へ

データウェアハウス関連の製品解説

データウェアハウスのオンプレ構築の課題を解決するアプライアンス

データレイクを経てデータを分析するのがデータウェアハウス(DWH)だ。DWHのストレージ要件とはどのようなものか。オンプレミス構築の課題を解決してくれるDWHアプライアンスとはどのようなものか。

(2021/6/2)

Next Pathway、オンプレミスDWHのクラウド移行を支援する「Crawler360」を発表

Next Pathwayは新たなツール「Crawler360」を発表した。「Netezza」「Teradata」などのオンプレミスのDWHやデータレイクからクラウドサービスへ移行する際の影響やコストなどを把握しやすくする。

(2020/12/17)

データレイクでSQLクエリを直接実行できる「SQL Analytics」 Databricksが発表

Databricksは、データレイクでSQLクエリを直接実行できるサービス「SQL Analytics」を発表した。データウェアハウスとデータレイクの特徴を兼ね備えた「レイクハウス」具現化の一環だ。

(2020/12/4)

注目の製品解説記事一覧へ

データウェアハウス関連の技術解説

枯れたはずのDWHが「クラウドDWH」で再び盛り上がる訳

大規模データの蓄積や処理に使われる技術の中では「Hadoop」が優勢だった。だが最近は、一時期守勢に立たされたはずの「DWH」が「クラウドDWH」へと形を変え、再び関心を集めつつある。背景には何があるのか。

(2023/3/17)

データウェアハウスとデータレイクが新時代に適応できない弱点

長い歴史を持つデータウェアハウスはもう不要だという専門家もいる。実際、データウェアハウスはニーズの変化に適応できていない。代わりに登場したデータレイクにも課題が見えてきた。

(2021/12/9)

ビッグデータの高速処理を支えるハードウェア

低コストのソリッドステートメモリは、ソーシャルネットワークフィードやインダストリアルインターネットから来るビッグデータストリーミングの高速分析を支えている。

(2013/10/30)

注目の技術解説記事一覧へ

データウェアハウス関連の用語解説

いまさら聞けない「データウェアハウス」の基礎 何ができるのか?

データ活用の要となるシステムが「データウェアハウス」だ。どのような役割やメリットを持つのか。データウェアハウスの基本的な特徴を整理する。

(2021/4/13)

注目の用語解説記事一覧へ

DWHとは

 データレイクは企業の全データのリポジトリだ。そこには構造化データも非構造化データも半構造化データもある。これを扱うのはデータサイエンティストの領分であり、ユーザーやほとんどのITスタッフにとってアクセスするようなものではない。

 データはメタデータによって検索でき、ある程度はクエリ可能だ。だが分析する場所ではない。データレイクは分析作業前にデータを配置し、データを処理する場所だ。

 分析を行うのはDWHだ。無秩序なデータレイクとは異なり、DWHは正しく整理されておりデータベースの構造化データで構成される。

DWHのストレージ

 データレイクはほとんど整理されておらず、アクセスはそれほど高速でなくてもよい。配置されるデータには無数の形式がある。そのデータを把握するには、多くの場合「Apache Hadoop」や「Apache Spark」などのスキーマオンリードツールやAmazon Web Services(AWS)の「Amazon Athena」(訳注:SQLでAmazon S3をクエリするサービス)が必要になる。

 データがDWHに到着した時点でデータの精査とラングリング(分析用の前処理)は行われており、通常はETL(抽出、変換、読み込み)プロセスの対象として1つ以上のデータベースに保管される。

 データへのアクセスは分析が目的なのでトランザクションデータベースほどの高速性は必要ない。ただし分析処理を目的としてデータセットがアクセスまたはコピーされるので、入出力(I/O)は相当量のシーケンシャルトラフィックになると考えられる。

 こうした要件から、DWHのストレージにはある程度のパフォーマンス(高RPM、SAS)のHDDまたはフラッシュが利用されることが多い。シーケンシャルアクセスに適したQLCが要件を満たす可能性がある。

DWHのアプライアンス

 DWHを独自に構築することは可能だ。ストレージの仕様は比較的容易な部類に入る。だが、その影響が将来にも及ぶことを考えると複雑になる可能性がある。

 こうした課題を軽減するため、多くのベンダーがDWHアプライアンスを提供している。こうしたアプライアンスはハードウェア、OS、DBMS、ストレージ、ネットワークが構成済みで、スケールアウトされるものが多い。

 DWHアプライアンスを最初に提供したのがNetezzaだ。同社は2010年にIBMに買収され、ブランド名を変えて5年ほど存在したがやがて姿を消した。この状況が変わったのは2019年のことだ。IBMがRed Hatを買収し、フラッシュストレージ、FPGAでの処理、オンプレミスでもクラウドでも運用できる機能を備えたアプライアンスとしてNetezzaブランドを復活させた。

 DWHのパイオニア的存在のTeradataは、クラウドおよびハードウェアベースのDWHやビジネス分析、コンサルティングサービスを提供している。「Teradata Everywhere」により、ユーザーは超並列処理(MPP:Massively Parallel Processing)を使ってオンプレミスDWH、マルチクラウドストレージ、ハイブリッドクラウドストレージ全体のパブリックデータベースとプライベートデータベースにクエリを送信できる。「Teradata IntelliFlex」はフラッシュストレージを使って数百PBにスケーリングできるDWHだ。「Teradata intelliCloud」はデータとAnalytics as a Service用のセキュアなマネージドクラウドだ。

 EMCはしばらくの間オープンソースの「Greenplum」を自社のハードウェアにバンドルする形で販売していたが、現在はGreenplumのみで販売している。Greenplumは同社のDWHを軸とし、高度に並列化された「PostgreSQL」を基盤とする。このソフトウェアは大手ベンダーと競合するクラウドでの使用をターゲットにしているが、コンテナ化してオンプレミスで運用することも可能だ。

 OracleはかつてDWHアプライアンスを販売していた。現在は「Oracle Autonomous Data Warehouse」をクラウドサービスとして提供している。このサービスは「Oracle Database」を基盤とする。