導入事例:「データウェアハウス」活用法をユーザーに聞く

ユーザー企業のIT担当者を対象に、IT製品/サービスの導入・購買に役立つ情報を提供する無料の会員制メディア「TechTargetジャパン」。このコンテンツでは、事例に関する事例の記事を紹介します。製品/サービス選定の参考にご覧ください(リンク先のページはPR記事を含みます)。

データウェアハウスのオンプレ構築の課題を解決するアプライアンス

 DWHを定義する鍵は、そこに流れ込むデータのソースを理解することだ。それが、データレイクだ。(続きはページの末尾にあります)

データウェアハウス関連の事例

東急不動産HDが“脱Excel”で年間1000時間の業務を削減 その具体的な手段とは?

全社横断的なデータ活用を進める東急不動産HDの事例や、ログ分析の効率化を図る九州工業大学の事例、お天気アプリ「ウェザーニュース」の企業向け新サービスなど、データ分析の主要なニュースを紹介する。

(2022/11/10)

従来型データウェアハウスでは分析できない、次世代ツールの「分析対象」

データウェアハウスもデータレイクも限界が見えた今、各社は「次世代型データウェアハウス」で市場をリードしようとしている。最後に生き残るアーキテクチャとは?

(2021/12/16)

医療問題に取り組む非営利団体は「データウェアハウス」(DWH)をどう選んだのか

世界各国で産科瘻孔の問題に取り組むOperation Fistulaは、データ分析の要としてデータウェアハウスの「Exasol」を重視している。同団体がExasolを採用したいきさつとは。

(2020/9/15)

クラウドDWH(データウェアハウス)は今までのDWHと何が違うのか?

Googleの「BigQuery」やAWSの「Redshift」などの「クラウドDWH」が充実しつつある。クラウドDWHには、オンプレミスのDWHと比べてどのような特徴があるのだろうか。

(2019/2/1)

徹底比較:データウェアハウス、データレイク、データマート、ODSの違いは?

データウェアハウス、データレイク、データマートなど、ビッグデータを収容する方法は少なくない。とはいえ、どの方法を選ぶかはデータの使用目的や使用者によって変わる。本稿では、これらの違いを考える。

(2018/11/22)

事例:DWH高速化をフラッシュストレージで実現した愛媛大学医学部附属病院

2014年5月に新システムの本稼働を開始した愛媛大学医学部附属病院。リアルタイムなデータ分析を実現するため、DWHにフラッシュストレージを採用した。その取り組みを紹介する。

(2015/11/10)

いちよし証券がDWH専用データベースを採用した5つの理由

高速なデータ分析処理という観点で、処理性能やメンテナンス、運用コストなどを考慮してDWH構築に適したデータベースを比較。その結果、DWH専用データベースの採用を決めた。

(2014/4/22)

消費者を中心に据えるP&Gのデータ分析基盤

消費財メーカーの米Procter & Gambleでは、米TeradataのDWHをクラウド上に構築し、各ブランドのWebサイトなどから集まるデータの分析に利用している。しかしながら、ここに至るまでの道のりは長かったようだ。

(2013/12/24)

日本航空も活用、DWHでビッグデータ予測分析も可能な「IBM SPSS Modeler」

日本IBMの「IBM SPSS Modeler」は、簡単な操作でデータマイニングや統計解析ができる予測分析製品だ。DWHと組み合わせることで大量データを利用した予測分析も可能になる。

(2013/4/18)

高まるDWHへの投資意欲、「砂金探し」のビッグデータ活用を成功させるには

ビッグデータ活用の流れに乗ってDWHへの投資意欲が増している。しかし「データ分析システムを単独で構築するだけでは、ビジネス上の実効性はない」とアナリストは指摘する。

(2012/4/11)

Active Workspaceで、設計・開発業務フローのムダは解消されるか

PLMツールもユーザー中心設計に。シーメンスPLMソフトウェアが提唱するHD-PLMビジョンに即した製品がついにリリース。エンジニアリングチェーン全体の情報集約、意思決定支援を目指す。

(2012/4/5)

マイクロソフトが考えるアジャイルDWH開発「3つの原則」

日本マイクロソフトのマーケティング担当者は、DWH構築のキーワードは「アジャイル」だと言う。実際同社ではどのようにDWH構築を行っているのだろうか。

(2012/1/10)

マイクロソフトが実践するビッグデータ時代のアジャイルDWH構築

マイクロソフトでは自社内のDWH開発においてウォーターフォール型の開発を採用していないという。刻々と変化するデータを自在に扱うために同社はどのような開発体制を取っているのか。

(2011/12/16)

Hadoopがビッグデータの分析基盤として注目されるわけ

ビッグデータをビジネスに生かすための分析基盤として注目されているHadoop。従来のRDBMSでは対応が難しい理由とともに、Hadoopがなぜビッグデータ対応に適しているのかを解説する。

(2011/11/18)

NECとマイクロストラテジー、意志決定・情報共有支援のBIソフト販売で協業

NECがBIソフト「MicroStrategy 8」の販売を開始。DWHアプライアンス製品「Netezza Performance Server」との連携も可能だ。

(2008/7/18)

資生堂がオラクルのBIスイートで新マーケティングシステム構築、13億件のデータ活用を可能に

「Oracle Business Intelligence Suite Enterprise Edition」を採用。最大のデータベースでは13億件超のデータ、総データベース容量24Tバイトと、Oracle BIEEを活用したシステムとして世界有数の大規模なシステムを構築した。

(2008/6/26)

マイクロソフトとTeradataがBIソリューション分野で協業、トレーニングなど実施

マイクロソフトとTeradataが、BI(ビジネスインテリジェンス)ソリューション分野で協業を発表した。共同でセミナーやトレーニングを実施する。

(2007/4/13)

DWHとは

 データレイクは企業の全データのリポジトリだ。そこには構造化データも非構造化データも半構造化データもある。これを扱うのはデータサイエンティストの領分であり、ユーザーやほとんどのITスタッフにとってアクセスするようなものではない。

 データはメタデータによって検索でき、ある程度はクエリ可能だ。だが分析する場所ではない。データレイクは分析作業前にデータを配置し、データを処理する場所だ。

 分析を行うのはDWHだ。無秩序なデータレイクとは異なり、DWHは正しく整理されておりデータベースの構造化データで構成される。

DWHのストレージ

 データレイクはほとんど整理されておらず、アクセスはそれほど高速でなくてもよい。配置されるデータには無数の形式がある。そのデータを把握するには、多くの場合「Apache Hadoop」や「Apache Spark」などのスキーマオンリードツールやAmazon Web Services(AWS)の「Amazon Athena」(訳注:SQLでAmazon S3をクエリするサービス)が必要になる。

 データがDWHに到着した時点でデータの精査とラングリング(分析用の前処理)は行われており、通常はETL(抽出、変換、読み込み)プロセスの対象として1つ以上のデータベースに保管される。

 データへのアクセスは分析が目的なのでトランザクションデータベースほどの高速性は必要ない。ただし分析処理を目的としてデータセットがアクセスまたはコピーされるので、入出力(I/O)は相当量のシーケンシャルトラフィックになると考えられる。

 こうした要件から、DWHのストレージにはある程度のパフォーマンス(高RPM、SAS)のHDDまたはフラッシュが利用されることが多い。シーケンシャルアクセスに適したQLCが要件を満たす可能性がある。

DWHのアプライアンス

 DWHを独自に構築することは可能だ。ストレージの仕様は比較的容易な部類に入る。だが、その影響が将来にも及ぶことを考えると複雑になる可能性がある。

 こうした課題を軽減するため、多くのベンダーがDWHアプライアンスを提供している。こうしたアプライアンスはハードウェア、OS、DBMS、ストレージ、ネットワークが構成済みで、スケールアウトされるものが多い。

 DWHアプライアンスを最初に提供したのがNetezzaだ。同社は2010年にIBMに買収され、ブランド名を変えて5年ほど存在したがやがて姿を消した。この状況が変わったのは2019年のことだ。IBMがRed Hatを買収し、フラッシュストレージ、FPGAでの処理、オンプレミスでもクラウドでも運用できる機能を備えたアプライアンスとしてNetezzaブランドを復活させた。

 DWHのパイオニア的存在のTeradataは、クラウドおよびハードウェアベースのDWHやビジネス分析、コンサルティングサービスを提供している。「Teradata Everywhere」により、ユーザーは超並列処理(MPP:Massively Parallel Processing)を使ってオンプレミスDWH、マルチクラウドストレージ、ハイブリッドクラウドストレージ全体のパブリックデータベースとプライベートデータベースにクエリを送信できる。「Teradata IntelliFlex」はフラッシュストレージを使って数百PBにスケーリングできるDWHだ。「Teradata intelliCloud」はデータとAnalytics as a Service用のセキュアなマネージドクラウドだ。

 EMCはしばらくの間オープンソースの「Greenplum」を自社のハードウェアにバンドルする形で販売していたが、現在はGreenplumのみで販売している。Greenplumは同社のDWHを軸とし、高度に並列化された「PostgreSQL」を基盤とする。このソフトウェアは大手ベンダーと競合するクラウドでの使用をターゲットにしているが、コンテナ化してオンプレミスで運用することも可能だ。

 OracleはかつてDWHアプライアンスを販売していた。現在は「Oracle Autonomous Data Warehouse」をクラウドサービスとして提供している。このサービスは「Oracle Database」を基盤とする。