DWHを定義する鍵は、そこに流れ込むデータのソースを理解することだ。それが、データレイクだ。(続きはページの末尾にあります)
データ分析の要となるDWHは、クラウドサービスの普及期を迎えて大きな転換点にある。従来型のオンプレミスDWHの“3層構造”とは何か。クラウドDWHの主要サービスは。
データウェアハウスをオンプレミスに構築することは可能だが、スケーリングなどの面で課題がある。ここで、十分に成熟してきたクラウドサービスが選択肢になる。
欲しいデータをより迅速に手に入れたいというニーズを満たすのが「データマート」だ。そのメリットを整理し、データウェアハウス導入済みの企業が、新たにデータマートを構築する際の予算獲得のこつを紹介する。
自社のデータに適した「DWH」(データウェアハウス)を選択するのは大変な作業だ。選択に当たって考慮すべき重要な評価ポイントを紹介する。
2015年、サーバ企業とストレージ企業の大規模な合併と買収が行われる年になると予測する専門家がいる。大手ベンダーである米IBMや米Apple、新興企業である米Violin Memoryなどの動向、注目製品を紹介する。
「Amazon DynamoDB」と「Amazon SimpleDB」は、アプリケーション開発の柔軟性向上とアプリケーション開発時間の短縮を実現する。これらのメリットを最大限に引き出すには、自社のニーズに合ったデータベース環境を選択する必要がある。
IIJは、クラウド型データベースシステム「IIJジオコンポーネントサービスデータベースアドオン」にDWHサービスを追加した。
急速な変化に応じてWebアプリケーションをスケーラブルに運用するニーズがWebサービス企業を中心に起こっている。それによって、かつて主流だったリレーショナルデータベース(RDBMS)に代わり「NoSQL」が脚光を浴びている。
クラウドのおかげで、ビッグデータの管理や大規模化するデータウェアハウスの運用を行う選択肢が増えている。これらの選択肢は、クラウド管理者の役割に直接影響を与えている。
アプリケーションサーバをOSSへ移行したヤマハ発動機の海外法人。その直後、同社Webサイトのパフォーマンスが急速に悪化したという。原因はOSSではなく、別のところにあった。
日本マイクロソフトはDWHアプライアンスの新版を発表。HadoopとDWHのデータを共通のSQLで操作できるのが特徴だ。加えて、Hadoopのクラウドサービスも提供する。
ビッグデータという言葉の流行に伴って、分析ツールも目覚ましい進化を遂げている。ビッグデータ時代に求められる分析ツールはかつてのBIやDWHと何が違うのか。韓国LG CNSのCTO、キム・テグ氏が語る。
カラムインデックス機能でデータ量の圧縮と超高速検索を両立する「Sybase IQ」。ユーザー企業がアプライアンスでなくソフトウェアソリューションのSybase IQを選ぶ理由とは。
他社アプライアンス製品とは一線を画すEMCのデータ分析ソリューション「Greenplum」。ソフトウェア型DWH用データベース「Greenplum Database」とHadoopディストリビューション「Greenplum MR」を紹介する。
ビッグデータ活用のための分析基盤のアプローチは幾つか存在する。リアルタイムデータ活用の課題に対するエグゼクティブへの調査結果や、Hadoop、DWHアプライアンスなどの技術解説のホワイトペーパーを紹介する。
米Oracleがリリースした「Big Data Appliance」。アナリストはその価格や柔軟性に疑問を投げ掛ける一方で、Hadoopサポートのためには同アプライアンスに含まれるCloudera Managerのようなソフトウェアが重要と語る。
DWH専業ベンダーのテラデータがビッグデータ時代のデータ活用基盤として提唱するのが「エンタープライズ・データウェアハウス」(EDW)だ。同社の製品概要と併せてその構想を紹介する。
標準的なRDBMSとハードウェアレベルでの高速化技術を組み合わせることで、DWHのボトルネックを解消するDWHアプライアンス。ビッグデータ対応が注目を浴びる今、独自技術を採用する製品が登場している。
IBMのビッグデータ戦略の中で重要な役割を担うNetezza。買収以前から一貫してアプライアンス形態で提供しているのには理由がある。
ビッグデータの高速処理基盤として注目されているカラム型データベース。代表製品は近年大手ベンダーが買収した製品が目立つ。カラム型データベースの特徴と、どのような場合に利用が適しているかを解説する。
データレイクは企業の全データのリポジトリだ。そこには構造化データも非構造化データも半構造化データもある。これを扱うのはデータサイエンティストの領分であり、ユーザーやほとんどのITスタッフにとってアクセスするようなものではない。
データはメタデータによって検索でき、ある程度はクエリ可能だ。だが分析する場所ではない。データレイクは分析作業前にデータを配置し、データを処理する場所だ。
分析を行うのはDWHだ。無秩序なデータレイクとは異なり、DWHは正しく整理されておりデータベースの構造化データで構成される。
データレイクはほとんど整理されておらず、アクセスはそれほど高速でなくてもよい。配置されるデータには無数の形式がある。そのデータを把握するには、多くの場合「Apache Hadoop」や「Apache Spark」などのスキーマオンリードツールやAmazon Web Services(AWS)の「Amazon Athena」(訳注:SQLでAmazon S3をクエリするサービス)が必要になる。
データがDWHに到着した時点でデータの精査とラングリング(分析用の前処理)は行われており、通常はETL(抽出、変換、読み込み)プロセスの対象として1つ以上のデータベースに保管される。
データへのアクセスは分析が目的なのでトランザクションデータベースほどの高速性は必要ない。ただし分析処理を目的としてデータセットがアクセスまたはコピーされるので、入出力(I/O)は相当量のシーケンシャルトラフィックになると考えられる。
こうした要件から、DWHのストレージにはある程度のパフォーマンス(高RPM、SAS)のHDDまたはフラッシュが利用されることが多い。シーケンシャルアクセスに適したQLCが要件を満たす可能性がある。
DWHを独自に構築することは可能だ。ストレージの仕様は比較的容易な部類に入る。だが、その影響が将来にも及ぶことを考えると複雑になる可能性がある。
こうした課題を軽減するため、多くのベンダーがDWHアプライアンスを提供している。こうしたアプライアンスはハードウェア、OS、DBMS、ストレージ、ネットワークが構成済みで、スケールアウトされるものが多い。
DWHアプライアンスを最初に提供したのがNetezzaだ。同社は2010年にIBMに買収され、ブランド名を変えて5年ほど存在したがやがて姿を消した。この状況が変わったのは2019年のことだ。IBMがRed Hatを買収し、フラッシュストレージ、FPGAでの処理、オンプレミスでもクラウドでも運用できる機能を備えたアプライアンスとしてNetezzaブランドを復活させた。
DWHのパイオニア的存在のTeradataは、クラウドおよびハードウェアベースのDWHやビジネス分析、コンサルティングサービスを提供している。「Teradata Everywhere」により、ユーザーは超並列処理(MPP:Massively Parallel Processing)を使ってオンプレミスDWH、マルチクラウドストレージ、ハイブリッドクラウドストレージ全体のパブリックデータベースとプライベートデータベースにクエリを送信できる。「Teradata IntelliFlex」はフラッシュストレージを使って数百PBにスケーリングできるDWHだ。「Teradata intelliCloud」はデータとAnalytics as a Service用のセキュアなマネージドクラウドだ。
EMCはしばらくの間オープンソースの「Greenplum」を自社のハードウェアにバンドルする形で販売していたが、現在はGreenplumのみで販売している。Greenplumは同社のDWHを軸とし、高度に並列化された「PostgreSQL」を基盤とする。このソフトウェアは大手ベンダーと競合するクラウドでの使用をターゲットにしているが、コンテナ化してオンプレミスで運用することも可能だ。
OracleはかつてDWHアプライアンスを販売していた。現在は「Oracle Autonomous Data Warehouse」をクラウドサービスとして提供している。このサービスは「Oracle Database」を基盤とする。