無数のソースから得た多様な形態のデータ分析を目指すビッグデータでは、思考と技術の両方の切り替えが要求される。
少なくとも主要ソフトウェアとハードウェアの供給に関する限り、2012年はビッグデータの年だった。この市場のほぼあらゆるサプライヤーが、ビッグデータ用ソリューションとして取りあえず売り込める製品を投入した。そうした的外れのテクノロジーが多数出回ったことで、データから価値を引き出すために真に必要なものは何かという点について、誤解が生まれた。
だが、2013年はビッグデータが合理性を持つ年となるだろう。多くのサプライヤーが提供するシステムは、他社に遅れまいと既存の製品を手っ取り早く組み合わせて市場に投入したゴタ混ぜではなく、ビッグデータの問題の多くに対応すべく構築されるようになったからだ。
では、ビッグデータにはどんな問題があるのか。まず多くが思い浮かべるのは「量」だ。では大量のデータが存在すれば、それはビッグデータ問題と呼べるのか。そう呼べる場合もあれば、呼べない場合もある。単なる「大量データ」の問題であれば、OracleやIBM、Microsoftなどが提供する拡張性の高いデータベースに、これら各社やSAS Instituteなどの独立系サプライヤーが提供する優れたビジネス分析ソリューションを組み合わせれば済む。
問題なのは量だけではない。ビッグデータにはもっと多くの可変要素がある。まずは情報源の多様性を考慮しなければならない。全てのデータが平等だという考えに基づき、情報の流れを単なる1と0の流れと見なすことはもはやできなくなった。今後はデータベースの中に何もかも保存することはできなくなる。
各種のファイル形式、Webを巡回する検索エンジンから集めた情報、そしてその他の情報源も全て含めて、基本素材として利用できるようにしなければならない。IBM、Oracle、Teradata、EMCなどの各社も、各種の技術を集約して混在データに対応できるシステムを構築したり、個々の種類のデータを最適かつ一貫した方法で管理・分析するのに適したシステムを提供できるようになった。
画像、音声、動画、さらにはリアルタイムの製造ラインデータやスマートビルディング、環境システムのような標準化されていないデータソースの利用増加に伴い、データはコンテキストに添って扱わなければならなくなった。そのためには、優先順位を付けたデータストリームに対応でき、そうしたストリームをラインスピードで、あるいは十分なストリームを複製し、必要に応じてライブストリームの外で対応することによって分析できる機能を持ったネットワーク機器を使う必要がある。Cisco、Juniper、Dell、HPといった各社が提供するネットワーク機器の大半は、802.1p/Qプライオリティとサービス品質設定に対応でき、外部的にはMPLS(Multiprotocol Labelling Service)のタグを使ったパケットに対応できる。
次に来るのは速度だ。小売業務であれば、翌日の供給業務のために日ごとの取引を分析する必要はあっても、リアルタイムのデータ分析は必要としない。一方、投資銀行は、商品価格など変化の速い生のデータを参照しながら投資を決定しており、できる限りリアルタムに近い分析が必要になる。同様に、政府の安全保障システムや、オンライン詐欺検知、マルウェア対策システムなどの効果を出すためには、大量のデータをリアルタイムに近い速度で分析する必要がある。そうした分野でIBMの「PureData」やOracleの「Exadata」、Teradataなどの最新システムは、大量のデータをリアルタイムで処理できるよう設計したソリューションを提供している。
データの正確性も考慮しなければならない。これには2つの要素がある。1つはその組織の管理下にあるデータの品質。氏名、住所、電話番号など個人に固有の情報は、UKC hangesやPCA、Equifaxといった企業のデータクレンジングを通じて扱うことができる。一方、例えばマッピングデータなどの情報は、GoogleやBing Mapsなどのクラウドサービスを通じて扱うことが可能だ。従って、データが正確で最新状態にあることを保証するという問題は、その分野のエキスパートとされる組織に委託できる。
データの正確性のもう1つの側面は、その組織の直接的な管理下にないデータにまつわるものだ。社外の情報源から引き出した情報は、その情報源がどの程度信頼できるかを見極めるための判定を行う必要がある。例えば前述したような名のある情報源であれば、信頼できることは明らかだ。そうでない情報源の場合、その情報源が他にどれだけ引用されているか、その情報にかかわる個人や組織の知名度や他者に信頼されているかどうかといった点を調べるために、クロスリファレンスが必要になるかもしれない。この分野では、Wolfram Alpha、LexisNexis、Reutersなどの各社が、単なる直接的なインターネットトラフィックよりも信頼に足ると見なせる、裏付けのある情報を提供している。
次は価値だ。ここではアップストリームの価値とダウンストリームの価値という2つの側面を考慮する必要がある。
Copyright © ITmedia, Inc. All Rights Reserved.
「人の動き」で見えない価値を見つけ出す 人流データが切り開く都市開発の未来 (2025/5/2)
導入の壁を突破してMicrosoft 365 Copilotを活用する方法 (2025/3/12)
クラウドの利便性とオンプレの制御性を両立、AI環境構築の新たな選択肢とは? (2025/3/6)
データ活用やAIで不良原因も発見 全員参加の現場伴走型で挑むトヨタ車体のDX (2025/2/21)
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...