2013年10月30日 08時00分 UPDATE
特集/連載

Computer Weekly製品導入ガイドビッグデータの高速処理を支えるハードウェア

低コストのソリッドステートメモリは、ソーシャルネットワークフィードやインダストリアルインターネットから来るビッグデータストリーミングの高速分析を支えている。

[Tony Baer,Computer Weekly]
Computer Weekly

 ビッグデータは、従来型のSQLデータベース技術を超えたパワフルな代替を必要とする問題だ。ビッグデータは、ボリューム(量)、バラエティ(構造化されたデータおよび可変構造を持つデータ)、そしてベロシティ(速度)という「3つのV」を特徴とする。Ovumはさらに、バリュー(価値)という4番目のVも考慮しなければならないと考える。

 ビッグデータ処理のために、さまざまなプラットフォームが登場してきた。その中にはSQLで大量の構造化データを高速処理する先進型SQL(NewSQLとも呼ばれる)データベースや、ファイルシステムからドキュメント、一般的にデータモデリングの必要性を伴う円柱状データストアまで多岐にわたるNoSQLプラットフォームが含まれる。ビッグデータの初期のインプリメンテーションの大半(特にHadoopのようなNoSQLプラットフォーム)では量と多様性に重点を置いており、結果はバッチ処理を通じて提供されてきた。

 しかし舞台裏では、スピードに重点を置いた利用ケースが広がりつつある。その中には、パワフルなバックエンドデータプラットフォームだけでなく、帯域幅の拡大やモバイル機能も活用した新しいアプリケーションで構成されるものもある。具体例としては、スマートフォンやGPS端末のセンサーデータを活用して交通状況の写真をリアルタイムで提供する「Waze」などのモバイルアプリケーションが挙げられる。

 携帯電話会社にとっては、通話行動をリアルタイムで追跡し、ターゲット広告やロケーションベースサービスといった形のサービスを加入者に提供できるチャンスが見え始めている。ネット通販業者にとっては、次点の提案を活用して顧客収入を最大限に増やすチャンスもある。

 一方、既存のアプリケーションは、スマートセンサーによってデータポイントが増え、インテリジェンスや順応コントロール機能も強化されていることから、精度が増し、反応が良く、効果が高くなっている。その種類はサプライチェーンの在庫の最適化から公共サービスやインフラ網の規制、国土安全保障のためのリアルタイムの警報まで多岐にわたる。ビッグデータの高速処理の可能性は、想像力が続く限り尽きることはない。

シリコンベースのストレージ

 高速データは、速度が要求されるビッグデータインプリメンテーションのサブセットを指す。これは持続しないデータ、あるいはその場限りの瞬間的な利用に最適化された形で持続するデータによって、即時的な分析や閉ループの運用支援を実現する。高速データアプリケーションは一般的に、ルールや複雑なロジックあるいはアルゴリズムによって運用される。

 データは、例えば極端な低遅延のイベント処理などで直ちに処理され持続しないものか、最適化された方法で持続するものかのいずれかになる。これは一般的に、シリコンベースのフラッシュやメモリストレージで達成され、軽度にインデックス化されるか(スキャンオーバーヘッドの削減のため)、または全くインデックス化されないかのいずれかだ。これは、シリコンの速度によって高度なインデックス化の必要がなくなる、あるいはカスタマイズ化されたデータビューが動的に生成されるという理由による。

 接続性も重要だ。超低遅延のメッセージングリンクは必須ではないものの(一般的にこれを利用するのは証券取引会社に限られる)、InfiniBandのような高速内部バスを通じた接続の最適化は、大量のまとまったデータのコンピュータ処理には不可欠だ。高速WANバックボーンへの直接接続は、外部ソースからのデータを処理する高速データアプリケーションの鍵を握る。

高速データではないもの

 双方向のアップデートは可能でも、組織のイベントへの対応方法についてのループが自動的に閉じられない(例えばシステムが手動で読まれたり、リポートを生成するなど)高速トランザクションシステムは、高速データのアプリケーションとは見なされない。

 標準的なオンライントランザクション処理(OLTP)データベースは一般的に、ホットな(頻繁に使う、あるいは最近使った)データをディスクの最もアクセスしやすい部分に保存する(あるいはストレージアレイの複数のディスク全体に断片化される)といったある程度表面的な最適化や、さらに高度なインデックス、結合の必要性を減らすためのテーブルデザインなどを備えた設計になっている。こうしたケースの場合、目標は、頻繁で定期的なクエリやアップデートに対する双方向の反応を最適化することにある。一方でこうしたシステムは、膨大な量のデータや多様なデータをリアルタイムで処理する設計にはなっていない。

以前からあった高速データ

 リアルタイムデータベースは新しいものではない。金融機関などは以前から、分刻みのデータを処理・分析できるデータベースを頼みにしていた。この作業にはスピードだけでなく、かなり複雑な分析アルゴリズムを処理できる能力も要求される。こうした企業は伝統的に、専門性の高いエンジンのニッチサプライヤーに目を向けてきた。こうしたプラットフォームの中にはKoveのインメモリストレージアプライアンスに支えられているものもある。

 インメモリデータストアは20年ほど前から存在していたが、そのコストのために通常は以下のような高度に専門性の高いアプリケーションに限られてきた。

この記事を読んだ人にお薦めのホワイトペーパー

この記事を読んだ人にお薦めの関連記事

Loading

注目テーマ

ITmedia マーケティング新着記事

news018.jpg

サイバーエージェントがDDTプロレスリングを買収
サイバーエージェントは、DDTプロレスリングの発行済み株式の全株式を取得したことを発表...

news069.png

Twitter投稿を基に番組視聴者のペルソナを可視化、データセクションのテレビ番組口コミ分析サービスに新機能
データセクションは、テレビ番組口コミ分析サービス「TV Insight」において、ソーシャル...

news058.jpg

アプリ利用者を特定してアンケート調査、「App Ape」と「TesTee」が連携
フラーは、リサーチツールの提供を行うテスティーと共同で、アプリ所持ユーザーや休眠ユ...