ビッグデータの高速処理を支えるハードウェア：Computer Weekly製品導入ガイド

低コストのソリッドステートメモリは、ソーシャルネットワークフィードやインダストリアルインターネットから来るビッグデータストリーミングの高速分析を支えている。

≫ 2013年10月30日 08時00分公開

[Tony Baer，Computer Weekly]

　ビッグデータは、従来型のSQLデータベース技術を超えたパワフルな代替を必要とする問題だ。ビッグデータは、ボリューム（量）、バラエティ（構造化されたデータおよび可変構造を持つデータ）、そしてベロシティ（速度）という「3つのV」を特徴とする。Ovumはさらに、バリュー（価値）という4番目のVも考慮しなければならないと考える。

　ビッグデータ処理のために、さまざまなプラットフォームが登場してきた。その中にはSQLで大量の構造化データを高速処理する先進型SQL（NewSQLとも呼ばれる）データベースや、ファイルシステムからドキュメント、一般的にデータモデリングの必要性を伴う円柱状データストアまで多岐にわたるNoSQLプラットフォームが含まれる。ビッグデータの初期のインプリメンテーションの大半（特にHadoopのようなNoSQLプラットフォーム）では量と多様性に重点を置いており、結果はバッチ処理を通じて提供されてきた。

　しかし舞台裏では、スピードに重点を置いた利用ケースが広がりつつある。その中には、パワフルなバックエンドデータプラットフォームだけでなく、帯域幅の拡大やモバイル機能も活用した新しいアプリケーションで構成されるものもある。具体例としては、スマートフォンやGPS端末のセンサーデータを活用して交通状況の写真をリアルタイムで提供する「Waze」などのモバイルアプリケーションが挙げられる。

　携帯電話会社にとっては、通話行動をリアルタイムで追跡し、ターゲット広告やロケーションベースサービスといった形のサービスを加入者に提供できるチャンスが見え始めている。ネット通販業者にとっては、次点の提案を活用して顧客収入を最大限に増やすチャンスもある。

　一方、既存のアプリケーションは、スマートセンサーによってデータポイントが増え、インテリジェンスや順応コントロール機能も強化されていることから、精度が増し、反応が良く、効果が高くなっている。その種類はサプライチェーンの在庫の最適化から公共サービスやインフラ網の規制、国土安全保障のためのリアルタイムの警報まで多岐にわたる。ビッグデータの高速処理の可能性は、想像力が続く限り尽きることはない。

シリコンベースのストレージ

　高速データは、速度が要求されるビッグデータインプリメンテーションのサブセットを指す。これは持続しないデータ、あるいはその場限りの瞬間的な利用に最適化された形で持続するデータによって、即時的な分析や閉ループの運用支援を実現する。高速データアプリケーションは一般的に、ルールや複雑なロジックあるいはアルゴリズムによって運用される。

　データは、例えば極端な低遅延のイベント処理などで直ちに処理され持続しないものか、最適化された方法で持続するものかのいずれかになる。これは一般的に、シリコンベースのフラッシュやメモリストレージで達成され、軽度にインデックス化されるか（スキャンオーバーヘッドの削減のため）、または全くインデックス化されないかのいずれかだ。これは、シリコンの速度によって高度なインデックス化の必要がなくなる、あるいはカスタマイズ化されたデータビューが動的に生成されるという理由による。

　接続性も重要だ。超低遅延のメッセージングリンクは必須ではないものの（一般的にこれを利用するのは証券取引会社に限られる）、InfiniBandのような高速内部バスを通じた接続の最適化は、大量のまとまったデータのコンピュータ処理には不可欠だ。高速WANバックボーンへの直接接続は、外部ソースからのデータを処理する高速データアプリケーションの鍵を握る。

高速データではないもの

　双方向のアップデートは可能でも、組織のイベントへの対応方法についてのループが自動的に閉じられない（例えばシステムが手動で読まれたり、リポートを生成するなど）高速トランザクションシステムは、高速データのアプリケーションとは見なされない。

　標準的なオンライントランザクション処理（OLTP）データベースは一般的に、ホットな（頻繁に使う、あるいは最近使った）データをディスクの最もアクセスしやすい部分に保存する（あるいはストレージアレイの複数のディスク全体に断片化される）といったある程度表面的な最適化や、さらに高度なインデックス、結合の必要性を減らすためのテーブルデザインなどを備えた設計になっている。こうしたケースの場合、目標は、頻繁で定期的なクエリやアップデートに対する双方向の反応を最適化することにある。一方でこうしたシステムは、膨大な量のデータや多様なデータをリアルタイムで処理する設計にはなっていない。

以前からあった高速データ

　リアルタイムデータベースは新しいものではない。金融機関などは以前から、分刻みのデータを処理・分析できるデータベースを頼みにしていた。この作業にはスピードだけでなく、かなり複雑な分析アルゴリズムを処理できる能力も要求される。こうした企業は伝統的に、専門性の高いエンジンのニッチサプライヤーに目を向けてきた。こうしたプラットフォームの中にはKoveのインメモリストレージアプライアンスに支えられているものもある。

　インメモリデータストアは20年ほど前から存在していたが、そのコストのために通常は以下のような高度に専門性の高いアプリケーションに限られてきた。

#CmsMembersControl .CmsMembersControlIn {width:100%;background:url(https://image.itmedia.co.jp/images/spacer.gif) #DDD;opacity:0.05;filter:progid:DXImageTransform.Microsoft.Alpha(Enabled=1,Style=0,Opacity=5);z-index:1;}

続きを閲覧するには、ブラウザの JavaScript の設定を有効にする必要があります。

課題はビッグデータ管理のためのプラットフォーム選定

TechTargetジャパントップサーバ＆ストレージ