ビッグデータの高速処理を支えるハードウェアComputer Weekly製品導入ガイド

低コストのソリッドステートメモリは、ソーシャルネットワークフィードやインダストリアルインターネットから来るビッグデータストリーミングの高速分析を支えている。

2013年10月30日 08時00分 公開
[Tony Baer,Computer Weekly]
Computer Weekly

 ビッグデータは、従来型のSQLデータベース技術を超えたパワフルな代替を必要とする問題だ。ビッグデータは、ボリューム(量)、バラエティ(構造化されたデータおよび可変構造を持つデータ)、そしてベロシティ(速度)という「3つのV」を特徴とする。Ovumはさらに、バリュー(価値)という4番目のVも考慮しなければならないと考える。

 ビッグデータ処理のために、さまざまなプラットフォームが登場してきた。その中にはSQLで大量の構造化データを高速処理する先進型SQL(NewSQLとも呼ばれる)データベースや、ファイルシステムからドキュメント、一般的にデータモデリングの必要性を伴う円柱状データストアまで多岐にわたるNoSQLプラットフォームが含まれる。ビッグデータの初期のインプリメンテーションの大半(特にHadoopのようなNoSQLプラットフォーム)では量と多様性に重点を置いており、結果はバッチ処理を通じて提供されてきた。

 しかし舞台裏では、スピードに重点を置いた利用ケースが広がりつつある。その中には、パワフルなバックエンドデータプラットフォームだけでなく、帯域幅の拡大やモバイル機能も活用した新しいアプリケーションで構成されるものもある。具体例としては、スマートフォンやGPS端末のセンサーデータを活用して交通状況の写真をリアルタイムで提供する「Waze」などのモバイルアプリケーションが挙げられる。

 携帯電話会社にとっては、通話行動をリアルタイムで追跡し、ターゲット広告やロケーションベースサービスといった形のサービスを加入者に提供できるチャンスが見え始めている。ネット通販業者にとっては、次点の提案を活用して顧客収入を最大限に増やすチャンスもある。

 一方、既存のアプリケーションは、スマートセンサーによってデータポイントが増え、インテリジェンスや順応コントロール機能も強化されていることから、精度が増し、反応が良く、効果が高くなっている。その種類はサプライチェーンの在庫の最適化から公共サービスやインフラ網の規制、国土安全保障のためのリアルタイムの警報まで多岐にわたる。ビッグデータの高速処理の可能性は、想像力が続く限り尽きることはない。

シリコンベースのストレージ

 高速データは、速度が要求されるビッグデータインプリメンテーションのサブセットを指す。これは持続しないデータ、あるいはその場限りの瞬間的な利用に最適化された形で持続するデータによって、即時的な分析や閉ループの運用支援を実現する。高速データアプリケーションは一般的に、ルールや複雑なロジックあるいはアルゴリズムによって運用される。

 データは、例えば極端な低遅延のイベント処理などで直ちに処理され持続しないものか、最適化された方法で持続するものかのいずれかになる。これは一般的に、シリコンベースのフラッシュやメモリストレージで達成され、軽度にインデックス化されるか(スキャンオーバーヘッドの削減のため)、または全くインデックス化されないかのいずれかだ。これは、シリコンの速度によって高度なインデックス化の必要がなくなる、あるいはカスタマイズ化されたデータビューが動的に生成されるという理由による。

 接続性も重要だ。超低遅延のメッセージングリンクは必須ではないものの(一般的にこれを利用するのは証券取引会社に限られる)、InfiniBandのような高速内部バスを通じた接続の最適化は、大量のまとまったデータのコンピュータ処理には不可欠だ。高速WANバックボーンへの直接接続は、外部ソースからのデータを処理する高速データアプリケーションの鍵を握る。

高速データではないもの

 双方向のアップデートは可能でも、組織のイベントへの対応方法についてのループが自動的に閉じられない(例えばシステムが手動で読まれたり、リポートを生成するなど)高速トランザクションシステムは、高速データのアプリケーションとは見なされない。

 標準的なオンライントランザクション処理(OLTP)データベースは一般的に、ホットな(頻繁に使う、あるいは最近使った)データをディスクの最もアクセスしやすい部分に保存する(あるいはストレージアレイの複数のディスク全体に断片化される)といったある程度表面的な最適化や、さらに高度なインデックス、結合の必要性を減らすためのテーブルデザインなどを備えた設計になっている。こうしたケースの場合、目標は、頻繁で定期的なクエリやアップデートに対する双方向の反応を最適化することにある。一方でこうしたシステムは、膨大な量のデータや多様なデータをリアルタイムで処理する設計にはなっていない。

以前からあった高速データ

 リアルタイムデータベースは新しいものではない。金融機関などは以前から、分刻みのデータを処理・分析できるデータベースを頼みにしていた。この作業にはスピードだけでなく、かなり複雑な分析アルゴリズムを処理できる能力も要求される。こうした企業は伝統的に、専門性の高いエンジンのニッチサプライヤーに目を向けてきた。こうしたプラットフォームの中にはKoveのインメモリストレージアプライアンスに支えられているものもある。

 インメモリデータストアは20年ほど前から存在していたが、そのコストのために通常は以下のような高度に専門性の高いアプリケーションに限られてきた。

会員登録(無料)が必要です

Copyright © ITmedia, Inc. All Rights Reserved.

隴�スー騾ケツ€郢晏ク厥。郢ァ�、郢晏現�ス郢晢スシ郢昜サ」�ス

事例 株式会社AIT

スケーラブルで高速・確実なデータアクセスを実現、某研究所のHPSS導入事例

データ生成デバイスの進化・多様化により、保存すべきデータ容量は急増した。その管理においては、コストとパフォーマンスのバランスが課題となっている。解決策の1つとして注目される「HPSS」の効果について、導入事例を紹介したい。

事例 株式会社AIT

データ量の急増でインフラ強化が急務に、JA大阪電算の事例に学ぶシステム移行術

業務のデジタル化が進み、データ量やワークロードが増大していた大阪府農協電算センター。それによりインフラの負荷が高まり、性能を向上させることが喫緊の課題になっていた。本資料では同社がどのようにインフラを移行したのか解説する。

製品資料 日本ヒューレット・パッカード合同会社

ハイブリッド環境の構造化データ管理、レガシーストレージからどう脱却する?

AIでは構造化データの活用が進む一方、クラウド普及に伴いデータの分散化が加速している。この状況下で課題となるのが、レガシーストレージの存在だ。本資料では、構造化データに適したストレージ戦略を紹介する。

製品資料 株式会社ネットワールド

どのタイプのストレージがニーズに合致するのか、NetApp製品ガイドで探る最適解

データ環境の急変は、企業のストレージ課題を複雑化させている。性能や拡張性、データ保護、分散環境の一元管理、コスト最適化など、自社の課題に合わせた製品・サービスをどう見つければよいのか。それに役立つ製品ガイドを紹介したい。

製品資料 日本ヒューレット・パッカード合同会社

AI活用で非構造化データも適切に処理、ハイブリッド環境に最適なストレージとは

構造化データ/非構造化データの両方を適切に処理する必要がある今、エンタープライズデータストレージには、より高度な要件が求められている。こうした中で注目される、単一障害点のないAI主導の分散型ストレージプラットフォームとは?

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

繧「繧ッ繧サ繧ケ繝ゥ繝ウ繧ュ繝ウ繧ー

2025/05/29 UPDATE

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...