オンプレかクラウドか、非構造化データ用ストレージの選び方5つの検討ポイント

非構造化データの増大は頭痛の種でもあるが、分析によって価値を引き出せる可能性がある。分析を前提にこのデータを効率的に保存するにはどんな方法があるのか。

2021年04月22日 08時00分 公開
[Antony AdsheadComputer Weekly]

 非構造化データが急激に増えている。IDCによるとその増加量は年間50%以上で、2025年には全データの80%を占めるという。既にその域に達している企業もある。

 非構造化データは頭痛の種になる恐れがある一方、インテリジェンスの点で価値ある情報源になる可能性がある。

 非構造化データにはもう一つ80%という数値がある。

 全ビジネス関連情報の5分の4が非構造化データとして生み出され、その大半がテキストだというものだ。メール、レポート、記事、顧客レビュー、顧客メモなどが非構造化データのテキストだ。ソーシャルメディアの投稿、医療研究結果、動画、音声録音、リモートシステムの監視データ(IoT)のような非構造化データもある。非構造化データは非常に多様で、そのサイズは数バイト程度のものから巨大なものまで多岐にわたる。

 80%という数値が正確かどうかはさておき、非構造化データの重要性は極めて大きくなっている。本稿では、多種多様な非構造化データ、非構造化データ内部に存在する構造、NAS(Network Attached Storage)とオブジェクトストレージ、非構造化データをターゲットとするクラウドサービスについて考えてみる。

ストレージに万能なものはない

 非構造化データはIoT(モノのインターネット)の監視データから動画に至るまで、あらゆる形式のデータで構成される可能性がある。そのファイルサイズは数バイトから数GB以上まで幅広い。その中にはメール、レポート、顧客とのやりとりなどのテキストベースのデータも多数存在する。

 非構造化データは、リレーショナルデータベースのような構造化された形式ではない種類のデータと定義される。非構造化データは、全く手を加えないデータからある種のNoSQLデータベースまで、その形態はさまざまだ。NoSQLデータベースには、従来のSQLのやり方にとどまらない方法でデータを編成するさまざまな製品や手法がある。

 必要なストレージの種類を決めるのは、容量とI/O要件だ。非構造化データのストレージにはNAS、オブジェクトストレージ、クラウドインスタンスといった、比較的低容量でI/Oパフォーマンスの低いストレージから大容量かつ高パフォーマンスの分散型ファイルストレージやオブジェクトストレージまで、あらゆるものが使われる可能性がある。

非構造化とは思えないもの

 「非構造化」というのは多少誤った呼び名かもしれない。非構造化データは一つの連続的なつながりとして存在するものと考えられる。IoTデータ、メール、ドキュメント、動画や音声などもある。動画や音声には、メタデータヘッダが含まれていたり、一部の基本的な分析を可能にする形式(XML、JSON)が付随したりするものもある。こちらは半構造化データとも呼ばれる。

 これらとは違って、Webサイトやソーシャルメディアの投稿から取得される膨大な量のテキストもある。これらは分析や処理が最も困難な部類に入る。

 データレイク、データウェアハウス、データマート、データスワンプなどについてや、その内部でのデータの整理方法、例えばNoSQLについて詳しく論じるのは本稿の目的ではない。

 1つ目のポイントで挙げた重要な要素は変わらない。つまり、必要な容量とアクセス時間、I/Oプロファイルと潜在的な可用性、スケーリング機能がバックエンドストレージを決める。

スケールアウトNAS

 スケールアウトNASが登場したことで、NASは非常に大容量かつ高パフォーマンスの域に達している。かつてのNASは一つのファイラーを意味していた。つまりサイロ化する可能性があった。

 スケールアウトNASは並列ファイルシステムを使って構築されている。このファイルシステムは、何十億個ものファイルにスケーリングする機能を備え、複数の筐体に1つの名前空間を提供する。容量を追加でき、場合によっては処理能力を追加することも可能だ。

 スケールアウトNASにはPOSIX準拠というメリットがある。そのため従来のアプリケーションと適切に連携し、ファイルロックなどの機能のメリットを得ることができる。このファイルロックが重要になる場合がある。

 最近までは高パフォーマンスで非構造化データを扱うにはスケールアウトNASが唯一の選択肢だったが、オブジェクトストレージがこれに追い付きつつある。

 オンプレミスのスケールアウトNASはDell EMC、NetApp、日立製作所、Hewlett Packard Enterprise(HPE)、IBMという物理ストレージアレイの大手メーカー5社から提供されている。これらの企業はデータをクラウドに階層化する方法も用意している。

 大手クラウドプロバイダーの「Amazon Web Services」(AWS)、「Microsoft Azure」「Google Cloud Platform」は、いずれも標準サービスレベルからプレミアムサービスレベルまでのファイルストレージを提供する。これらはNetAppストレージを基礎とするものが多い。

 ハイブリッドクラウド用に設計されたファイルストレージ製品もある。これにはQumulo、WekaIO、Nexenta Systems、Hedvigなどの製品が含まれる。中でもElastifileは無視できない。ただし、同社は2019年にGoogleに買収されている。

オブジェクトストレージ

 オブジェクトストレージは非構造化データ用ストレージの候補としては比較的新しい存在だ。データをフラットな形式で保持し、固有のIDでそのデータにアクセスする。また、メタデータヘッダによって検索や一部の分析を可能にする。

 スケールアウトNASには、拡張が進むとその階層化構造が原因でパフォーマンスに影響が出る恐れがあるという弱点がある。オブジェクトストレージは、この弱点の一部を回避する手段として勢いを増している。

 オブジェクトストレージは、議論の余地はあるもののクラウドネイティブだ。非常に高いスケーラビリティを備え、APIを通じてアクセスできる。

 ファイルストレージと異なり、オブジェクトストレージはファイルロックができない。最近までパフォーマンスも劣っていた。ただしその状況は変わりつつある。非構造化データの分析が必要とされていることがこうした変化を促している。

 前述のストレージ大手5社はオンプレミス用のオブジェクトストレージを構築するとともに、クラウドのオブジェクトストレージに階層化する手段も用意している。Scality、Cloudian、Quantum、Pure Storageなどのオブジェクトストレージ専門企業やオープンソースの「Ceph」なども存在する。

 大手クラウドプロバイダーの基本的なストレージサービスは、全てオブジェクトストレージを基礎としている。AWSはアクセス時間の要件、データの価値、データの再現性に応じてさまざまな種類の「Amazon S3」を用意している。

クラウドのメリットとコンテナ

 大手クラウドプロバイダー3社はいずれも、データレイクストレージとして使用するためのオブジェクトストレージサービスを提供している。

 Microsoftには「Azure Data Lake」という非構造化データの処理にターゲットを絞ったサービスがある。このサービスは容量の拡張とゲートウェイを介したデータの取得が可能というメリットがある。当然対価が必要なので、データレイクに配置するデータが増えるほどコストが高くなるのがデメリットだ。

 大手クラウドプロバイダー3社は独自のNoSQLデータベース「Google Cloud Datastore」「Amazon DynamoDB」「Azure Cosmos DB」を提供している。これらを利用せず、サードパーティー製のNoSQLデータベースをクラウドにデプロイすることもできる。

ITmedia マーケティング新着記事

news149.jpg

最も利用率の高いショート動画サービスはTikTokではない?
ADKマーケティング・ソリューションズは、ショート動画に関する調査結果を発表しました。

news131.jpg

古くて新しいMMM(マーケティングミックスモデリング)が今注目される理由
大手コスメブランドのEstee Lauder Companiesはブランドマーケティングとパフォーマンス...

news087.png

Yahoo!広告 検索広告、生成AIがタイトルや説明文を提案してくれる機能を無料で提供
LINEヤフーは「Yahoo!広告 検索広告」において、ユーザーが誘導先サイトのURLを入力する...