AIを構築するに当たって求められるストレージとはどのようなものか。何を保存する必要があり、どのようなアクセスが発生するのか。
Facebookのアクティブユーザーは24億人弱、1日にアップロードされる写真は3億5000万枚、投稿されるコメントは毎分50万件を超える。こうした膨大な量の情報を追跡、監視して価値を得るため、同社はどのような取り組みをしているのだろうか。
「ユーザーが数十億人ともなれば、人間が分析するのは不可能だ」と話すのは、調査会社Gartnerのリサーチ部門でディープラーニングなどの機械学習を担当するディレクター、チラグ・デカテ氏だ。
Facebookは人工知能(AI)を使って投稿をスキャンしている。「摘発対象となる発言や炎上案件を見つけたり、タグを付けたり、広告収益を上げたりするのに、動画や画像を一つ一つ分析することはできない」(デカテ氏)
AIは学術研究から飛躍し、医薬、法執行、保険、小売りといった幅広い分野に進出している。ソーシャルメディアも増加の一途をたどるAI活用事例の一つにすぎない。
こうした成長は企業のITシステムに広く影響を及ぼしている。その中の一つがデータストレージだ。
AI向けデータストレージの要件は、応用事例とソースとなる資料によって大きく異なる。Gartnerのデカテ氏は次のように述べる。「ユースケースによってデータセットは大きく異なる。画像処理の場合はファイルが非常に大きくなることが多いため、データセットのサイズが急速に大きくなる。画像認識や動画認識、またはディープラーニングを実行する場合は新しいアーキテクチャと新しい機能が必要になるだろう。不正検出のようなユースケースでは、新しいハードウェアを備えていないインフラスタックでも優れた結果を得ることができる」
医療、科学、地理データ、諜報(ちょうほう)活動や防衛に使用される画像処理データセットはペタバイト規模、1ファイル当たりのサイズはギガバイト規模になることが多い。
これに対して、AIの応用事例が増えているサプライチェーン分析や航空機のメンテナンス、修理、整備などの分野で使われるデータはこれよりはるかに小さい。
デカテ氏によると、小売業の品ぞろえの予測に使用されるPOSデータセットは通常100M〜200MBだ。最新のセンサーを搭載する旅客機は、メンテナンスと操縦のデータを1回のフライトで50G〜100GB生成するという。
AIシステムの課題は、データを処理する速度にある。航空事業では、航空機が地上に駐機している間に予知保全データを分析しなければならない。その所要時間は、長距離フライトでは数時間、格安航空では数分などさまざまだ。
顔認識システムや車両ナンバー認識システムは瞬時の応答が必要とされる。自動保険金請求システムに求められる応答時間は数分だ。
AI開発者にはGPUを多用するクラスタの構築が求められる。GPUはデータ処理と複雑なアルゴリズムを高速に実行するのに最も効果的な方法だからだ。だが、GPUクラスタ(NVIDIA DGXをベースにすることが多い)は高価で、少数しか出回っていない。
PA Consulting GroupのITエキスパート、アラステア・マコーレー氏は次のように指摘する。「教育用や産業用のハイパフォーマンスコンピューティング(HPC)システムは、その希少性とコストから、非常に高い利用率で稼働していることが多い」
研究機関は、ハードウェアのパフォーマンスを余すことなく引き出すために専門家を雇用している。だが、一般企業では既存のデータシステムとの統合の方が重要になる可能性が高い。
後編(Computer Weekly日本語版 8月21日号掲載予定)では、AIシステムのフェーズごとに異なるストレージのI/O特性、NVMeやクラウド利用の可能性について解説する。
Copyright © ITmedia, Inc. All Rights Reserved.
トランプ氏当選でイーロン・マスク氏に追い風 過去最高の投稿数達成でXは生き延びるか?
2024年の米大統領選の当日、Xの利用者数が過去最高を記録した。Threadsに流れていたユー...
トランプ氏圧勝で気になる「TikTok禁止法」の行方
米大統領選で共和党のトランプ前大統領が勝利した。これにより、TikTokの米国での将来は...
インバウンド消費を左右する在日中国人の影響力
アライドアーキテクツは、独自に構築した在日中国人コミュニティーを対象に、在日中国人...