クラウドか、オンプレミスか？　「AIインフラ戦略」を決める6つの条件：AIのためのインフラとは【中編】

AIワークロードを処理したり、そのためのデータを保管したりする場所は、企業のデジタル戦略に影響を与える。インフラの物理的な場所とデータの配置を検討する上で、何を考慮すべきか。

≫ 2024年10月22日 05時00分公開

[Aaron Tan，TechTarget]

「AIインフラをどこに置くべきか」を決める6つの条件

併せて読みたいお薦め記事

連載：AIのためのインフラとは

前編：AIの可能性を引き出す「AIインフラ」の“6大要素”とは？

AIインフラに必要な要素

　企業システムが分散化する中、AIワークロードはマルチクラウド（複数のクラウドサービスを併用しているシステム）やハイブリッドクラウド（クラウドサービスとオンプレミスインフラを併用しているシステム）にまたがる傾向にある。データセンター運営事業を手掛けるDigital Reality Trustで、アジアパシフィック担当ディレクターサービスアーキテクトを務めるダニエル・オング氏は、AIインフラ（AIワークロードのためのインフラ）の物理的ロケーションに影響を与える要因として以下を挙げる。

要因1．データのプライバシーとセキュリティ

　機密性を要するデータや厳しい規制の対象となるデータは、厳重な管理とセキュリティを適用できるようにする目的で、オンプレミスシステムに置くのが望ましい。一方で機密性を必要としないデータは、コロケーション（IT機器の設置スペースを貸すサービス）やクラウドサービスへの配置が適する。

要因2．遅延

　自動運転などのリアルタイム処理が必要なアプリケーションは、データ転送の遅延を最小限に抑える必要がある。この場合、オンプレミスシステムまたはエッジコンピューティングが有効だ。

要因3．コンピューティング要件

　ディープラーニング（深層学習）のトレーニングのような計算負荷の高いタスクには、ハイパフォーマンスコンピューティング機能を備えた専用のオンプレミスハードウェアが適する。負荷の低いタスクであれば、クラウドサービスを活用することで、コスト効率を高められる可能性がある。

要因4．コストの最適化

　オンプレミスインフラには、ハードウェアやソフトウェア、継続的なメンテナンスのための初期投資が必要だ。クラウドサービスは従量課金モデルを採用しており、初期コストを抑えることができる。ただし特定のワークロードがCPUやストレージなどのリソースを継続的に必要とする場合、長期的にクラウドサービスを利用すると、オンプレミスシステムのコストを上回る可能性がある。

要因5．スケーラビリティと適応性

　クラウドサービスを導入することで、必要なときにリソースをスケーリングできるようになる。オンプレミスインフラだと、リソースの増減に手動でハードウェアをアップグレードしなければいけない場合があり、スケールアップやスケールダウンが遅れる可能性がある。

要因6．専門知識と管理

　オンプレミスインフラを管理するには、AIワークロードのためのハードウェアとソフトウェアに精通した専任のITスタッフが必要だ。一方でクラウドサービスは、ベンダーがインフラのメンテナンスとスケーリングを実行するため、自社でインフラを管理する手間を削減できる。

　 Dell Technologiesでアジアパシフィック、日本、中国本土担当のプレジデントを務めるピーター・マーズ氏は、AIインフラは通常、集中型と分散型のインフラが混在していると指摘する。

　企業は自社の業務や自社製品／サービスにAI技術を取り入れる際、オンプレミスシステムを使用しつつ、大量のデータを扱うAIワークロードの処理にはクラウドサービスを活用している。「このハイブリッドなアプローチによって、企業はそれぞれのニーズや要件に応じて、集中型と分散型インフラの両方のメリットを享受できる」とマーズ氏は言う。

データをどこに置くか

　AIモデルを強化、改善するために必要なデータには課題がある。Oracleの戦略オペレーション担当バイスプレジデントであるエリック・ベルゲンホルツ氏によれば、大量のデータがシステムに分散したままだと、AI技術を効果的に使うことは難しい。

　「データは増え続けており、さまざまなソースやフォーマット、保管場所がある。品質も違い、利用するツールも異なる」とベルゲンホルツ氏は言う。

　「AIモデルがさまざまな場所に存在するようになった現在は、データの収集または生成場所の近くに、AIモデルや計算リソースを移動させる方が効率的だ」とマーズ氏は説明する。この構成では、データがあるエッジデバイスでAIモデルのトレーニングを実行することになるため、データを集約させておく場所にデータを移動させる必要がなくなる。AIモデルの推論もエッジデバイスで実行できるので、データの集約場所とエッジデバイスが接続されているかどうかにかかわらず、推論が可能になる。

　データにAIモデルを近づけるこの手法は、テキストや画像を自動で生成するAI技術「生成AI」の登場によって、慎重なアプローチを必要とするようになった。大規模言語モデル（LLM）をホストしている場所にデータを移動させなければいけなくなったのだ。そうしたデータ移動では慎重なアプローチが必要だとスミス氏は指摘する。AIワークロードが大量のデータを扱うタスクであることを踏まえると、低遅延、高帯域幅（回線容量）、専用ハードウェアが重要になる。

　マーズ氏は大容量データの移動に伴う課題として挙げるのは以下の3つだ。

コスト
- 特にオンプレミスシステムとクラウドサービス間で大量のデータを移動させることには、費用と時間がかかる。
災害復旧（DR）
- データ復旧時、古いデータの使用を避けるためには、移動対象となるデータのバージョンが一貫していることを確認する必要がある。
低遅延
- 高度な技術を組み込んだ自動車（スマートビークル）や株式取引のような、リアルタイム処理が必要な用例において重要となる。

　次回は、持続可能性を考慮したAI技術の活用について考える。

Computer Weekly発　世界に学ぶIT導入・活用術

米国TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

TechTargetジャパントップサーバ＆ストレージ