検索
特集/連載

クラウドか、オンプレミスか? 「AIインフラ戦略」を決める6つの条件AIのためのインフラとは【中編】

AIワークロードを処理したり、そのためのデータを保管したりする場所は、企業のデジタル戦略に影響を与える。インフラの物理的な場所とデータの配置を検討する上で、何を考慮すべきか。

Share
Tweet
LINE
Hatena

関連キーワード

人工知能 | PaaS | インフラ | オンプレミス


 人工知能(AI)技術の進化と普及に伴い、企業はAIワークロード(AI技術関連のタスク)の効率的な処理に頭を悩ませるようになった。従来のITインフラでは処理し切れない膨大な計算処理や、大量のデータ管理が必要になったためだ。AIモデルの性能を最大限に引き出すためには、どのような配置戦略を取るべきなのか。

「AIインフラをどこに置くべきか」を決める6つの条件

 企業システムが分散化する中、AIワークロードはマルチクラウド(複数のクラウドサービスを併用しているシステム)やハイブリッドクラウド(クラウドサービスとオンプレミスインフラを併用しているシステム)にまたがる傾向にある。データセンター運営事業を手掛けるDigital Reality Trustで、アジアパシフィック担当ディレクターサービスアーキテクトを務めるダニエル・オング氏は、AIインフラ(AIワークロードのためのインフラ)の物理的ロケーションに影響を与える要因として以下を挙げる。

要因1.データのプライバシーとセキュリティ

 機密性を要するデータや厳しい規制の対象となるデータは、厳重な管理とセキュリティを適用できるようにする目的で、オンプレミスシステムに置くのが望ましい。一方で機密性を必要としないデータは、コロケーション(IT機器の設置スペースを貸すサービス)やクラウドサービスへの配置が適する。

要因2.遅延

 自動運転などのリアルタイム処理が必要なアプリケーションは、データ転送の遅延を最小限に抑える必要がある。この場合、オンプレミスシステムまたはエッジコンピューティングが有効だ。

要因3.コンピューティング要件

 ディープラーニング(深層学習)のトレーニングのような計算負荷の高いタスクには、ハイパフォーマンスコンピューティング機能を備えた専用のオンプレミスハードウェアが適する。負荷の低いタスクであれば、クラウドサービスを活用することで、コスト効率を高められる可能性がある。

要因4.コストの最適化

 オンプレミスインフラには、ハードウェアやソフトウェア、継続的なメンテナンスのための初期投資が必要だ。クラウドサービスは従量課金モデルを採用しており、初期コストを抑えることができる。ただし特定のワークロードがCPUやストレージなどのリソースを継続的に必要とする場合、長期的にクラウドサービスを利用すると、オンプレミスシステムのコストを上回る可能性がある。

要因5.スケーラビリティと適応性

 クラウドサービスを導入することで、必要なときにリソースをスケーリングできるようになる。オンプレミスインフラだと、リソースの増減に手動でハードウェアをアップグレードしなければいけない場合があり、スケールアップやスケールダウンが遅れる可能性がある。

要因6.専門知識と管理

 オンプレミスインフラを管理するには、AIワークロードのためのハードウェアとソフトウェアに精通した専任のITスタッフが必要だ。一方でクラウドサービスは、ベンダーがインフラのメンテナンスとスケーリングを実行するため、自社でインフラを管理する手間を削減できる。

  Dell Technologiesでアジアパシフィック、日本、中国本土担当のプレジデントを務めるピーター・マーズ氏は、AIインフラは通常、集中型と分散型のインフラが混在していると指摘する。

 企業は自社の業務や自社製品/サービスにAI技術を取り入れる際、オンプレミスシステムを使用しつつ、大量のデータを扱うAIワークロードの処理にはクラウドサービスを活用している。「このハイブリッドなアプローチによって、企業はそれぞれのニーズや要件に応じて、集中型と分散型インフラの両方のメリットを享受できる」とマーズ氏は言う。

データをどこに置くか

 AIモデルを強化、改善するために必要なデータには課題がある。Oracleの戦略オペレーション担当バイスプレジデントであるエリック・ベルゲンホルツ氏によれば、大量のデータがシステムに分散したままだと、AI技術を効果的に使うことは難しい。

 「データは増え続けており、さまざまなソースやフォーマット、保管場所がある。品質も違い、利用するツールも異なる」とベルゲンホルツ氏は言う。

 「AIモデルがさまざまな場所に存在するようになった現在は、データの収集または生成場所の近くに、AIモデルや計算リソースを移動させる方が効率的だ」とマーズ氏は説明する。この構成では、データがあるエッジデバイスでAIモデルのトレーニングを実行することになるため、データを集約させておく場所にデータを移動させる必要がなくなる。AIモデルの推論もエッジデバイスで実行できるので、データの集約場所とエッジデバイスが接続されているかどうかにかかわらず、推論が可能になる。

 データにAIモデルを近づけるこの手法は、テキストや画像を自動で生成するAI技術「生成AI」の登場によって、慎重なアプローチを必要とするようになった。大規模言語モデル(LLM)をホストしている場所にデータを移動させなければいけなくなったのだ。そうしたデータ移動では慎重なアプローチが必要だとスミス氏は指摘する。AIワークロードが大量のデータを扱うタスクであることを踏まえると、低遅延、高帯域幅(回線容量)、専用ハードウェアが重要になる。

 マーズ氏は大容量データの移動に伴う課題として挙げるのは以下の3つだ。

  • コスト
    • 特にオンプレミスシステムとクラウドサービス間で大量のデータを移動させることには、費用と時間がかかる。
  • 災害復旧(DR)
    • データ復旧時、古いデータの使用を避けるためには、移動対象となるデータのバージョンが一貫していることを確認する必要がある。
  • 低遅延
    • 高度な技術を組み込んだ自動車(スマートビークル)や株式取引のような、リアルタイム処理が必要な用例において重要となる。

 次回は、持続可能性を考慮したAI技術の活用について考える。

Computer Weekly発 世界に学ぶIT導入・活用術

米国TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る