検索
特集/連載

AI安定稼働の鍵は「可観測性」(オブザーバビリティ) 主要ツールを紹介AI導入の成否を分ける

AIツールの性能はGPUだけでは決まらない。裏側にあるネットワークが、AIツールの応答速度を著しく低下させていることがある。AIツールの真の力を引き出すために不可欠な「可観測性」とは何か。

Share
Tweet
LINE
Hatena

関連キーワード

人工知能 | GPU | ネットワーク


 AI(人工知能)技術の活用が本格化している現代は、急速な技術革新と激しい市場競争が起こっている。企業や研究機関のAI技術導入が加速するにつれて、ネットワークに対してこれまでにはなかった要件が求められるようになった。「AIの真の力」を引き出すために、ネットワーク管理者が重視すべき「可観測性」(オブザーバビリティ)と、それを強化するためのツールや技術を解説する。

可観測性が「AI導入プロジェクト」の成否を左右する

 AI技術の革新の成否は、状況に応じて自律的に動作し、応答性に優れ、末端から末端まで(エンドツーエンド)の状況を正確に把握できるネットワークにかかっている。巨大IT企業をはじめとする各社は、OpenAIが主導する「Stargate」やxAIが主導する「Colossus」のような、大規模AIスーパーコンピュータの構築を目指すプロジェクトで成功を収めようとしのぎを削っている。

 インフラの拡大に伴い、ネットワークエンジニアは変化し続ける要求に応えるため、新しい手法を取り入れなければならない。AIに関連するワークロードは、トレーニングからリアルタイム推論まで多岐にわたる。これらは膨大なデータを生成し、低遅延通信を強く要求する。そのため、さまざまな場所に分散したコンピューティングシステム内で、いかにデータをスムーズに移動させるかが成功の鍵となる。

 一方でAI技術を活用したシステムは、ネットワーク管理者に新たな課題をもたらす。GPU(グラフィックス処理ユニット)の性能の限界、複数のクラウドサービスを組み合わせた「マルチクラウド」の管理、予測が難しいデータセンター内のサーバ間通信(East-Westトラフィック)といった複雑な問題には、現代的かつ包括的なアプローチでネットワークの可観測性を高めていく必要がある。

 最新の可観測性ツールを導入し、高度な監視体制を整え、確立されたベストプラクティスに従うことで、企業は大規模なAIシステムを円滑かつ安全に運用できるようになる。ネットワーク全体の可視化は、もはや単なる付加価値ではない。エンドユーザーの要求がインフラの性能を左右する、競争が激しいIT業界において、次世代の自律的なシステムを構築するための重要な要件になっている。

エンドツーエンドの可観測性を実現するアーキテクチャ

 AI関連処理の需要が急拡大する中、ネットワーク管理者は日々ネットワークインフラの増強に取り組んでいる。AI技術がもたらす複雑な課題に対処するには、データ処理の始まりから終わりまで、システム全体を一つの流れとして捉える「エンドツーエンドの可観測性」という考え方が欠かせない。

 理想的な可観測性の仕組みとは、システムの全階層(レイヤー)を接続し、AIシステムのパフォーマンスやセキュリティ、稼働状況をリアルタイムで明確に把握できるようにするものだ。この仕組みは、データセンターやパブリック/プライベートクラウド、エッジコンピューティングのノードなど、AI処理に関わる全ての重要な拠点を網羅する必要がある。

 まず、データセンターがAIワークロードを十分に処理できる能力を備えていることが前提になる。特に、計算処理を担うコンピューティングサーバとストレージシステム間の低遅延接続は、AIワークロードにとって極めて重要だ。可観測性ツールには、輻輳(ふくそう)や遅延の急増、データ損失をリアルタイムで検出する能力が求められる。こうしたツールは、複雑なAI システムにおいてネットワーク担当者が性能と可視性を維持する助けとなる。

 クラウドサービスでは、AIワークロードがコンテナやマイクロサービスといったクラウドネイティブな技術に大きく依存していることを考慮する必要がある。そのため、サービス間の通信状況や仮想ネットワーク、クラウドサービスが発信するテレメトリー(遠隔情報収集)を詳細に分析できることが、可観測性の要件になる。

 最後に、エッジデバイスの可観測性も不可欠だ。現場のデバイスのパフォーマンス、中心となるコアシステムへのネットワーク経路を監視することによって、エッジデバイスと中央集権型のシステムとの間で効率的な通信を確立できる。

AIネットワーク向けの可観測性ツール

 AIシステムで用いるネットワークの要求に応えるツールや技術は複数存在する。これらのツールは、単なる監視機能にとどまらない、以下に示す高度な能力を備えている。

  • ストリーミングテレメトリー
    • ネットワーク機器からリアルタイムで稼働データを収集し、異常検知を高速化する。
  • AI技術によるネットワーク分析
    • AI技術を用いて過去のデータやリアルタイムの指標からパターンを学習し、パフォーマンスの問題を予測する。
  • パケットブローカーとDPI(ディープパケットインスペクション)
    • ネットワークを流れるパケットを詳細に調査し、AIシステム特有の通信パターンを分析することによって、性能低下の原因となっているボトルネック特定する。
  • 既存のネットワーク管理システムとの連携
    • 可観測性ツールは、既存のネットワーク管理ツールや自動化ツールとスムーズに連携できなければならない。これによって情報を一元化し、問題解決の迅速化を促す。

 以下は、AIワークロードの監視に利用できる代表的なネットワーク可観測性ツールだ。

表 AIワークロードを監視するネットワーク可観測性ツール
ツール/サービス名 機能 主な用途 AIワークロードとの関連性
AppDynamics アプリケーション性能監視 マイクロサービス全体の性能を追跡する コンテナ化されたクラウドネイティブなAIアプリケーションの監視に有効
Cisco Nexus Dashboard Insights データセンターのテレメトリー分析 Ciscoが提唱するネットワーク自動化インフラ(ACI)において、障害の予兆を検出、警告する コンピューティングサーバとストレージシステム間の安定した低遅延通信を維持するのに有効
Cisco ThousandEyes ネットワークパフォーマンス監視 社内LANからインターネット経由でクラウドサービスに接続する際の通信経路を可視化し、遅延やデータ損失、障害を検出する 複雑なインフラでAIワークロードのリアルタイム処理を実現するために有効
Elastic Stack(ELK Stack) ログ分析、検索 複数システムからログを収集、分析して問題解決を支援する AIワークロードにおける障害、AIモデルのエラー、インフラの問題の検出を支援
Grafana 監視データの可視化 ネットワーク、サービス、インフラの稼働状況に関するデータをダッシュボードで可視化する GPUの使用率、サービスの応答遅延、AIモデルの性能などを監視するためダッシュボードを独自に構築可能
Prometheus メトリクス(指標)の監視、アラート通知 コンテナオーケストレーションツール「Kubernetes」管理下のシステムで稼働中のAIワークロードを監視する コンテナの稼働状況、GPU使用率、メモリとCPUの使用量を可視化

 これらのツールを連携させる上で重要な役割を果たすのが、オープン標準規格「OpenTelemetry」だ。これはシステムからテレメトリーデータを収集する方法を標準化するもので、特定の製品に依存しない、一貫したデータ収集を実現する。

エンドツーエンド可観測性のベストプラクティス

 企業のAI技術導入を成功に導くためには、信頼性の高いネットワーク可観測性が重要になる。AIワークロードに関するネットワーク可観測性を高めるには、明確な戦略が不可欠だ。そのための主要なベストプラクティスを以下に紹介する。

  • 複数階層で可観測性を確保する
    • AIワークロードの通信を詳細に分析するためには、ネットワーク層だけではなく、アプリケーション層やトランスポート層といった複数の階層を監視することが不可欠だ。
  • パフォーマンスの基準値を設定する
    • 平常時のAIワークロードの処理性能を基準値として確立しておくことが重要だ。これによって異常な状態を特定し、通信経路やコンピューティングリソース配分を最適化できるとともに、管理の改善にもつながる。
  • アラート通知と復旧を自動化する
    • 日々無数に発生するネットワーク関連イベントが発生する。AI技術を活用したアラート通知と障害復旧の自動化の仕組みを導入することで、人手を介さずに迅速な対処が可能になる。
  • オープン標準規格とAPI(アプリケーションプログラミングインタフェース)の採用
    • OpenTelemetryなどのオープン標準規格に準拠したツールを選ぶことが重要だ。将来の拡張に備えて、自由度が高いAPIを備えているツールであることが望ましい。

Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。

ページトップに戻る