検索
特集/連載

JP1やHinemosのAI活用で考察 「AIOps」によるシステム運用の形とは?「統合運用管理」の基本と進化【第4回】

AI技術をシステム運用に取り入れる「AIOps」によってどのようなシステム運用が実現するのか。統合運用管理ソフトウェアの「JP1」と「Hinemos」を例にして考える。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

関連キーワード

JP1 | OSS | 統合運用管理


 日立製作所の「JP1」やNTTデータ先端技術の「Hinemos」を例にして、本連載は統合運用管理ソフトウェアの役割や昨今の機能追加を紹介してきた。本稿は統合運用管理ソフトウェアの「AIOps」を紹介する。AIOpsとは、AI(人工知能)技術を取り入れたシステム運用を指す。

 第1回「『統合運用管理』とは何か 単純な『運用管理』と何が違うのか?」で紹介した通り、統合運用管理ソフトウェアは性能監視やジョブ(コンピュータによる業務の処理)実行、設定変更などシステム運用のさまざまな機能を一元的に提供する。もともとシステム運用の“効率化”を目指してきた統合運用管理ソフトウェアにAI技術が加わることで、どのようなシステム運用が可能になるのか。

「AIOps」で何が変わるのか

 統合運用管理ソフトウェアは、システム稼働のログや機器の構成情報などさまざまデータを収集する。まず、このデータがAIOpsの基になる。

 AIOpsではシステムの運用ログや、過去のイベント(システム稼働状態の変化)への対処履歴をAIモデルが機械学習によって学習し、人の作業を代替したり、システムの稼働状態から傾向把握や故障の予知などの洞察を引き出したりする。下記のようなシステム運用が実現する。

  • 膨大に発生するイベントから対処が必要なものを判定する
  • イベントに対して必要な対処を自動的に提案したり、実行したりする
  • 変動するシステムの稼働状態を学習して故障の予兆を検知する
  • システム稼働の問題を自動的に修復する

 人の作業では処理し切れない量のイベントを迅速にさばくことや、各種システムの稼働状態を関連付けて問題の予兆検知をすることはAIOpsの基本的な用途だ。これにより工数削減や潜在的な問題の解消につなげることができる。問題の検知だけではなく自動的な修復までできれば、人手の介入を減らした自律的なシステム運用、つまり「NoOps」も実現する。

JP1とAIOps

 日立製作所はシステム運用やシステム構築の各種支援を提供する「IT運用最適化サービス」の中で、AI技術を活用するメニューとして「AI for IT Operations」を提供している。これをJP1と組み合わせることで、ユーザー企業のAIOpsを支援している。同社が支援するAIOpsの一つが、イベントのエスカレーション要否の判定をAIモデルに任せることだ。発生したイベントをメールで運用担当者に通知する、何らかの一時対処を実行するなどのエスカレーションの要否を、過去のイベントへの対処履歴を学習したAIモデルが判断する。

 日立製作所で主任技師を務める横山卓三氏は「特に多数のシステムを運用している場合、大量に発生するイベントの影響度合いを把握することに運用担当者は多くの工数を割いている」と説明する。その作業をAIモデルに任せることで運用作業の工数削減が見込めるだけでなく、イベント対処の迅速化によりシステムの安定稼働につながる効果も期待できる。

 JP1はもともと特定のイベントに必要な対処を自動的に提示する「イベントガイド」という機能を提供している。これを機能させるには、従来はあらかじめ運用手順を定義し、必要に応じて変更を加える必要があった。過去のイベント対処履歴を学習したAIモデルに任せる場合は手作業で変更する必要がなくなる。AI技術を使うことで、システム運用における人の介在がさらに減る形だ。

 ただし、これまで人が担ってきた判断をAIモデルに任せる場合は、信頼できる判定ができるかどうかが極めて重要になる。JP1でAI技術を活用する場合は、統合管理製品「JP1/Integrated Management 2」が収集したイベントの情報や過去の対処履歴をAIモデルに学習させる。PoC(概念実証)でAIモデルによる判定の精度を高め、一定の効果が見込めるようになったら本番稼働に移行するのが一般的だと横山氏は話す。AI技術を使ったJP1の活用例としてはエスカレーション要否の判定以外にも、システム稼働状況の傾向把握や予兆分析、レポート作成などがある。

HinemosもAIOpsに着手

 NTTデータ先端技術もHinemosの新たな取り組みとしてAIOpsの機能拡充に重点を置いている。Hinemosの開発を統括する清水克則氏は、将来的な取り組みを含めて複数の視点でAIOps技術の開発を進めていると説明する。下記はその一例だ。

  • 運用ログの分析
    • 予兆検知や故障原因の分析など
  • インテリジェントなアラート
    • 不要なイベントのフィルタリングや関連メッセージの集約など
  • 対応判断の支援
    • 過去の類似インシデントの提示や、エンジニアの呼び出し要否の判断など
  • 障害対応の迅速化と自動化
    • システム障害の自動復旧や障害の予防など

 まずNTTデータ先端技術が着手したのは、NTTアドバンステクノロジの「@DeAnoS」、ブレインズテクノロジーの「Impulse」の2つのAIエンジンとHinemosを連携させることによる異常の予兆検知や要因分析だ。「数カ月後にストレージの容量が不足する」といったことは、これまでもシステム運用の傾向から予測できていた。同社が特にAI技術の活用で焦点を当てているのはそうした簡易的な予測ではなく、表面的には見えにくい傾向や要因の把握だ。例えばWebサーバに応答遅延が発生する事象があったとする。その際、人の判断ではすぐに原因を突き止めることができなくても、システム構成の関係性や運用ログを学習したAIモデルであれば「実は認証サーバの過負荷が原因だった」ことを突き止められるようになる。

 清水氏は「未然に障害を防ぎたい」「要因を早期に分析したい」「監視の閾値(しきいち)を自動的に設定したい」などユーザー企業から出てくるさまざまな要望を基に、AI技術を活用するための開発を続ける方針だと話す。NTTアドバンステクノロジやブレインズテクノロジーのAIエンジンとの連携だけではなく、今後はHinemosの機能にAI技術を組み込んで提供することも視野にあるという。


 システムの複雑化やIT人材不足が一段と進めば「人手では処理し切れない」「スキルが不足している」といった問題が深刻化してくる。そうした課題に対処するため、統合運用管理ソフトウェアのAI技術を使った機能強化は今後さらに進むと考えられる。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る