検索
特集/連載

AIにシステムを任せるのは危険? 部分的なシステム自動化が無難なのか「AIOps」の肝 システム運用における機械学習の活用法【後編】

企業のシステムが複雑になる中で、機械学習をシステム運用に取り入れることが重要になってきた。全てを機械学習モデルに任せることは簡単ではないが、部分的に活用するだけでもメリットを享受できる可能性がある。

Share
Tweet
LINE
Hatena

関連キーワード

機械学習 | 運用管理


 機械学習を活用したインシデント管理は、1980年代に流行した「ルールベースのAI(人工知能)システム」に似た問題解決がルーツだ。ルールベースのAIシステムは、事前に登録した判断基準を基にして判断する仕組みだ。そうしたシンプルな仕組みは、ログやシステム性能などのデータを使用した機械学習モデルの開発によって、データに基づいて動くように進化する。例えば過去のインシデント発生時のデータを基にして、設定変更が特定のインシデントの要因になるのかどうかを機械学習モデルは予測する。

 とはいえ機械学習を使ったシステム運用は発展途上にあり、初歩的なところにとどまる手法もあれば、広範な範囲を自動化する手法までさまざまだ。

機械学習によるレベル別のインシデント管理

 機械学習を活用したインシデント管理システムは、自動化の段階別に分類できる。

  • 0.自動化なし
    • 全ての運用プロセスをIT管理者が手作業で実施
  • 1.管理者を支援
    • 重要なイベントやアラートなどのデータをフィルタリングし、原因を特定して修正方法を提案
  • 2.部分的な自動化
    • システムの再起動や端末の電源切断など、簡単な作業を無人で実施。ワークフローにおける複数の作業を、手動からスクリプトによる自動実行に変えることも可能
  • 3.条件付き自動化
    • ワークフローの自動化により、重要度の高い作業を直ちに実行。例えば深刻な脆弱(ぜいじゃく)性が発見されたときに実行する修正プログラム
  • 4.完全な自動化
    • 動作対象の制御に対するフィードバックを自己分析し、問題が生じないように自律的に調整。リソースの不足、機器の故障、セキュリティの問題などを予測し、構成の変更、ソフトウェアのアップデート、リソースの追加などによって積極的に問題に対処

 完全に自動化されたシステムは、「AIOps」(AI for IT Operations)を手掛けるベンダーにとっての夢だ。だがその完成はまだ遠く、実現は何年も先になると考えられる。

IT管理者にとってのメリットとリスク

 機械学習を活用したインシデント管理はインシデント対処の時間を短縮し、インシデント発生後のレポート作成や原因分析を支援する。経験の浅いスタッフでもさまざまなインシデントに対処できるようになり、システム運用チームの負荷は軽減する。ただしこうしたメリットがある半面、自動化にはリスクも伴う。

 リスクは開発するシステム自体にある。機械学習モデルが不適切に開発され、不適切にチューニングされ、無秩序に使用されれば、良い結果にはつながらない。最悪の場合は、AIシステムが暴走して根本的な原因を誤って特定し、運用スタッフに大量のアラートが押し寄せ、不適切なソフトウェアアップデートや設定変更をしてしまう可能性がある。

 企業は機械学習を取り入れたインシデント管理システムを本番稼働させる前に、十分にテストする必要がある。これが重要なのは、航空会社の自動操縦システムが厳格で長時間のテストを受けなければならないのと同じ理由からだ。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る