システム障害のよくある原因と、トラブル対処に使える「機械学習モデル」一覧「AIOps」の肝 システム運用における機械学習の活用法【前編】

インシデント対処の質向上とコスト削減を図るための選択肢として、機械学習が注目されている。どのような問題に対して、どのような機械学習の手法が有効なのだろうか。

2022年03月25日 05時00分 公開
[Kurt MarkoTechTarget]

関連キーワード

機械学習 | 運用管理


 機械学習などのAI(人工知能)技術は、データを生かすことでビジネスの成長を促す原動力となる。ただし問題もある。インフラやアプリケーションに障害が発生した場合、IT部門や開発チームが手動で対処するのは非常に困難になってしまうことだ。アプリケーションの重要度が高いほど、システム障害が発生した場合の財務面での影響も大きくなる。

 こうして手作業によるインシデントへの対処が難しくなる場合にも、機械学習を活用することが有効だ。障害の問題特定や解決を自律化できるようになる。ここでは、システム障害の原因になり得る問題と、その解決に使える機械学習モデルをみてみよう。

機械学習を使ったインシデント管理

 インシデントの解決に機械学習を用いることは、AI技術を活用したシステム運用管理「AIOps」(AI for IT Operations)の運用手法として位置付けられる。AIOpsのタスクとしては、イベントやログを分析・監視する「イベント相関」や、障害に対処するための「インシデント管理」などがある。

 これらのタスクが組み込まれた機械学習モデルを、アプリケーションやセキュリティ対策に共通するリポジトリ(保管場所)と連動させることで、問題の特定や修正にかかる時間を大幅に短縮することができる。機械学習モデルは対象分野の経験が浅いスタッフでも使用することができるため、インシデント対処の質を平準化することが可能だ。

システム障害の原因と、機械学習によるアプローチ

 アプリケーションが停止する原因は多岐にわたる。よくある原因は下記の通りだ。

  • 設定変更
  • ソフトウェアのアップデート
  • 機器の故障
  • ネットワークの輻輳(ふくそう)
  • 標的のシステムに大量のアクセスを集中させる「DDoS攻撃」(分散型サービス拒否攻撃)
  • 不正アクセスによるデータやシステムの侵害

 これらの原因の解決方法は、幾つかのカテゴリーに分類できる。

  • データのクラスタリングと相関関係の把握
    • 類似の事象を関連付け、原因と結果を結び付ける。例えば、不適切なルーティング設定がネットワーク停止を引き起こすこと。
  • アノマリー検知
    • システム稼働の正常なパターンを基に、それと乖離(かいり)した状態を検知する。
  • 曲線あてはめと予測
    • 統計的手法と機械学習による予測を組み合わせた手法を用いる。
  • 深層学習(ディープラーニング)
    • 脳のニューラルネットワークを模した数理モデルでシステム運用のデータを学習し、分析する。

活用可能な機械学習の手法

 インシデント管理システムに機械学習を組み込む場合、以下のような、さまざまな種類の手法を使用する。

  • 分布の平均値からのずれを示す「標準得点」(Z得点)や「偏差値」(T得点)などの標準的な統計手法
  • 1つ以上の変数から連続変数の値を予測する「線形回帰」や、幾つかの要因から2値の結果が起こる確率を予測する「ロジスティック回帰」
  • 全体的な平均値の相違を調べるANOVA(分散分析)などの手法を含む「一般化線形モデル」
  • データ系列のある点と、その直近時点の値との関係性を分析し予測する「自己回帰和分移動平均モデル」(ARIMAモデル)
  • 教師あり学習(事前に人間が用意した正解データを基にする学習)を用いるパターン認識モデルである「サポートベクターマシン」
  • 任意のデータ点での近傍点に対する、局所的な変動を測ることによって異常を発見するアルゴリズムである「局所外れ値因子法」や「楕円(だえん)形エンベロープ」
  • ツリー構造のデータである決定木を応用したアルゴリズムである「勾配ブースティングマシン」
  • 膨大なデータの中から異常なものを検知し分離する「分離フォレスト」と決定木を複数作成し、各学習の平均を算出して予測する「ランダムフォレスト」
  • データが写像された空間中でテストデータに最も似ているデータを探す「k近傍法」と、データを幾つかのクラスタ(集団)に分けた後、クラスタの平均を用いてデータが分かれるように調整する「k平均法」による異常検知
  • 入力されたデータを一度圧縮し、重要な特徴量を残した後、再度元の次元に復元処理をするアルゴリズムである「オートエンコーダー」
  • 深層学習
  • ある領域で学習済みのモデルを新しい領域のデータに適用する「転移学習」

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

譁ー逹€繝帙Ρ繧、繝医�繝シ繝代�

市場調査・トレンド SUSE ソフトウエア ソリューションズ ジャパン株式会社

ベンダー依存から脱却、柔軟かつ統合的なLinux環境を構築する方法とは?

エンタープライズ向け技術は、Linuxを中核に据え、オープンソースで動作しているものが多い。しかし近年、一部のベンダーが契約による囲い込みを強めており、ベンダーロックインのリスクが高まっている。安定したLinux運用を実現するには?

製品資料 株式会社野村総合研究所

運用効率化に欠かせないITSMツール、ノンカスタマイズが正解とは限らない?

ITサービスへの要求は年々増大しており、その対応を手作業でカバーするには限界がある。そこで導入されるのがITSMツールだが、特に自動化機能には注意が必要だ。自社に適した運用自動化や作業効率化を実現できるのか、しっかり吟味したい。

製品レビュー 株式会社クレオ

現場でカスタマイズ可能なITシステム、コストと時間をかけずに実現する方法とは

業務効率を高めて生産性を向上させるために、多くの企業がITシステムの導入を進めている。しかし、自社の業務に合わないITシステムを導入してしまっては、逆に生産性が低下する可能性も高い。この問題をどう解決すればよいのだろうか。

製品レビュー グーグル合同会社

重要なエンドポイントを守る、Chromeブラウザを企業向けに安全性を強化する方法

世界中で広く利用されているChromeブラウザは、業務における重要なエンドポイントとなっているため、強固なセキュリティが必要となる。そこでChromeブラウザを起点に、企業が安全にWebへのアクセスポイントを確立する方法を紹介する。

製品資料 グーグル合同会社

Chromeの拡張機能:企業における今求められる管理戦略とは

Google Chromeの拡張機能は生産性の向上に不可欠な機能であり、ユーザーが独自にインストールできる一方、IT管理者を悩ませている。ユーザーデータを保護するためにも、効率的な運用・監視が求められるが、どのように実現すればよいのか。

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news025.png

「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。