システム障害のよくある原因と、トラブル対処に使える「機械学習モデル」一覧:「AIOps」の肝 システム運用における機械学習の活用法【前編】
インシデント対処の質向上とコスト削減を図るための選択肢として、機械学習が注目されている。どのような問題に対して、どのような機械学習の手法が有効なのだろうか。
機械学習などのAI(人工知能)技術は、データを生かすことでビジネスの成長を促す原動力となる。ただし問題もある。インフラやアプリケーションに障害が発生した場合、IT部門や開発チームが手動で対処するのは非常に困難になってしまうことだ。アプリケーションの重要度が高いほど、システム障害が発生した場合の財務面での影響も大きくなる。
こうして手作業によるインシデントへの対処が難しくなる場合にも、機械学習を活用することが有効だ。障害の問題特定や解決を自律化できるようになる。ここでは、システム障害の原因になり得る問題と、その解決に使える機械学習モデルをみてみよう。
機械学習を使ったインシデント管理
併せて読みたいお薦め記事
- Google認定の機械学習資格「Professional Machine Learning Engineer」とは? 合格するには
- 「AIOps」の失敗例と、正しく導入するために最低限検討すべきこと
- 地方銀行が「AIOps」でシステム運用のアラート数を“98%以上”削減できた理由
インシデントの解決に機械学習を用いることは、AI技術を活用したシステム運用管理「AIOps」(AI for IT Operations)の運用手法として位置付けられる。AIOpsのタスクとしては、イベントやログを分析・監視する「イベント相関」や、障害に対処するための「インシデント管理」などがある。
これらのタスクが組み込まれた機械学習モデルを、アプリケーションやセキュリティ対策に共通するリポジトリ(保管場所)と連動させることで、問題の特定や修正にかかる時間を大幅に短縮することができる。機械学習モデルは対象分野の経験が浅いスタッフでも使用することができるため、インシデント対処の質を平準化することが可能だ。
システム障害の原因と、機械学習によるアプローチ
アプリケーションが停止する原因は多岐にわたる。よくある原因は下記の通りだ。
- 設定変更
- ソフトウェアのアップデート
- 機器の故障
- ネットワークの輻輳(ふくそう)
- 標的のシステムに大量のアクセスを集中させる「DDoS攻撃」(分散型サービス拒否攻撃)
- 不正アクセスによるデータやシステムの侵害
これらの原因の解決方法は、幾つかのカテゴリーに分類できる。
- データのクラスタリングと相関関係の把握
- 類似の事象を関連付け、原因と結果を結び付ける。例えば、不適切なルーティング設定がネットワーク停止を引き起こすこと。
- アノマリー検知
- システム稼働の正常なパターンを基に、それと乖離(かいり)した状態を検知する。
- 曲線あてはめと予測
- 統計的手法と機械学習による予測を組み合わせた手法を用いる。
- 深層学習(ディープラーニング)
- 脳のニューラルネットワークを模した数理モデルでシステム運用のデータを学習し、分析する。
活用可能な機械学習の手法
インシデント管理システムに機械学習を組み込む場合、以下のような、さまざまな種類の手法を使用する。
- 分布の平均値からのずれを示す「標準得点」(Z得点)や「偏差値」(T得点)などの標準的な統計手法
- 1つ以上の変数から連続変数の値を予測する「線形回帰」や、幾つかの要因から2値の結果が起こる確率を予測する「ロジスティック回帰」
- 全体的な平均値の相違を調べるANOVA(分散分析)などの手法を含む「一般化線形モデル」
- データ系列のある点と、その直近時点の値との関係性を分析し予測する「自己回帰和分移動平均モデル」(ARIMAモデル)
- 教師あり学習(事前に人間が用意した正解データを基にする学習)を用いるパターン認識モデルである「サポートベクターマシン」
- 任意のデータ点での近傍点に対する、局所的な変動を測ることによって異常を発見するアルゴリズムである「局所外れ値因子法」や「楕円(だえん)形エンベロープ」
- ツリー構造のデータである決定木を応用したアルゴリズムである「勾配ブースティングマシン」
- 膨大なデータの中から異常なものを検知し分離する「分離フォレスト」と決定木を複数作成し、各学習の平均を算出して予測する「ランダムフォレスト」
- データが写像された空間中でテストデータに最も似ているデータを探す「k近傍法」と、データを幾つかのクラスタ(集団)に分けた後、クラスタの平均を用いてデータが分かれるように調整する「k平均法」による異常検知
- 入力されたデータを一度圧縮し、重要な特徴量を残した後、再度元の次元に復元処理をするアルゴリズムである「オートエンコーダー」
- 深層学習
- ある領域で学習済みのモデルを新しい領域のデータに適用する「転移学習」
TechTarget発 先取りITトレンド
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.