地方銀行が「AIOps」でシステム運用のアラート数を“98%以上”削減できた理由:事例で分かる「AIOps」【前編】
IT運用の人材やスキルの不足が課題として挙がる中、システム運用にAI技術を使う「AIOps」はどう役立つのだろうか。地方銀行のKeyBankはAIOpsをどう活用しているのか。
人材不足の課題を抱える中で新型コロナウイルス感染症(COVID-19)による世界的大流行(パンデミック)が発生し、運用負荷増大への対処に悩んでいる企業もある。そうした中でも、企業がビジネスを継続するには安定したシステム運用が欠かせない。AI(人工知能)技術をシステム運用に取り入れる「AIOps」は、そうした企業の課題をどう解決するのか。
98%のアラートを削減
併せて読みたいお薦め記事
「AIOps」とは何か
「AIOps」の事例
米国の地方銀行であるKeyBankは、システム運用にAIOpsを取り入れた。単に1つのAIOpsツールを導入したのではなく、AIOpsツールを中心に21個以上の監視ツールを集約するシステムを構築した。
具体的には次のような仕組みだ。システム間でデータを受け渡すためのデータパイプラインにメッセージキューサービス「Apache Kafka」を利用し、そこからデータ収集・分析ツール群「Elastic Stack」にデータを取り込む。さらにAIOpsツール「Moogsoft」を使い、発生するイベントを機械学習(ML)で相互に関連付ける。これによって誤検知を除外し、ITチームが受け取るアラートの数を削減する。KeyBankはこのプロセスの構築に数カ月を擁した。
その他にも、ヘルプデスク業務に利用しているサービスマネジメントツール「ServiceNow」などのシステムとMoogsoftを連携させた。監視対象システムとランブック(手順書)の情報を結び付ける独自のシステム「WatchIt」も構築。WatchItのランブックの中には、ストレージやメインメモリの不足といったシンプルな問題を自動的に解決するものもある。
KeyBankでシニアアーキテクトを務めるミック・ミラー氏は、「業務のスピードが上がっている。インシデント数が劇的に減少すると同時に、インシデントの解決にかかる時間も大幅に短縮した」と、AIOps導入の成果を語る。アラートを相互に関連付けるMoogsoftの機能を活用することで、ミラー氏はアラートの数が前年比で98%以上削減できていると見積もる。
AIOpsで予兆分析も
アラート数の減少、インシデント要因の分析や一部のインシデントの自動的な解決などに加えて、KeyBankはインシデントの予兆や解決方法の助言をする仕組みもMoogsoftで構築した。これに利用するのは、チーム内の対話やアラートの確認などをするための仮想的なワークスペースである「Situation Rooms」というMoogsoftの機能だ。具体的には、Situation Roomsのチャットのテキストを分析し、過去にインシデントを解決した方法を学習する。同様のインシデントが発生する予兆を検知すると、学習結果を基にしてKeyBankのITチームに解決方法の助言をする。
AI機能を信頼し切っているわけではないが、ミラー氏は自動化を取り入れた運用の快適さに慣れることで、以前よりも「自己修復システム」(人手を介さずに自律的に機能するシステム)の可能性に対して懐疑的ではなくなったという。「当行は自己修復の実現に向けて正しい出発点に立っている」と同氏は話す。
ミラー氏はネットワーク運用チームと話し合い、「サイト信頼性エンジニアリング」(SRE:Site Reliability Engineering)のスキルセットを身に着けさせる方向へチームメンバーを導いている。SREとは、システム運用に自動化を取り入れて信頼性を向上させる手法だ。「プログラマーとインフラ担当者の役割を兼ねるようになれば、自動修復の可能性は高まり、さらにシステム運用は予測可能になるだろう」
TechTarget発 先取りITトレンド
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.