新型コロナウイルス感染症による混乱が続く中、企業がビジネスを継続するにはシステムの安定運用を継続する必要がある。運用負荷を軽減する手段として、ある医療サービス企業が選んだのが「AIOps」だ。その理由は。
AI(人工知能)機能をシステム運用に取り入れる「AIOps」によって、企業はどのような利点を得られるのか。前編「地方銀行が『AIOps』でシステム運用のアラート数を“98%以上”削減できた理由」に続き、新型コロナウイルス感染症(COVID-19)による混乱の中、AIOpsを使うことでシステム運用の負荷軽減に取り組む企業の事例を紹介する。
在宅医療サービスを提供するSignify Healthは、ITチームの人材不足の問題を抱えつつも事業拡大に取り組んできた。そうした中で新型コロナウイルス感染症によるパンデミック(世界的大流行)が発生し、運用負荷の問題はさらに悪化した。
Signify Healthの理想は、システム運用に自動化を取り入れて信頼性を向上させる「サイト信頼性エンジニアリング」(SRE)の手法を取り入れ、同社の16部門のシステムを1つのチームで横断的に運用することだ。だがそのための専門のスタッフはまだ1人しか採用できていない。
ITチームのジェフリー・ヒネス氏は、「SREのエンジニアを見つけるのは難しい。数カ月も適切な人材を探してきた」と話す。優秀な候補者を見つけることはできたものの、多数の優秀なエンジニアを見つけるのは簡単ではないという。そのためビネス氏は「必要とするエンジニアの数を減らすことが間違いなくプラスに働く」と説明する。
Signify HealthのITチームには大きな作業負荷が掛かっている。オンプレミスのインフラからクラウドサービス群「Microsoft Azure」への移行、アプリケーション開発のプロセスを自動化するCI/CD(継続的インテグレーション/継続的デリバリー)のパイプライン管理、システム監視、インシデントのトラブルシューティングなどさまざまな役割を担っている。
運用負荷軽減のために、Signify HealthはAIOps機能を搭載するNew Relicのシステム監視ツール「New Relic One」の評価に着手した。New Relic OneのAIOps機能に着目したのは、アラート数削減に加え、サードパーティー製のワークフローツールとの連携による通知の自動化などの機能があったからだ。
ヒネス氏は特にアラート数削減による負荷軽減に期待を掛けている。「運用に慣れるまでにはある程度の時間がかかるが、エンジニアの労力を減らせると期待している」。最終的にはNew Relic Oneと、Atlassianのアラート管理システム「Opsgenie」を連携させ、トラブルシューティングの自動化を目指しているという。
本格的な導入に向けて、ヒネス氏はAIOpsによる効果を評価している。まずは通常のアラート数と、AIOpsを取り入れた場合のアラート数を比較し、その相関関係の正確さと信頼度を確認している。「通常のアラートには何が起きているか分からないほど多くのノイズが含まれている。それがこれまで評価を進めた中での衝撃だ」と同氏は話す。
New Relic Oneによる機械学習もまだ途中だ。これまでに使用した評価として、ヒネス氏はNew Relic OneがSaaS(Software as a Service)であることのメリットを挙げる。Signify HealthのデータはNew Relicが運用するクラウドインフラで管理されるため、Signify HealthはAIOps向けに自社のデータリポジトリを更新する必要も、データ移行をする必要もない。
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
ハロウィーンの口コミ数はエイプリルフールやバレンタインを超える マーケ視点で押さえておくべきことは?
ホットリンクは、SNSの投稿データから、ハロウィーンに関する口コミを調査した。
なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...
業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...