ANAシステムズがシステムの変化対応力と安定稼働を両立できた理由とその裏側「可視化」だけに終わらない仕組みを実現

ANAグループの事業をシステム面から支えるANAシステムズでは、SaaSの活用やシステムの複雑化に伴い、障害対応の難しさに課題を抱えていた。迅速なサービス提供と安定運用を両立するための取り組みを担当者が語った。

2022年04月20日 10時00分 公開
[ITmedia]

 クラウドサービスや外部サービスと密接に連携しながらサービスを構成するスタイルが一般化したことで、環境の変化に迅速に対応することはもちろん、システムを安定運用させると同時に、顧客満足度を高めていくことが強く求められている。

 「安心と信頼を基礎に、世界をつなぐ心の翼で夢にあふれる未来に貢献します」をグループ経営理念に掲げ、ANA(全日本空輸)、Peach Aviation、エアージャパン、ANAウイングスという航空事業を中心に世界のリーディングエアライングループを目指すANAグループ。そのANAグループのITプロフェッショナルとして、エアラインビジネスを信頼性の高いITサービスで支えているのがANAシステムズだ。

 ANAシステムズでは、航空券予約、検索サイト「ANA SKY WEB」におけるシステム障害や、2016年にホストコンピュータ内で発生した不具合を原因とした数万人の利用者に影響が及んだ大規模システム障害の経験を持つ。過去に起きたシステム障害を「四大障害」と位置付け、再発防止に向けた取り組みを進めているANAグループにおいて「ビジネスへの変化対応力」を高める取り組みと「システムの安定運用」の両立をどう図っているのか担当者が語った。

「SaaS事業者から障害発生の連絡がない」「対応状況も分からず顧客に説明できない」

 航空事業、航空関連事業、旅行など、あらゆる業務領域でITシステムを積極的に活用しているANAグループ。同グループの事業をシステム面から支えているANAシステムズでは「ビジネスとITの一体化」が進む今日において、IT運用に大きな課題に直面していた。ANAシステムズの白土和彦氏(運用サービスマネジメント部 部長)は解説する。

ALT ANAシステムズ 運用サービスマネジメント部部長 白土和彦氏

 「デジタル化が進み、システムがお客さまに直結する範囲が広がっています。一方で、システムの複雑化が進み、外部サービスを組み合わせたサービスを提供するスタイルも広がり、障害の原因を素早く特定したり、今どのような対応をしているかお客さまにお伝えしたりすることが難しくなってきていました」(白土氏)

 ANAが2015年に採用し、活用しているSaaS(Software as a Service)型の航空券予約サービスのシステム監視がある。同サービスは、外部のクラウドサービスを利用するため、何か障害が発生しても、ANA側で詳しい原因を調査することができない。ANAシステムズの宇佐見 弥生氏(旅客サービス部 国際旅客チーム テクニカルマネージャ)は次のように話す。

 「異常が起きていてもサービス事業者から連絡がなかったり、異常を通知するメールやサービス側のポータルサイトを見ても、障害対応の進捗(しんちょく)状況が全く分からなかったりという状況が続いていました。社内のユーザー部門からは『検知や連絡が遅いのでは』と、お客さまとやりとりをするコールセンターからは『早く正確な情報がほしい』と指摘される状況でした」(宇佐見氏)

 外部サービスだけでなく、社内システムでも同様のトラブルが起こっていた。ANAシステムズの西田哲也氏(運用サービスマネジメント部 企画推進チーム テクニカルマネージャ)は振り返る。

 「過去に発生したシステム障害を風化させないように、障害訓練を毎年実施したり、ビデオを制作して啓発に取り組んだり、障害を風化させないためのeラーニングの取り組みなどを継続したりしてきました。それでも近年は、システムの複雑化もあり、障害を検知してから対応するまでに時間がかかっていました」(西田氏)

業務影響を最小化するため「サービス稼働状況の可視化プロジェクト」を推進

ALT ANAシステムズ 運用サービスマネジメント部 企画推進チーム テクニカルマネージャ 西田哲也氏

 そこでANAシステムズが取り組んだのが、「サービス稼働状況の可視化プロジェクト」だ。

 「障害が起きたら、原因調査を二の次にして復旧作業を最優先していました。それでも、業務影響を把握したり、サーバ内の状態を把握したり、他のシステムとの連携状況を確認したり、ログを集計したりするのには時間がかかります。システム担当者への連絡や確認で30分程度、関係他社への問い合わせで60分程度、ログの集計や分析には120分程度は必要です。また、メインフレームからオープン化、仮想化といったシステムアーキテクチャが変化する中で、構成や環境に応じた専門スキルが求められ、障害対応担当者の悩みになっていました。監視ツールや可視化ツールなど、さまざまな環境、構成に対応可能な運用プラットフォームの仕組みが必要だと感じ、サービス稼働状況の可視化プロジェクトを発足させました。そのプロジェクトの取り組みの中でプラットフォームとして『Dynatrace』を採用しました」(西田氏)

 Dynatraceは、オブザーバビリティ製品のリーダー企業だ。世界54カ国に拠点を持ち、世界3500社超の企業での採用実績がある。同社はアプリケーションパフォーマンスモニタリング(APM)だけでなくシステム全体の監視やサービス監視まで事業の幅を広げる。AI(人工知能)活用によるIT運用にも力を入れ、AIOps(Artificial Intelligence for IT Operations)の分野でもリーダー企業として評価されているという。

 西田氏が製品選定に当たって重視したのは、単に可視化ツールを導入するのではなく、製品導入後も継続的にシステム運用の品質を維持できるかどうか、取り組みを改善するためのサイクルを回しやすいかどうかだったという。

 「導入前に全てをテストするのではなく、本番環境で動かしながら問題点をつぶしていく『シフトライトテスト』の考え方を採用しました。改善のアプローチとしてPDCAに加え、現場での観察と意思決定を重視する『OODA』(観察《Observe》、状況判断《Orient》、意思決定《Decide》、行動《Act》)を組み合わせました。こうしたアプローチに適しており、導入が簡単で直感的に利用できるのがDynatraceでした」(西田氏)

システム障害の業務影響をリアルタイムに可視化するダッシュボードを構築

ALT ANAシステムズ 旅客サービス部 国際旅客チーム テクニカルマネージャ 宇佐見 弥生氏

 ANAのDynatraceは現在、フェーズ1として社内のさまざまなシステムへの導入を進めている段階だ。担当者の負荷が高い業務を中心に採用することで、業務影響の把握や復旧作業を素早く実施できるようにしている。

 「従来はイベントメッセージを見て、ログを分析しながら、業務への影響や他システムの状況を把握しており、これが担当者の大きな負担となっていました。Dynatraceは、それらをリアルタイムに可視化するダッシュボードを提供してくれます。ダッシュボードを見るだけで、運航情報のハブシステムやお客さまが利用しているANA SKY WEBの国内線、国際線、ツアーに影響が出ていないかどうかを把握できるのです。復旧作業でも、レスポンス影響を踏まえて処理設定を変更し、サイトの処理速度を暫定的に改修することで、お客さまへの影響を最小限にするといった施策を実行できるようになりました」(西田氏)

 ANA SKY WEBはSaaS型の外部サービスを活用しているが、Dynatraceを導入することで外部サービスの稼働状況をANAシステムズ側で把握できるようになったという。

 「これまで緊急コールや障害通知だけでは分からなかったことが、Dynatraceが提供するデータを見ることで把握できるようになりました。機能別のエラー発生件数で『今何が起きているか』が分かるようになりました。サービス別の稼働状況を見れば『何も起きていないこと』も把握できます。お客さまや社内ユーザーからの問い合わせに対し、根拠を持って早く正確に回答できるようになったのです」(宇佐見氏)

 外部サービスの導入に当たっては、当初「SaaSを利用するのだから事業者に任せればいいと考えていた」という。しかし、実際には甘い見通しだと分かった。

 「外部サービスを利用するなら不測の事態を常に想定し、自分たちで監視や可視化の仕組みを入れることが重要です。高いSLA(サービス品質保証)でも安心することなく、懸念が杞憂(きゆう)に終わればよいというマインドで何事もうたがってみることが大切です」(宇佐見氏)

経営トップが障害の影響を素早く把握、社外パートナーとの情報連携も可能に

 社内にプラットフォームを浸透させるため、改善活動のプロジェクトを強化する形で利用を進めていったという。

 「特に心掛けたのは、ゴールを共有し、メンバーが共通認識を持ちながら、リラックスして能動的に動くための環境を作ることです。そうした環境を整えることができれば、試行錯誤する中で、知見とノウハウがたまっていき、自発的に取り組みが進むようになります。Dynatraceの導入では、お客さまや社内ユーザーへの影響を最小限にし、満足度を高めていくことに向けて、自然発生的な取り組みがあちこちで起こりました。Dynatraceのダッシュボードがメンバーや社員の『共通言語』になったと感じています」(白土氏)

ALT ANAシステムズにおけるDynatrace活用例(提供:ANAシステムズ)《クリックで拡大》

 Dynatraceのダッシュボードは、プロジェクトメンバーだけでなく、経営トップを含めた経営層でも使われている。ダッシュボードを見ることで、システム障害が業務にどのような影響を与えるかが即座に把握できるため、現場からの意見や改善の提案も実施しやすい風土に変革を遂げたという。

 「業務影響を迅速かつ正確に把握できるようになったことで、社内だけでなく、社外のパートナーとの関係も良い意味で変化していると感じます。航空ビジネスをともに手を携えて進めていくパートナーという意識が芽生え、真摯(しんし)に生き生きと仕事に向きあえるようになったという印象です」(白土氏)

 社外パートナーには、過去の大規模障害のビデオやeラーニング教材も提供しているが、それらを見たパートナーから、さらなる改善のための積極的な提案も出るようになったという。

 Dynatraceは、単なるツールベンダーではなく「いかにクライアントのビジネスに貢献できるか」という観点で提案活動を行っているという。同社はDX(デジタルトランスフォーメーション)の成功の鍵がチーム連携にあり、Dynatraceがそのための共通言語の一つになるとする。同製品を利用することで、これまで個別に管理されていたさまざまなシステムが一元的に可視化され、一気通貫で問題の切り分けや改善活動、管理ができるようになるからだ。

 SaaSやクラウドの活用でシステムの複雑化が進む中、Dynatraceを活用してサービスの変化対応力を高めつつ、システムの安定稼働に向けた挑戦を続けるANAシステムズの取り組みは、運用管理の効率化や自動化、DX推進を目指す企業の参考になるだろう。

本稿は2024年3月27日、一部内容を修正しました。

 Dynatraceは、Gartner Magic Quadrant APM(アプリケーションパフォーマンス管理)部門で最高評価を受けていますが、既存のAPMの概念を超え、ソフトウェアインテリジェンスを提供する企業としてさまざまなお客さまにソリューション提供を行っています。

 Dynatraceはワンストップでシステムの現状と問題点である“答え”を提示し、さらにAIによる問題の切り分け、必要なアクションのリコメンデーションができるソリューションです。

 ぜひとも、一度トライアルにご応募いただき、実際に試していただければと思います。



提供:Dynatrace合同会社
アイティメディア営業企画/制作:アイティメディア編集局

Copyright © ITmedia, Inc. All Rights Reserved.