設計図上では完璧に見えたクラウド環境が、本番運用で火を噴いた。アップデート強行で多額の損失、無駄になった開発環境――。AWSのイベントで明かされた「生々しい失敗事例」と、そこから得られる教訓を共有する。
「全てのアーキテクチャは、現実に直面するまでは完璧に見える」。
2025年12月、米ラスベガスで開催されたAWS(Amazon Web Services)の年次イベント「AWS re:Invent 2025」。ITサービス企業DXC Technologyのブルーノ・マランゴニ氏(LATAMシニアソリューションアーキテクト)は、聴衆に向かってそう切り出した。本稿では、同氏が共有した中南米の企業における3つの失敗事例と教訓を紹介する。
この企業はiPhoneをはじめとした大手携帯キャリア2社の販売代行を担ってきたが、ブラックフライデーなどのピーク時にECアプリケーション(以下、ECアプリ)がダウンする問題を抱えていた。同ECアプリは平均3000件/日程度のトラフィックがある。
調査の結果、同社は「プレゼンテーション層」「アプリケーション層」「データ層」の3層構造に分けたアーキテクチャにロードバランサーを追加した一般的なWebアプリケーションの構成を採用していた。しかし、主に以下の問題を抱えていた。
そこでマランゴニ氏のチームは以下を実施した。
マランゴニ氏は「可用性は単なるチェックボックスではなく、アーキテクチャ上の決定事項でありトレードオフだ」と強調する。
同行では、ミッションクリティカルな顧客サービス基盤として「Amazon Elastic Kubernetes Service」(Amazon EKS)を利用し、AWSのセキュリティサービス「AWS Security Hub」による監視を行っていた。さらに、セキュリティ推進団体Center for Internet Security(CIS)準拠のセキュリティチェックが有効になっていた。
AWS Security HubはEKSのバージョン更新を促すアラートを発し続けていたが、プラットフォームチームはこれを無視し、セキュリティチームとの連携を怠っていた。業を煮やしたセキュリティチームが強制的にアップデートを適用したところ、互換性の問題でアプリケーションがダウンした。
EKSは一度アップグレードするとダウングレードができない仕様であるため、システム復旧にはAWSパートナーの介入が必要となった。結果として6時間のダウンタイムと120万レアル(約3382万円)の損失を招いた。この事例は、ガバナンスやツールが整っていても、チーム間のコミュニケーションやDevSecOps(開発、運用、セキュリティの融合)が機能しなければアーキテクチャは破綻することを示している。
クラウド移行を進めていたある企業では、全ワークロードの70%が開発環境と品質保証(QA)環境で占められていた。それにもかかわらず、EC2、EKS、ECSをはじめとした全クラウドリソースが本番環境と同様に24時間365日、常に動作していた。さらに、開発環境、QA環境にまで、過剰な可用性や冗長性を持たせていた。
この結果、月額6万レアル(約169万円)、年間で2000万円以上を浪費している状態だった。
マランゴニ氏のチームは、開発時間外はクラウドリソースを自動でシャットダウンするポリシーや適切なサイジングを適用することで、月額6万レアルのコスト削減を実現した。マランゴニ氏は「クラウドが弾力的(Elastic)であるなら、コストもまた弾力的であるべきだ」と締めくくった。
Copyright © ITmedia, Inc. All Rights Reserved.
なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか
メインフレームを支える人材の高齢化が進み、企業の基幹IT運用に大きなリスクが迫っている。一方で、メインフレームは再評価の時を迎えている。

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...