検索
特集/連載

大手ECサイトがあえて本番データセンターの電源を落とす理由本番環境の99%を巻き込む過酷な実験

放置されたサーバには設定の不備などの技術的負債が蓄積し、有事の際にシステム障害を引き起こす恐れがある。こうした不備をあぶり出すために、大手ECサイト事業者があえてシステム全体をダウンさせる取り組みとは。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 複数の出品者が出店する総合EC(電子商取引)サイトの停止は、単なる利便性の低下にとどまらず、甚大な経済損失とブランド価値の毀損(きそん)を招く。ポーランドを拠点に、欧州有数の利用者数を誇るECサイト事業者のAllegroにとって、システムの停止は許されない。同社は2025年10月時点で3200個以上のマイクロサービスが稼働し、1日当たり150回のデプロイと8000回以上の設定変更が実施される巨大なシステムを運用している。

 こうした複雑なシステムにおける未知の障害リスクを最小化するため、Allegroが取り組んでいるのが「Project Osiris」だ。これは、稼働中のデータセンターを意図的に停止させ、サービス継続能力を検証する「カオスエンジニアリング」の実践だ。実験では、本番環境のインフラの99%を対象とした大規模なデータセンター停止に成功し、物理的な電源遮断を伴う過酷な条件下でも、エンドユーザーへの恩恵を損なうことなく稼働し続けるレジリエンス(回復力)を証明した。

 巨大なECシステムをあえて停止させるという、一見すると無謀な試みを安全に実行するために、Allegroはどのような手順を踏んでいるのか。その詳細な仕組みと、実験から得られた知見を深掘りする。

自ら本番システムを“破壊”して回復力を得る

 本稿は、SRE(サイト信頼性エンジニアリング)の国際カンファレンス「SREcon25 Europe/Middle East/Africa」における講演内容を基に構成している。登壇したAllegroのサイバーセキュリティ&ITガバナンス部門エンジニアリングマネジャー、プルゼミスワフ・ララク氏は、同社が取り組むProject Osirisの具体的な手法と、そこから得られた教訓を詳細に明かした。

 実験の成功を可能にするのは、「Screenplay」と呼ばれる、分単位で規定された緻密な進行計画(シナリオ)だ。実験の数カ月前から、エンジニアリングチームは経営層や関連部署と合意を形成し、大規模な販促イベントや重要な機能更新の時期を避けた実施日時を慎重に選定する。

 実験当日は、専用のダッシュボードでシステム全体の健全性をリアルタイムに可視化し、異常を検出した際には即座に実験を中止して切り戻す体制を構築している。具体的には、特定データセンターへのネットワークトラフィックを他に迂回(うかい)させ、対象のシステム構成を安全に停止。その後、本番に近い負荷を疑似的にかけるキャパシティーテストを実施し、最後に再起動とトラフィックの復旧を順次実行する。この一連の工程に明確な責任者を配置することで、現場の混乱を防いでいる。

 こうした過酷な検証を実施する理由は、平時には見過ごされがちな「技術的な負債」を洗い出すためだ。ララク氏は、予期しない不具合を「裏庭に潜むサソリ」と呼ぶ。実際、過去の実験では、冗長構成のデータベース群が意図せず全停止したり、コンピューティングリソースの不足によってオートスケーリングが機能しなかったりと、複数の課題が浮き彫りになった。

 特に重要な発見は、長期間再起動されずに放置されていたサーバの脆弱(ぜいじゃく)性だ。360日以上稼働し続けているようなホストマシンは、設定の不備やOSのパッチ(修正プログラム)の未適用が蓄積しており、有事の再起動で正常に立ち上がらないリスクがある。データセンター全体を定期的に停止/起動させる仕組みを導入することで、こうした潜在的な欠陥を強制的に修正し、インフラ全体の安全性を底上げしている。

 他社のテストとの違いは、自社のインフラ内にとどまらず、悪質なbotを遮断するセキュリティツールなどの外部ツールとの通信を意図的に遮断するテストにも踏み込んでいる点だ。サードパーティーの障害を想定した連携テストを繰り返すことで、自社では制御不能な外部要因に対してもサービスを継続できる優位性を築いている。

 本番環境で意図的に障害を起こす手法は、時に人手や手間を要し、社内での調整も容易ではない。しかし、実戦形式の実験を通じてインフラへの深い理解を得ることは、実際のインシデント発生時の復旧時間を大幅に短縮する。Allegroは今後も、物理的な電源オフを含む実験の規模を拡大し、不確実な状況下でも確実に勝利できる強固なシステムを追求する方針だ。

Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。

ページトップに戻る