PayPay「100億円祭り」を襲うトラブルの数々 AWSでアクセス急増をどう耐えたか:キャッシュレス決済サービスの安定稼働までの道のり
QRコード決済サービス「PayPay」の「100億円キャンペーン」第1弾は、注目の的となった半面でシステム障害が相次いだ。同社はその後、大量のトラフィックを処理するシステムを「AWS」でどう構築したのか。
「PayPay」は2018年10月に開始したQR・バーコード決済サービスで、加盟店数は60万店以上、累計登録者数は700万人を超える。運営会社のPayPay社は、消費者向けには決済用のスマートフォンアプリケーションを、加盟店舗向けにはダッシュボード「PayPay for Business」を提供している。
2019年12月にPayPay社が実施した「100億円あげちゃうキャンペーン」の第1弾は、10日間でキャンペーン原資を全て使い切るほどの反響を呼んだ。しかし大量のアクセスでシステムの稼働が不安定になり、キャンペーン中に数度のメンテナンスを実施する必要が生じたという。同社でPayPayのアプリケーション開発を担当する山本啓介氏は「システムがトラフィックの急増に耐えられる仕組みでなく、サービスの安定した運用ができなかった」と語る。
PayPay社は第1弾キャンペーンと当時運用していたシステムの反省を踏まえ、どのようにシステムを変更し、第2弾キャンペーンの大量トラフィックに備えたのか。2019年6月開催のイベント「AWS Summit Tokyo 2019」で、同社の山本氏と、トロントの開発拠点に勤めるシレイ・ロング氏が、キャンペーンを裏で支えていたシステムについて語った。
PayPayを3カ月で開発できた理由
2018年7月の開発開始から3カ月という短期間で、PayPayのシステムは完成した。開発期間を短縮するために、PayPay社が採用した手法が、独立性の高い小規模なサービス(マイクロサービス)を組み合わせてシステムを構築する「マイクロサービスアーキテクチャ」だ。
PayPayのシステムは、決済システム、ウォレット、店舗向けのシステムなど、60個以上のマイクロサービスで構成されている(写真1)。システムの主なインフラには、Amazon Web Services(AWS)の同名クラウドサービス群を採用。高いセキュリティ保護が必要な決済情報はAWSではなく、親会社であるヤフーの決済システムに保管する。
マイクロサービス群を運用するインフラは、AWSの仮想マシンサービス「Amazon Elastic Compute Cloud」(Amazon EC2)に導入したコンテナ統合管理ツール「Kubernetes」で構築されている。基本的にはマイクロサービスごとに独立したリソースで動作し、マイクロサービス間はAPI(アプリケーションプログラミングインタフェース)とメッセージキューサービス「Apache Kafka」を介して連携する。日本とカナダの2拠点で時差を利用して開発したことも、開発期間の短縮に貢献したという。
PayPayはなぜAWSを選んだのか
ロング氏は開発者の立場から、AWSのメリットとして「開発を始めるためのリソース調達が容易で素早くできることと、セキュリティの観点から見て、決済サービスに使えるレベルの信頼性があること」を挙げる。国内で冗長性を確保するために東京と大阪の2リージョンを利用できる点も評価する。
大阪リージョンは国内リージョンのみでシステムの冗長性を確保する手段として有効なものの、選択できるEC2インスタンスのタイプが限られる点が課題だとロング氏は指摘する。大阪リージョンでは、インスタンスの事前予約により料金を割り引く「リザーブドインスタンス」と、ユーザーの入札により料金が決まる「スポットインスタンス」の2種類しか提供しておらず、一般的な「オンデマンドインスタンス」は提供していない。同氏は「AWSの新しい機能のナレッジやサポートがもっと増えてくれれば」と期待を寄せた。
併せて読みたいお薦め記事
AWSの事例をもっと見る
「マイクロサービス」とは
100億円キャンペーンの「誤算」、PayPayはシステム障害にどう対処したか
Copyright © ITmedia, Inc. All Rights Reserved.