オンコールが人生を壊す――担当者の74%が燃え尽きを経験する運用の“絶望”と解決策:オンコールには問題が山積み
エンジニアが集う国際会議で、オンコールの過酷な実態が明かされた。調査では、担当者の87%が現行体制に不満を持ち、74%が燃え尽きを経験しているという。企業が取るべき対策は。
「オンコールは、私の人生を破滅させています。あなたの人生も壊されていませんか」――。オンコール(注1)領域のツールベンダーで共同創業者兼CEOを務めるコーリー・ワトソン氏は、講演でこう切り出した。
※注1:オンコールは、システムに障害や緊急対応が必要な事象が発生した際、勤務時間外でも呼び出しに応じて対応できるように担当者が待機する運用体制。
ワトソン氏が登壇したのは、非営利組織USENIX(注2)が2025年3月に開催した国際会議「SREcon25 Americas」だ。SREcon25 Americasは、SRE(Site Reliability Engineering)に特化している。ワトソン氏は講演で、当事者として意識したオンコールの課題、オンコールの運用を破壊する要因、オンコール運用への提言について語った。
※注2:USENIXは、1975年の設立以来、高度なコンピューティングシステム分野を支える非営利組織で、研究者、エンジニア、実務家が集う国際的コミュニティー。
“人生を破壊しない”オンコール運用を目指すには
併せて読みたいお薦め記事
人手不足の関連記事
ワトソン氏によると、同氏は約10年前スタートアップで働いていた。そこでは、「Apache Kafka」(オープンソースのメッセージキュー/ストリーム<連続的に発生し続けるデータ>処理ミドルウェア)で大量のデータを取り込み、データベースに書き、再度クエリする仕組みを運用していた。
同氏はある日、よく理解し切れていなかったボタンを押し、さらに間違った操作を複数してしまった結果、Apache Kafkaを完全に停止させてしまったという。同氏は、「技術的な詳細はあまり覚えていません。でも、その日の感情の記憶だけは、今でもはっきり残っています」と述べた。
ワトソン氏は、15年以上オンコールに従事していた中で、業務をそれほど苦に感じることはなかった。しかし、Apache Kafkaを停止させた日から同氏の心情は変化したという。全顧客のデータが止まったことをきっかけに、昼間でも孤独を感じ、絶望するようになった。さらに、オンコールに対する見方が変化したという。
オンコールの実態を調査
ワトソン氏は、「オンコールを支える構造になっている組織はそれほど多くありません」と指摘した。続けて、「オンコールで発生する業務の中断やストレスを考慮した業務設計になっていません」と述べた。それでも、「チームが何とか業務を回しているのが現状」だという。
さらに、「経営層と現場の意識のズレ」も存在するという。つまり、苦しんでいるのは現場だが、意思決定は経営層が別の場所で実施しているという構図だ。さらに、「オンコールを支える従業員の頑張り」が経営層にとっては長期的にも有効な戦略に見えてしまっている。
これらの問題は、ワトソン氏の思い込みではない。同氏は、学術論文や業界記事を読むだけでなく、オンコールに従事している人々を対象に65の質問からなるアンケート調査を実施。問題は、その結果から見えた内容だ。調査の回答者の平均的な属性は以下だった。
- 業界経験は18年。
- 現職として約4年在籍している。
- オンコールのローテーションは5〜10人程度で運用している。
- 回答者が勤務する組織規模は、中〜大規模企業(500人以上)。
調査によると、回答者の87%は現状のオンコール運用に不満を持っていた。
オンコールの運用を破壊する要因
ワトソン氏は調査結果から、オンコールが破綻する典型的な要因を9項目に整理した。講演ではそのうち主に7つについて共有された。
1.オンボーディングとトレーニングが足りない
ワトソン氏によると、最も多くの回答者が不満を感じていたのがこの部分だった。回答者の34%は、「自社のトレーニングやオンボーディングは標準以下」だと答えた。自由回答には、「新しいチームメンバーは入ってこない。ただ出て行くだけ」という記述もあった。
2.全てが事後対応
「やることといえば、壊れたところを直すこと」――。ワトソン氏によると、受け身の「事後対応」になっている組織が見受けられるという。アラートの設定やプロセスの構築を進めても、「その成果を計測する仕組みがない」。そもそも「この分野に投資している組織もまれだ」というのがワトソン氏の見方だ。
事後対応ではなく、「将来的な負荷に対応できるよう、システムに十分な余裕を作る必要がある」とワトソン氏は提言する。
3.メンバーに裁量が与えられていない
しかし、オンコール対応中にシステムに余裕を作る作業を進めることは困難だという。その理由の1つは「裁量の欠如」だという。回答者の20%は、「アラートの更新ができない、あるいはさせてもらえない」と答えた。更新できない理由は「権限がないから」。「自分が担当しているシステムを制御することすら許されていない」、という回答もあったという。
4.組織がサポートしてくれない
調査によると、「高負荷の状態になった際に、組織がサポートしてくれた」と感じた回答者は30%にとどまった。
さらに「問題が発生した場合のエスカレーションルールが不明瞭」「エスカレーションのプロセスが存在しない」「エスカレーションのプロセスが複雑過ぎてどうしていいか分からない」「何をアラートすべきか分からない」といった回答もあった。
5.引き継ぎが機能していない
調査によると、回答者の28%は、「オンコールの引き継ぎを一度も期待したことがない」と回答。11%は「引継ぎは時々ある」と答えた。オンコールにこれから入るメンバーと外れるメンバーの間で、口頭で数分でも話すことが最も効果的と指摘する論文も存在するが、軽視されがちだとワトソン氏は指摘した。
6.不安を生むシフト管理
シフト管理もオンコールにおける重要な話題の1つだ。調査によると、53%の回答者は「オンコールに対して常に、もしくは時々不安を感じる」と答えていた。夜間起床の影響を測定、考慮していない点も問題として挙がった。
7.業務過多
調査によると、回答者の中にはオンコール中も以下を並行してこなすことを求められる場合がある。
- 会議への出席
- システムの開発
- 同僚や社内のサポート
- インシデント対応
つまり、オンコールに加えて4つの仕事を同時に担当している状態だ。
バーンアウトは必然、解決策は
調査によると、回答者の74%は燃え尽きを経験したことがあるという。これについてワトソン氏は「これは個人の問題ではない」と指摘した。「組織の欠陥を個人が肩代わりしている状態」を改善するために、ワトソン氏は以下を提言した。
- 大規模な改革を一気に進めない
- 習慣を積み上げる
- オンコール週の振り返りを実施する
- アラートは存在理由を説明できなければならない
- 口頭での引継ぎを重視する
- オンコール中は他の業務を減らす
Copyright © ITmedia, Inc. All Rights Reserved.