検索
特集/連載

「サイト信頼性エンジニアリング」(SRE)における「エラー予算」とは何か「バジェット(予算)」という言葉を誤解するなかれ

IT運用チームは、どの程度の数の問題発生を許容するのだろうか。「エラーバジェット(エラー予算)」という考え方の意味をおさらいしよう。これを誤解するとIT戦略を立てる際にリスクを読み違える恐れがある。

Share
Tweet
LINE
Hatena

 ミスを全くしない人は「警戒し過ぎ」というそしりを受けるのだろうか。例えばバスケットボールの決勝戦、2点差の場面を考えてみよう。試合終了数秒前、リードしているチームの選手はファウル覚悟で敵のスリーポイントシュートを阻止しても良いだろうか。ほとんどの人は阻止すべきと答えるだろう。同じ疑問をITに当てはめてみよう。「エラーバジェット(エラー予算)」とは、IT部門の思考を限界まで高める方法だろうか。それともエラーバジェットというトレンドは、過激な考え方を正当化しているにすぎないのだろうか。

 エラーバジェットの考え方は、サイト信頼性エンジニアリング(SRE)によって広まった。これは、ある程度のリスクを見越し、IT運用を迅速に進めるために必要な予算という考え方だ。問題を起こさないチームは、恐らく、イノベーションを起こすこともなく、運用を改善しようともしないだろう。一方で、多くの問題を引き起こすチームは、イノベーションの名目で信頼性を犠牲にしているだろう。こうしたチームは、問題の数を減らさなければならない。エラーバジェットは、個人や企業が冒すリスクを測る方法になる。

 本稿では、テクノロジーにおける「攻めの戦略」は全面的に支持する。だが、エラーバジェットという考え方には大きな問題があると考える。エラーバジェットは、IT戦略を変えてしまい、リスクのために危険を冒すことを推奨するような、過剰かつ過激な計画になる恐れがある。ITプロジェクトの承認プロセスがリスクとメリットを最適なバランスに保っているかどうかという正当な疑問に対処する際に、エラーバジェットの要素があると対処方法を間違えることになる。

IT部門のリスクの評価と管理の向上

 エラーバジェットが誇張されると、本来の目的に悪影響を及ぼす。エラーバジェット本来の目的は、特定のアプローチから生み出されたビジネス目標のリスクレベルを表すことだ。つまりプロジェクトで問題が発生した場合のエラーバジェットとは、予測からどの程度外れたらプロジェクトの投資対効果検討書が台無しになったといえるのか、の許容範囲を示すものだ。問題の発生はある程度までは許容可能だ。エラーバジェット本来の目的は、どの程度の問題発生のリスクなら予算として吸収し、プロジェクトを正当化できるかを測ることだ。

 最先端を行く一部のITプロフェッショナルは、SREにおけるエラーバジェットを「義務を負う境界線」だと感じている。恐らく、この予算を少し上回らなければならないと感じている。こうした意味の変化は、ある意味避けられないものだ。人は新しい基準を与えられると、いつもその基準で物事を測るようになる。例えばチャーリーはエラーバジェットを2回上回り、エイミーは1回もエラーバジェットを超えることはなかったとする。エイミーはリスクを取らなかったのかもしれない。チャーリーは目指すレベルが高すぎるのかもしれない。「虎穴に入らずんば虎児を得ず」と「君子危うきに近寄らず」は対立する表現だ。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る