検索
特集/連載

インフラ費用を40%削減 “無駄なデータ”を特定する3つの方法Rubrikに学ぶ

AIツールによる開発加速の裏側で、システムの稼働を監視するオブザーバビリティシステムの維持費用が高騰している。データ量が指数関数的に膨らむ「カーディナリティの爆発」に、Rubrikはどう対処したのか。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

関連キーワード

ログ管理 | 統合運用管理


 AI(人工知能)技術を用いたソースコード生成ツールの普及によってソフトウェア開発が加速する中、システムの稼働状況を監視するオブザーバビリティ(可観測性)システムのインフラ費用をいかに確保するかが課題になっている。

 クラウドデータ管理とセキュリティを手掛けるRubrikも、こうした課題に直面していた。原因は、メトリクスに付与されるラベルの組み合わせによって一意のデータ数が指数関数的に増加する「カーディナリティ(データの識別情報の組み合わせ数)の爆発」だ。システムの状態を詳細に把握しようとするほど、ストレージ容量やコンピューティングリソースを圧迫する状態だったという。

 この問題に対してRubrikは単純に安価なストレージに移行するのではなく、開発プロセスの上流でメトリクスの量と質を統制するアプローチを採用した。利用状況を可視化し、用途に応じた最適な管理手法を導入した結果、企業全体でメトリクスにかかるインフラ費用を40%削減することに成功している。急増するメトリクスをどのように制御したのか。

「そのメトリクスは本当に必要か」を見極める3つの解決策

 本稿の内容は、2026年に開催されたイベント「SREcon26 Americas」における、Rubrik Indiaのエンジニアであるモハメド・シャギル氏のセッション「Precision Over Proliferation: SRE Approach for Leaner, Smarter and Data-Driven Observability」の内容に基づく。

 Rubrikが実践した手法の中核は、メトリクスの利用効率を定量化し、開発チーム自身に管理の責任を持たせる自律的な仕組みの構築にある。これまで開発者は、システムを監視するため、用途やデータ保存費用を意識せずにあらゆるメトリクスを生成していた。これを是正するため、同社は「DPQ」(Dollar Per Query:クエリ当たりの費用)という独自の効率指標を導入した。

 DPQは、あるメトリクスが消費するインフラ費用を、そのメトリクスが実際に参照された回数で割った数値だ。これが高いほど、費用をかけて収集しているにもかかわらず活用されていない「無駄なメトリクス」であることを意味する。

 シャギル氏らは、社内の全チームのDPQを算出し、75パーセンタイル(P75:数値を小さい順に並べた際、全体の75%目に位置する値)の値を基準として設定した。この基準を上回る下位25%の非効率なチームを特定し、ダッシュボードを通じて彼ら自身に改善箇所を認識させた。上位の利用量を持つチームに対しては、事前定義されたメトリクス記録用のストレージ容量やコンピューティングリソースの割り当て(クオータ)を設定。上限を超える割り当てが必要になった場合は、自チームのDPQが基準内に収まっており、データ利用が効率的であることを証明して追加申請する仕組みを設けた。シャギル氏は「全体の状況を可視化し、非効率な部分にのみ焦点を当てることで、全てのチームを煩わせることなく最適化を実現できた」と説明する。

 利用効率の可視化と並行して、Rubrikはメトリクスの用途を分析し、要件に適合する3つの具体的な解決策を展開した。

 1つ目は「オンデマンドメトリクス」(必要な時だけ収集する手法)の導入だ。開発用のシステム構成でのテストや、本番環境での一時的なデバッグ時にのみ詳細なデータを収集したいという要件に対し、普段はデータの取り込みをコントロールプレーン(管理機能)で破棄しておく。開発者が特定のメトリクスと有効化する期間を指定すると、破棄ルールが一時的に解除される仕組みだ。期限が切れるとバックグラウンドプロセスが自動的にルールを元に戻すため、消し忘れによる不要なデータの蓄積を防ぐことができる。この手法によって、開発フェーズにおけるカーディナリティを8%削減した。

 2つ目は「バッチメトリクス」の適用だ。週次での傾向分析など、リアルタイムでの監視が不要なメトリクスについては、高価なメインストレージから安価なブロブストレージ(非構造化データ用の安価な保管庫)に保存先を変更した。必要なときだけAPI経由でダッシュボードに読み込ませる運用に切り替えることで、約10%のデータ削減効果を見込んでいる。

 3つ目が、四半期ごとに実施する「未使用メトリクスのクリーンアップ」だ。過去30日間、一度も参照されていないメトリクスを抽出し、要否を確認した上で削除する。シャギル氏によれば、この定期的な棚卸しこそが最も効果が高く、実施するたびに約16%の削減効果を得ている。

 これらの施策によって、Rubrikはメトリクス関連費用の大幅な最適化を達成した。AIツールを活用した開発が一般化し、データの量が予測困難なほどに急増する現代、単にインフラを拡張し続けるだけでは限界が来る。シャギル氏は「開発速度が向上すれば、カーディナリティも増加する。だからこそ拡散させるのではなく精度を追求し、取り込む全てのデータに正当な理由を持たせることが不可欠だ」と語り、品質重視の体制構築の重要性を強調した。

Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。

ページトップに戻る