検索
特集/連載

平均応答時間より重要? システムトラブル防止に不可欠な“あの要素”「可観測性」を成功させる4つのポイント【後編】

企業はさまざまな可観測性データを集めて活用するために、それらのデータを視覚化する必要がある。その際に重視すべきは何か。データ視覚化のポイントを解説する。

Share
Tweet
LINE
Hatena

関連キーワード

管理者 | インフラ | IT資産管理


 システムの分散化が進んでいる中、「可観測性」(オブザーバビリティ)によってシステムに透明性をもたらす取り組みが重要になっている。可観測性とは、システムの内部状態がどのように変化するのかを、外部出力への反応から測定する能力を指す。

 可観測性の実現には、基本的なガイドラインやベストプラクティス(最適な運用方法)を定めることが欠かせない。可観測性を成功させる「4つのポイント」とは何か。2つ目〜4つ目を取り上げた中編「“システム突然死”防止にSplunkなどの『イベントログ記録ツール』を生かす方法」に続き、後編となる本稿は4つ目を紹介する。

4.「平均応答時間」ではない可観測性データの視覚化方法

 企業は可観測性データを集約したら、次のステップとして、データの読み取りと共有を可能な形式にする必要がある。一般的には「Kibana」「Grafana」といったオープンソースのデータ可視化ツールを使用して可観測性データを視覚化する。企業は視覚化によって、システム部門内でデータを共有したり、他部署に提供したりできる。

 可観測性データの視覚化において、システムは大量のダウンストリーム(サーバからクライアントへのデータの流れ)の要求を処理しなければならない可能性がある。この際、平均応答時間はあまり気にする必要はない。平均応答時間よりも、95〜99%の可用性を確保できる要求数を重視した方がいい。要求数をSLA(サービス品質保証)の要件と照らし合わせることで、SLAの要件を満たせる可能性は十分にある。


 企業は可観測性によってシステムの「透明性」を得ることができる。一方で、運用方法を適切に管理しなければ、アラートとデータ量に関して逆効果につながる恐れがある。

 分散型システムの可観測性ツールは大量のノイズ(不要なデータ)を生み出すことがある。システム部門は、重要なものと、そうでないものを含むアラートが絶え間なく発生することに注意が必要になる。アラートが「多過ぎるから無視する」は禁物だ。

 他にもログが詳細を欠く場合や、イベント状況の文脈が分からない場合は、ログ記録と要求追跡の作業に時間がかかる恐れがある。システム部門は、障害が起きたことは特定できても、問題の根本的な原因を見つけるために必要な、さまざまな関連データを整理しなければならない。この場合は、個別のログ記録ツールから送られるデータ量を調整し、必要に応じてツールを無効にすることが解決策になる。

TechTarget発 世界のインサイト&ベストプラクティス

米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る