検索
特集/連載

“システム突然死”防止にSplunkなどの「イベントログ記録ツール」を生かす方法「可観測性」を成功させる4つのポイント【中編】

システムの障害や過負荷を予測するには、イベントログ記録が有効だ。ただしイベントログ記録ツールはパフォーマンス低下を招く恐れがある。どうすればいいのか。

Share
Tweet
LINE
Hatena

関連キーワード

管理者 | インフラ | IT資産管理


 システムの内部状態がどのように変化するのかを外部出力への反応から測定する能力を「可観測性」(オブザーバビリティ)と呼ぶ。可観測性を実現する「4つのポイント」とは何か。1つ目を紹介した前編「『システムが急に止まった』の阻止には“4つのゴールデンシグナル”を見るべし」に続き、中編となる本稿は2つ目と3つ目を取り上げる。

2.可観測性の実現に重要な「イベントログの常時把握」

 イベントログは企業のシステム部門に、分散型システムの多種多様な可観測性データをもたらす。「Prometheus」「Splunk」といったイベントログ記録ツールはイベントを取得して記録する。イベントログ記録ツールが取得するイベントには、

  • システムのプロセスの正常な終了
  • 大きなシステム障害
  • 予定外のダウンタイム(システム停止期間)
  • 過負荷を誘発するトラフィックの急増

などがある。

 タイムスタンプや順次記録を組み合わせ、発生した問題の詳細を提供するのが、イベントログの主な役割だ。企業はイベントログの活用により、インシデント発生時とそこに至るまでの一連のイベントを迅速に特定できる。イベントログは、問題のあるコンポーネントの相互作用が分かるデータも提供するので、エラーを解消するための重要な情報源になる。

悪影響を防ぐためのイベントログ記録ツールの活用

 包括的なイベントログ記録は、システムのスループット(仕事の処理能力)などの要件を大幅に高める。そのためシステムの動作が遅くなったり、リソースが不足したりし、システム稼働に悪影響を与える恐れがある。特にクラウドサービスを使った大規模な分散型システムでは注意が必要だ。

 イベントログ記録ツールによる悪影響を抑えるには、企業はシステムを再起動したり、コードの大部分を更新したりしない形でログ記録操作を開始、停止、調整できるツールを使う必要がある。例えばリソースを大量に使用するデバッグツール(プログラムの欠陥を特定し取り除くツール)は、システムリソースを継続的に使用するのではなく、1つのシステムのエラー率が所定の制限を超えた場合のみ有効になるようにする。

3.要求の入念な追跡

 各システム間の呼び出しと、各呼び出しの最初から最後までの実行時間を追跡することを「要求追跡」と呼ぶ。要求追跡の情報だけでは、特定の要求が失敗したときに何が問題だったのかといった詳細なことは分からない。とはいえシステムのワークフロー内で問題が発生した箇所を特定できるため、貴重な情報源になる。

 要求追跡はイベントログ記録と同様、注意が必要だ。要求追跡ツールの利用によってリソース使用量が増えるため、異常なアクティビティーやエラーがある場合にのみ使用することがポイントになる。要求追跡によって定期的にトランザクション履歴の個別のサンプルを取り出すことにより、リソースに負担を掛けない方法で分散型システムを監視できる場合もある。


 後編は、可観測性データを視覚化するための方法を紹介する。

TechTarget発 世界のインサイト&ベストプラクティス

米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る