DB connection遅延とConnection Pool
この文書では、代表的なアプリケーション性能障害タイプの一つであるDB連結遅延(DBC遅延)とConnection Poolとの相関関係をモニタリングの観点からご紹介します。
まずダッシュボードのヒットマップウィジェットを通じて一次的に障害状況を認知したと仮定した後分析メニュー下位のヒットマップメニューに移動し、時間を特定する方法で障害状況の前後を見てみましょう。 これをもとにトレース情報とメトリクスチャートなどを通じて障害原 因を推論する手順を案内します。
プレビュー
アプリケーションダッシュボード → ヒットマップ·トランザクション → トレース情報 → メトリクスチャート
-
問題現象を認知した場合は、過去の記録を照会して障害が発生した時点の前後を照会します。 ヒットマップトランザクションチャートでトランザクション過負荷パターンを確認した後TXトレース一覧により、トランザクション遅延の原因をDB接続の問題として予想できます。
-
区間別照会後、トレース分析を通じて詳細な実行履歴をステップごとで確認します。 経過時間から最も時間がかかっているのがDBCステップであることが確認できます。
-
メトリクスチャートを通じて様々な指標を一緒に見ていきます。 DB Pool数チャートとDB Active数チャートを比較して、DB Connection Poolの不足が原因であることが特定できます。
-
ユーザーの運用環境に応じてConnection Poolの大きさを徐々に調節したり、リーク防止のために最適化設定をする方法が活用できます。
ヒットマップ異常パターン検出

障害を認識し、一次的な分析を通じて障害原因を追跡する過程は、迅速さが核心です。 WhaTapは、直観的なビューを提供するだけでなく、根本的な原因を追跡するための追加情報を確保できるよう、過去記録の照会機能も提供します。 アプリケーションダッシュボードのヒットマップウィジェットで例のように急激な異常兆候を感知した場合、次の手順は何でしょうか。
ヒットマップウィジェットで問題区間をドラッグしてトランザクショントレース分析を迅速に進めることもでき、または分析メニュー下位のヒットマップに移動して、時間範囲をより広く特定する方法で前後の状況を確認できます。

後者の手順で 説明します。 ダッシュボードヒットマップウィジェットは、過去10分間に終了したトランザクションのレスポンス時間の分布図です。 つまり、時間範囲を特定して直近10分以上の過去の履歴を確認するには、分析メニュー下位のヒットマップメニューに移動します。 ウィジェット右上の矢印アイコンをクリックして例のように移動できます。
ヒットマップトランザクションチャート上段の時間セレクタを通じて希望する時間範囲を指定し、過去の記録を照会できます。 異常パターンを確定するため、問題区間前後に広く見てみると、応答が遅れているトランザクションが密集した過負荷パターンを確認できました。

このような突然のレスポンス時間の増加とトランザクション過負荷の原因を特定するためにヒットマップトランザクションチャートから問題領域を区間別にドラッグし、トランザクション トレース一覧(TXトレース一覧)を照会してみます。
