GPUダッシュボード
ノード - GPU(MIG)- Pod 間の接続関係を追跡できる、Kubernetes視点のGPUダッシュボードです。
-
ノード - GPU(MIG)- Pod 間のマッピングを視覚的に提供し、GPUリソースの現状を簡単に把握できます。
-
使用率・温度・メモリ基準のTop5トレンドを通じて、リソースの過剰使用や偏りを素早く認識できます。
-
Pendingや未使用GPUなどの主要な状態を表示し、割り当て漏れや使用の偏りといった異常の兆候を一目で識別できます。
権限および条件
-
対応環境:Kubernetesクラスタプロジェクト
-
エージェントバージョン:Kubernetesエージェント バージョン1.8.7以上
-
Open Agentのインストールが必要
基本画面
クラスター内のGPUリソース状態と活用状況を一目で把握できる、可視化されたダッシュボードです。

GPUリソース状態サマリ
照会終了時点から直近5分間に収集されたGPU情報(割り当てられたノード、Pod、GPUの状態別の数)を、4つのウィジェットで要約表示します。
GPU Map
照会時点で収集されたデバイスをマップチャートで確認できます。
-
物理デバイスは「P」、MIGインスタンスは「M」ラベルで表示されます。
-
ノード/物理デバイス基準でグループ化が可能で、ステータスまたは使用率に基づく色分けオプションを選択できま す。
使用量
照会終了時点から1分間の全クラスタのVRAMサイズおよび使用量、デバイスごとの平均GPU使用率、VRAM使用率を確認できます。
GPU Performance Summary(Top 5)
照会範囲内の物理デバイスごとの主なパフォーマンス指標の推移を確認できます。
-
Utilization (%)
-
VRAM Usage (MiB)
-
Temperature (℃)
-
SM Active (%)
GPU / ノード / Pod 一覧
GPU一覧、ノード一覧、Pod一覧を確認できます。 ノード一覧とPod一覧はGPU使用率の上位5件のみ表示され、GPU一覧には照会されたすべてのGPUが表示されます。 表示される情報は照会時点から1分間収集されたGPUデータに基づきます。
