GPU メトリック

設定が完了すると、DCGM エクスポータは自動的に GPU メトリックを収集し、サーバーダッシュボードに送信します。主要なメトリックは次のとおりです。

メトリクス 説明
GPU使用率(%) GPU がアクティブにコンピューティングカーネルを実行する時間の割合。
GPUメモリ使用率(%) 使用中の GPU メモリの割合(使用済み/合計 X 100)。
PCIe Txスループット GPU からホストへのアウトバウンド PCIe 帯域幅。
GPU 電力使用量(W) GPU の瞬間的な消費電力。
PCIe Rxスループット ホストから GPU へのインバウンド PCIe 帯域幅。
GPU Temperature (°C) GPU の現在のコア温度。

次の GPU メトリックは、[Cluster]、[Pods]、および [Container] ダッシュボードで使用できます。

メトリクス
説明 スコープ
Total GPUs クラスター内のすべてのノードで検出された GPU デバイスの合計数。 クラスタ
動作する GPU の数 現在ワークロードを処理している GPU の数。 クラスタ
Idle GPUs クラスターに存在するアイドル状態の GPU の数(一定のしきい値の時間に使用がない場合)。 クラスタ
GPU Limit (%) パーセンテージで表されるクラスター GPU の合計数(合計 GPU コンピューティング キャパシティ)。 クラスタ
GPU Used (%) ポッド全体の実際の GPU 使用率の合計(クラスター GPU の合計の割合)。 クラスタ
GPU Request (%) ポッドによる GPU リソース要求の合計(パーセンテージ)。 クラスタ
GPU Memory Limit (%) パーセンテージで表されるクラスター GPU の合計数(合計 GPU メモリ容量)。 クラスタ
GPU Memory Used (%) ポッド全体の実際の GPU メモリ使用率の合計(クラスター GPU の合計の割合)。 クラスタ
GPU Memory Request (%) ポッドによる GPU メモリリソース要求の合計(パーセンテージ)。 クラスタ
GPU % ポッドによって現在使用されている、使用可能な GPU コンピューティング キャパシティの割合(ノードキャパシティの合計に対して)。 POD
GPU Memory % ポッドによって使用されている合計 GPU メモリの割合(合計ノードキャパシティに対して)。 POD
GPU使用率(%) コンテナの GPU がコンピューティング作業をアクティブに処理していた時間の割合(合計ノードキャパシティに対して)。 コンテナ
GPUメモリ使用率(%) 使用中のコンテナの GPU メモリの割合(合計ノードキャパシティに対して)。 コンテナ

利用可能なメトリックの完全なリストについては、「メトリックブラウザ」を参照してください。