[Nvidia GPU] New Integration for Nvidia GPU Monitoring #11930

strawgate · 2024-11-30T01:44:00Z

Elastic has previously published blog posts for monitoring Nvidia GPU utilization, temperature, power consumption, etc via Nvidia's dcgm exporter (which presents a prometheus metrics endpoint) and there was a previous ebay project called NvidiaGPUBeat that monitored nvidia GPUs via the nvidia-smi command line.

Nvidia GPUs are critical for organizations running training and inference. As organizations adopt large language models internally they have a choice of using third-party products like OpenAI or hosting their own models and running inference on their own GPUs.

An integration via Elastic Agent would allow large K8s deployments (as well as linux and windows farms) monitor GPU utilization, power consumption, as well as report on GPU throttling and errors.

We should make this available via an integration. Likely via the Prometheus metrics endpoint.

strawgate added the New Integration Issue or pull request for creating a new integration package. label Nov 30, 2024

strawgate mentioned this issue Nov 30, 2024

[NVIDIA GPU] Introduce Monitoring Integration #11931

Closed

5 tasks

strawgate linked a pull request Feb 4, 2025 that will close this issue

[NVIDIA GPU] Introduce Monitoring Integration #12581

Open

5 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Nvidia GPU] New Integration for Nvidia GPU Monitoring #11930

[Nvidia GPU] New Integration for Nvidia GPU Monitoring #11930

strawgate commented Nov 30, 2024

[Nvidia GPU] New Integration for Nvidia GPU Monitoring #11930

[Nvidia GPU] New Integration for Nvidia GPU Monitoring #11930

Comments

strawgate commented Nov 30, 2024