Deckhouse Kubernetes Platform (DKP) предоставляет удобную и готовую к работе систему мониторинга Kubernetes-кластера.

Мониторинг по умолчанию собирает большое количество метрик и содержит настроенные триггеры для отслеживания общего состояния пользовательских приложений, а также предоставляет к ним доступ в виде удобных дашбордов в веб-интерфейсе Grafana.

Достаточно включить модуль monitoring-custom, добавить лейбл prometheus.deckhouse.io/custom-target на Service или Pod и указать порт (например, http-metrics), чтобы метрики начали собираться без ручной настройки Prometheus.

Также есть возможность настроить сбор собственных метрик с приложений, разворачиваемых в кластере. Система поддерживает гибкие настройки: HTTPS, кастомные пути, параметры запроса, работу с Istio (mTLS) и защиту от перегрузки (лимит метрик). Это позволяет интегрировать приложения в общий мониторинг кластера, отслеживать их состояние и производительность.

Ключевые особенности:

  • Готовые дашборды в Grafana с графиками по загрузке CPU, памяти, дисков и сети — можно смотреть в разрезе подов, узлов или пространств имён.
  • Полезные уведомления в Slack/Telegram/email о проблемах: недоступность сервисов, нехватка места на дисках, приближающееся окончание сертификатов.
  • Простая интеграция — чтобы начать мониторить своё приложение, достаточно добавить пару аннотаций к Pod или Service.

Режим расширенного мониторинга

В DKP поддерживается режим расширенного мониторинга с помощью модуля extended-monitoring, который позволяет настроить:

  • мониторинг секретов в Кластере (объекты Secret) и срока действия TLS-сертификатов в них;
  • сбор событий в кластере Kubernetes в виде метрик;
  • мониторинг доступности образов контейнеров в registry, используемых в контроллерах (Deployments, StatefulSets, DaemonSets, CronJobs);
  • мониторинг объектов в пространствах имен с установленным лейблом extended-monitoring.deckhouse.io/enabled="".

Модуль предусматривает отправку алертов по следующим метрикам:

  • свободное место и inode на дисках узлов;
  • утилизация узлов;
  • доступность подов и образов контейнеров;
  • истечение срока действия сертификатов;
  • иные события кластера.