Deckhouse Kubernetes Platform (DKP) предоставляет удобную и готовую к работе систему мониторинга Kubernetes-кластера.
Мониторинг по умолчанию собирает большое количество метрик и содержит настроенные триггеры для отслеживания общего состояния пользовательских приложений, а также предоставляет к ним доступ в виде удобных дашбордов в веб-интерфейсе Grafana.
Достаточно включить модуль monitoring-custom, добавить лейбл prometheus.deckhouse.io/custom-target на Service или Pod и указать порт (например, http-metrics), чтобы метрики начали собираться без ручной настройки Prometheus.
Также есть возможность настроить сбор собственных метрик с приложений, разворачиваемых в кластере. Система поддерживает гибкие настройки: HTTPS, кастомные пути, параметры запроса, работу с Istio (mTLS) и защиту от перегрузки (лимит метрик). Это позволяет интегрировать приложения в общий мониторинг кластера, отслеживать их состояние и производительность.
Ключевые особенности:
- Готовые дашборды в Grafana с графиками по загрузке CPU, памяти, дисков и сети — можно смотреть в разрезе подов, узлов или пространств имён.
- Полезные уведомления в Slack/Telegram/email о проблемах: недоступность сервисов, нехватка места на дисках, приближающееся окончание сертификатов.
- Простая интеграция — чтобы начать мониторить своё приложение, достаточно добавить пару аннотаций к Pod или Service.
Режим расширенного мониторинга
В DKP поддерживается режим расширенного мониторинга с помощью модуля extended-monitoring, который позволяет настроить:
- мониторинг секретов в Кластере (объекты Secret) и срока действия TLS-сертификатов в них;
- сбор событий в кластере Kubernetes в виде метрик;
- мониторинг доступности образов контейнеров в registry, используемых в контроллерах (Deployments, StatefulSets, DaemonSets, CronJobs);
- мониторинг объектов в пространствах имен с установленным лейблом
extended-monitoring.deckhouse.io/enabled="".
Модуль предусматривает отправку алертов по следующим метрикам:
- свободное место и inode на дисках узлов;
- утилизация узлов;
- доступность подов и образов контейнеров;
- истечение срока действия сертификатов;
- иные события кластера.