Данный раздел предназначен для пользователей проектов Deckhouse Kubernetes Platform (DKP).

В состав DKP включена система мониторинга, которая предоставляет пользователям удобные инструменты для наблюдения за состоянием инфраструктуры и приложений.

По умолчанию в DKP доступен готовый набор дашбордов и алертов, позволяющих отслеживать ключевые показатели состояния приложений. Доступ к ним осуществляется через раздел «Мониторинг» веб-интерфейса Deckhouse.

Кроме того, пользователи могут:

  • собирать метрики со своих приложений;
  • создавать собственные дашборды для отображения нужных показателей;
  • настраивать собственные алерты и переопределять пороги их срабатывания.

Подробнее о расширенных возможностях мониторинга, включая управление дашбордами и метриками, можно прочитать в описании модуля observability.

Возможности по умолчанию

После установки DKP пользователям по умолчанию доступен базовый набор инструментов для наблюдения за кластером.

Дашборды

Дашборды содержат графики с данными по загрузке CPU, потреблению памяти, а также дисковой и сетевой активности в разрезе подов, узлов или пространств имён.

В разделе «Мониторинг» → «Дашборды» веб-интерфейса Deckhouse у пользователей есть доступ к следующим группам дашбордов:

  • Ingress Nginx — метрики по работе Ingress-контроллера, включая информацию о состоянии виртуальных хостов, коды ответов и данные по задержке в обработке запросов.
  • Потребление ресурсов (Main) — основные показатели кластера и приложений, включая данные о нагрузке ресурсов, состоянии подов, контроллеров и пространств имён.
  • Security — метрики, связанные с безопасностью кластера.

Алерты

Алерты — это автоматические уведомления, информирующие о событиях, требующих внимания, например, о превышении пороговых значений метрик или проблемах с доступностью компонентов. Порог срабатывания большинства алертов можно переопределять при необходимости.

По умолчанию в кластере DKP включены уведомления о следующих видах событий:

  • Истечение срока действия сертификатов, а также ошибки при их выпуске или продлении (модули cert-manager, extended-monitoring, ingress-nginx).
  • Недоступность или ошибки при загрузке контейнерных образов, включая проблемы аутентификации, авторизации, некорректный формат имени образа, отсутствие образа в registry или недоступность самого registry (модуль extended-monitoring).
  • Ошибки выполнения рабочих нагрузок, таких как CronJob, Deployment, DaemonSet и StatefulSet, включая невозможность создания подов, недоступность реплик и ошибки планирования (модуль extended-monitoring).
  • Недоступность экспортеров метрик, из-за чего Prometheus не может получить данные (модуль extended-monitoring).
  • Проблемы с дисковым пространством, включая нехватку места или inode на PVC (модуль extended-monitoring).
  • Ошибки в работе Ingress-контроллера, включая высокий процент 5xx-ответов от бэкендов (модуль extended-monitoring).
  • Проблемы с качеством работы сети (модуль monitoring-ping).

Настройки мониторинга

Пользователям доступны следующие настройки системы мониторинга DKP:

  • мониторинг пользовательских приложений — можно настроить сбор метрик с приложения, следуя инструкции;
  • создание собственных дашбордов — можно добавлять специализированные дашборды, используя ресурс GrafanaDashboardDefinition;
  • настройка собственных алертов — можно задать новые правила уведомлений, используя ресурс CustomPrometheusRules.