Данный раздел предназначен для пользователей проектов Deckhouse Kubernetes Platform (DKP).
В состав DKP включена система мониторинга, которая предоставляет пользователям удобные инструменты для наблюдения за состоянием инфраструктуры и приложений.
По умолчанию в DKP доступен готовый набор дашбордов и алертов, позволяющих отслеживать ключевые показатели состояния приложений. Доступ к ним осуществляется через раздел «Мониторинг» веб-интерфейса Deckhouse.
Кроме того, пользователи могут:
- собирать метрики со своих приложений;
- создавать собственные дашборды для отображения нужных показателей;
- настраивать собственные алерты и переопределять пороги их срабатывания.
Подробнее о расширенных возможностях мониторинга, включая управление дашбордами и метриками,
можно прочитать в описании модуля observability.
Возможности по умолчанию
После установки DKP пользователям по умолчанию доступен базовый набор инструментов для наблюдения за кластером.
Дашборды
Дашборды содержат графики с данными по загрузке CPU, потреблению памяти, а также дисковой и сетевой активности в разрезе подов, узлов или пространств имён.
В разделе «Мониторинг» → «Дашборды» веб-интерфейса Deckhouse у пользователей есть доступ к следующим группам дашбордов:
- Ingress Nginx — метрики по работе Ingress-контроллера, включая информацию о состоянии виртуальных хостов, коды ответов и данные по задержке в обработке запросов.
- Потребление ресурсов (Main) — основные показатели кластера и приложений, включая данные о нагрузке ресурсов, состоянии подов, контроллеров и пространств имён.
- Security — метрики, связанные с безопасностью кластера.
Алерты
Алерты — это автоматические уведомления, информирующие о событиях, требующих внимания, например, о превышении пороговых значений метрик или проблемах с доступностью компонентов. Порог срабатывания большинства алертов можно переопределять при необходимости.
По умолчанию в кластере DKP включены уведомления о следующих видах событий:
- Истечение срока действия сертификатов, а также ошибки при их выпуске или продлении
(модули
cert-manager,extended-monitoring,ingress-nginx). - Недоступность или ошибки при загрузке контейнерных образов, включая проблемы аутентификации, авторизации,
некорректный формат имени образа, отсутствие образа в registry или недоступность самого registry
(модуль
extended-monitoring). - Ошибки выполнения рабочих нагрузок, таких как CronJob, Deployment, DaemonSet и StatefulSet,
включая невозможность создания подов, недоступность реплик и ошибки планирования (модуль
extended-monitoring). - Недоступность экспортеров метрик, из-за чего Prometheus не может получить данные (модуль
extended-monitoring). - Проблемы с дисковым пространством, включая нехватку места или inode на PVC (модуль
extended-monitoring). - Ошибки в работе Ingress-контроллера, включая высокий процент
5xx-ответов от бэкендов (модульextended-monitoring). - Проблемы с качеством работы сети (модуль
monitoring-ping).
Настройки мониторинга
Пользователям доступны следующие настройки системы мониторинга DKP:
- мониторинг пользовательских приложений — можно настроить сбор метрик с приложения, следуя инструкции;
- создание собственных дашбордов — можно добавлять специализированные дашборды, используя ресурс GrafanaDashboardDefinition;
- настройка собственных алертов — можно задать новые правила уведомлений, используя ресурс CustomPrometheusRules.