Доступно в редакциях: CE, BE, SE, SE+, EE, CSE Lite (1.67), CSE Pro (1.67)
Стадия жизненного цикла модуля: General Availability
Модуль monitoring-deckhouse обеспечивает мониторинг, оповещения и наблюдаемость самой платформы Deckhouse Kubernetes Platform. Он отслеживает состояние, производительность и правильную работу основных компонентов DKP для обеспечения стабильности и надежности платформы.
Этот модуль — важный компонент обеспечения наблюдаемости, который работает совместно с модулем prometheus для предоставления информации о рабочем состоянии DKP.
Модуль развертывает ресурсы мониторинга, которые:
- Собирают метрики DKP — модуль скрейпит метрики из пода deckhouse с использованием PodMonitor ресурсов, включая:
- Сами метрики на порту
4222через эндпоинт/metrics. - Пользовательские метрики, генерируемые хуками, через
/metrics/hooks. - Метрики выполнения модулей, хуков и системного здоровья.
- Сами метрики на порту
- Определяют правила оповещений — модуль предоставляет комплексные правила оповещений Prometheus, организованные по категориям:
- Доступность DKP — мониторинг здоровья подов, готовности и времени работы.
- Неисправности DKP — обнаружение чрезмерных перезапусков, проблем доступа к container registry, зависших процессов.
- Управление релизами — отслеживание подписок на каналы релизов, ожидающих обновлений и ручных подтверждений.
- Управление модулями — мониторинг состояния модулей, ошибок валидации и устаревших конфигураций.
- Проверки CNI — обнаружение нескольких конфигураций CNI и их некорректности.
- Требования ОС — идентификация узлов с устаревшими версиями операционной системы.
- Предоставляет дашборды Grafana — модуль включает предварительно созданные дашборды Grafana для визуализации:
- Метрик производительности DKP.
- Статистики работы модулей.
- Времени выполнения хуков и использования ресурсов.
- Обработки очередей и статуса конвергенции.
Сбор метрик
Модуль настраивает PodMonitor, который скрейпит два эндпоинта из пода Deckhouse:
- Метрики DKP (
/metrics) — Основные операционные метрики DKP, в том числе:deckhouse_live_ticks— индикатор здоровья, увеличивающийся каждые 10 секунд.deckhouse_registry_errors— проблемы подключения к container registry.deckhouse_module_hook_run_seconds— время выполнения хуков модулей.deckhouse_tasks_queue_action_duration_seconds— время обработки очередей задач.
- Метрики хуков (
/metrics/hooks) — пользовательские метрики, генерируемые хуками Deckhouse сhonorLabels: trueдля сохранения меток, специфичных для хуков.
Интеграция с модулем Observability
При включении модуля observability этот модуль автоматически создает:
- Ресурсы ClusterObservabilityMetricsRulesGroup для правил Prometheus.
- Ресурсы ClusterObservabilityDashboard для дашбордов Grafana.
Это обеспечивает централизованное управление и поддержку мультиарендности для ресурсов мониторинга.
Требования
- Модуль
prometheusдолжен быть включен (автоматическая зависимость). - Модуль
operator-prometheusдолжен быть включен для поддержки PodMonitor.