Доступно в редакциях: CE, BE, SE, SE+, EE, CSE Lite (1.67), CSE Pro (1.67)
Стадия жизненного цикла модуля: General Availability
Модуль monitoring-deckhouse предоставляет мониторинг, оповещения и наблюдаемость самой платформы Deckhouse Kubernetes Platform. Он отслеживает состояние, производительность и правильную работу основных компонентов Deckhouse для обеспечения стабильности и надежности платформы.
Этот модуль является важным компонентом наблюдаемости, который работает совместно с модулем prometheus для предоставления информации о рабочем состоянии Deckhouse.
Модуль развертывает ресурсы мониторинга, которые:
- Собирают метрики Deckhouse — Скрейпит метрики из пода Deckhouse с использованием PodMonitor ресурсов, включая:
- Сами метрики на порту
4222через эндпоинт/metrics - Пользовательские метрики, генерируемые хуками, через
/metrics/hooks - Метрики выполнения модулей, хуков и системного здоровья
- Сами метрики на порту
- Определяют правила оповещений — Предоставляет комплексные правила оповещений Prometheus, организованные по категориям:
- Доступность Deckhouse — Мониторинг здоровья подов, готовности и времени работы
- Неисправности Deckhouse — Обнаружение чрезмерных перезапусков, проблем доступа к регистри, зависших процессов
- Управление релизами — Отслеживание подписок на каналы релизов, ожидающих обновлений и ручных подтверждений
- Управление модулями — Мониторинг состояния модулей, ошибок валидации и устаревших конфигураций
- Проверки CNI — Обнаружение нескольких конфигураций CNI и их некорректности
- Требования ОС — Идентификация узлов с устаревшими версиями операционной системы
- Предоставляет дашборды Grafana — Включает предварительно созданные дашборды Grafana для визуализации:
- Метрик производительности Deckhouse
- Статистики выполнения модулей
- Времени выполнения хуков и использования ресурсов
- Обработки очередей и статуса конвергенции
Сбор метрик
Модуль настраивает PodMonitor, который скрейпит два эндпоинта из пода Deckhouse:
- Метрики Deckhouse (
/metrics) — Основные операционные метрики Deckhouse, в том числе:deckhouse_live_ticks— Индикатор здоровья, увеличивающийся каждые 10 секундdeckhouse_registry_errors— Проблемы подключения к регистриdeckhouse_module_hook_run_seconds— Время выполнения хуков модулейdeckhouse_tasks_queue_action_duration_seconds— Время обработки очередей задач
- Метрики хуков (
/metrics/hooks) — Пользовательские метрики, генерируемые хуками Deckhouse сhonorLabels: trueдля сохранения меток, специфичных для хуков
Интеграция с модулем Observability
При включении модуля observability этот модуль автоматически создает:
- Ресурсы
ClusterObservabilityMetricsRulesGroupдля правил Prometheus - Ресурсы
ClusterObservabilityDashboardдля дашбордов Grafana
Это обеспечивает централизованное управление и поддержку мультиарендности для ресурсов мониторинга.
Требования
- Модуль prometheus должен быть включен (автоматическая зависимость)
- Модуль operator-prometheus должен быть включен для поддержки PodMonitor