Доступно в редакциях:  CE, BE, SE, SE+, EE, CSE Lite (1.67), CSE Pro (1.67)

Стадия жизненного цикла модуля: General Availability

Модуль monitoring-deckhouse предоставляет мониторинг, оповещения и наблюдаемость самой платформы Deckhouse Kubernetes Platform. Он отслеживает состояние, производительность и правильную работу основных компонентов Deckhouse для обеспечения стабильности и надежности платформы.

Этот модуль является важным компонентом наблюдаемости, который работает совместно с модулем prometheus для предоставления информации о рабочем состоянии Deckhouse.

Модуль развертывает ресурсы мониторинга, которые:

  • Собирают метрики Deckhouse — Скрейпит метрики из пода Deckhouse с использованием PodMonitor ресурсов, включая:
    • Сами метрики на порту 4222 через эндпоинт /metrics
    • Пользовательские метрики, генерируемые хуками, через /metrics/hooks
    • Метрики выполнения модулей, хуков и системного здоровья
  • Определяют правила оповещений — Предоставляет комплексные правила оповещений Prometheus, организованные по категориям:
    • Доступность Deckhouse — Мониторинг здоровья подов, готовности и времени работы
    • Неисправности Deckhouse — Обнаружение чрезмерных перезапусков, проблем доступа к регистри, зависших процессов
    • Управление релизами — Отслеживание подписок на каналы релизов, ожидающих обновлений и ручных подтверждений
    • Управление модулями — Мониторинг состояния модулей, ошибок валидации и устаревших конфигураций
    • Проверки CNI — Обнаружение нескольких конфигураций CNI и их некорректности
    • Требования ОС — Идентификация узлов с устаревшими версиями операционной системы
  • Предоставляет дашборды Grafana — Включает предварительно созданные дашборды Grafana для визуализации:
    • Метрик производительности Deckhouse
    • Статистики выполнения модулей
    • Времени выполнения хуков и использования ресурсов
    • Обработки очередей и статуса конвергенции

Сбор метрик

Модуль настраивает PodMonitor, который скрейпит два эндпоинта из пода Deckhouse:

  1. Метрики Deckhouse (/metrics) — Основные операционные метрики Deckhouse, в том числе:
    • deckhouse_live_ticks — Индикатор здоровья, увеличивающийся каждые 10 секунд
    • deckhouse_registry_errors — Проблемы подключения к регистри
    • deckhouse_module_hook_run_seconds — Время выполнения хуков модулей
    • deckhouse_tasks_queue_action_duration_seconds — Время обработки очередей задач
  2. Метрики хуков (/metrics/hooks) — Пользовательские метрики, генерируемые хуками Deckhouse с honorLabels: true для сохранения меток, специфичных для хуков

Интеграция с модулем Observability

При включении модуля observability этот модуль автоматически создает:

  • Ресурсы ClusterObservabilityMetricsRulesGroup для правил Prometheus
  • Ресурсы ClusterObservabilityDashboard для дашбордов Grafana

Это обеспечивает централизованное управление и поддержку мультиарендности для ресурсов мониторинга.

Требования

  • Модуль prometheus должен быть включен (автоматическая зависимость)
  • Модуль operator-prometheus должен быть включен для поддержки PodMonitor