Доступно в редакциях:  CE, BE, SE, SE+, EE, CSE Lite (1.67), CSE Pro (1.67)

Стадия жизненного цикла модуля: General Availability

Модуль monitoring-deckhouse обеспечивает мониторинг, оповещения и наблюдаемость самой платформы Deckhouse Kubernetes Platform. Он отслеживает состояние, производительность и правильную работу основных компонентов DKP для обеспечения стабильности и надежности платформы.

Этот модуль — важный компонент обеспечения наблюдаемости, который работает совместно с модулем prometheus для предоставления информации о рабочем состоянии DKP.

Модуль развертывает ресурсы мониторинга, которые:

  • Собирают метрики DKP — модуль скрейпит метрики из пода deckhouse с использованием PodMonitor ресурсов, включая:
    • Сами метрики на порту 4222 через эндпоинт /metrics.
    • Пользовательские метрики, генерируемые хуками, через /metrics/hooks.
    • Метрики выполнения модулей, хуков и системного здоровья.
  • Определяют правила оповещений — модуль предоставляет комплексные правила оповещений Prometheus, организованные по категориям:
    • Доступность DKP — мониторинг здоровья подов, готовности и времени работы.
    • Неисправности DKP — обнаружение чрезмерных перезапусков, проблем доступа к container registry, зависших процессов.
    • Управление релизами — отслеживание подписок на каналы релизов, ожидающих обновлений и ручных подтверждений.
    • Управление модулями — мониторинг состояния модулей, ошибок валидации и устаревших конфигураций.
    • Проверки CNI — обнаружение нескольких конфигураций CNI и их некорректности.
    • Требования ОС — идентификация узлов с устаревшими версиями операционной системы.
  • Предоставляет дашборды Grafana — модуль включает предварительно созданные дашборды Grafana для визуализации:
    • Метрик производительности DKP.
    • Статистики работы модулей.
    • Времени выполнения хуков и использования ресурсов.
    • Обработки очередей и статуса конвергенции.

Сбор метрик

Модуль настраивает PodMonitor, который скрейпит два эндпоинта из пода Deckhouse:

  1. Метрики DKP (/metrics) — Основные операционные метрики DKP, в том числе:
    • deckhouse_live_ticks — индикатор здоровья, увеличивающийся каждые 10 секунд.
    • deckhouse_registry_errors — проблемы подключения к container registry.
    • deckhouse_module_hook_run_seconds — время выполнения хуков модулей.
    • deckhouse_tasks_queue_action_duration_seconds — время обработки очередей задач.
  2. Метрики хуков (/metrics/hooks) — пользовательские метрики, генерируемые хуками Deckhouse с honorLabels: true для сохранения меток, специфичных для хуков.

Интеграция с модулем Observability

При включении модуля observability этот модуль автоматически создает:

  • Ресурсы ClusterObservabilityMetricsRulesGroup для правил Prometheus.
  • Ресурсы ClusterObservabilityDashboard для дашбордов Grafana.

Это обеспечивает централизованное управление и поддержку мультиарендности для ресурсов мониторинга.

Требования

  • Модуль prometheus должен быть включен (автоматическая зависимость).
  • Модуль operator-prometheus должен быть включен для поддержки PodMonitor.