Доступно в редакциях:  CE, BE, SE, SE+, EE, CSE Lite (1.67), CSE Pro (1.67)

Модуль extended-monitoring расширяет возможности мониторинга кластера за счёт дополнительных Prometheus exporter’ов, которые позволяют выявлять потенциальные проблемы до того, как они скажутся на работе сервисов.

Возможности модуля:

  • Расширенный сбор метрик — собирает дополнительные метрики, а также включает готовые алерты и дашборды, которые позволяют быстрее обнаруживать и диагностировать инциденты:
    • собирает и экспортирует метрики по свободному месту и inode на узлах, а также по объектам с лейблом extended-monitoring.deckhouse.io/enabled="" в пространстве имён;
    • автоматически формирует алерты при достижении пороговых значений.
  • Мониторинг контейнерных образов:
    • добавляет метрики и отправляет алерты о недоступности образов контейнеров в registry для всех типов рабочей нагрузки (Deployments, StatefulSets, DaemonSets, CronJobs);
    • помогает заранее узнать о возможных проблемах с запуском или обновлением подов.
  • События в кластере — собирает события Kubernetes и отображает их в виде метрик, что позволяет отслеживать динамику изменений и быстрее реагировать на инциденты.
  • Контроль сертификатов:
    • сканирует Secret’ы кластера и генерирует метрики об истечении срока действия x509-сертификатов;
    • позволяет не пропускать критические моменты и вовремя обновлять сертификаты, избегая простоя приложений из-за просроченных сертификатов.