Модуль доступен только в Deckhouse Enterprise Edition.

Модуль предназначен для запуска и управления централизованной платформой мониторинга Deckhouse Observability Platform.

Возможности платформы

Платформа предлагает следующие возможности:

  • Сбор мониторинговых данных (метрик и логов) в едином централизованном «окне» с возможностью многолетнего хранения.
  • Простой и интуитивно понятный интерфейс для просмотра мониторинговых данных.
  • Агент мониторинга для серверов с встроенными интеграциями (автоматическое обнаружение и постановка на мониторинг) с популярным ПО, такими как базы данных, менеджеры очередей, балансировщики и прочее.
  • Готовые дашборды и алерты по встроенным интеграциям.
  • Настройка собственных дашбордов и алертов, а также каналов доставки алертов.
  • Центр уведомлений для просмотра сработавших алертов и их истории.
  • Гибкая система прав с ролевой моделью и поддержкой аутентификации с использованием внешних систем.

Типовой сценарий использования

Типовой сценарий использования Deckhouse Observability Platform

Ключевые особенности платформы

  • Способность хранить сотни миллионов уникальных метрик.
  • Длительное хранение данных (5 лет и более).
  • Система разграничения потоков метрик и прав доступа:
    • разделение метрик по проектам – каждый проект или сервис может отправлять метрики в своё хранилище;
    • режим «мультипроектных» запросов – возможность сделать запрос для отображения метрик одновременно из нескольких проектов.
  • Гибкая система прав:
    • ролевая модель для управления доступом пользователей к различным элементам системы и данным;
    • поддержка аутентификации с использованием внешних систем, таких как LDAP, OAuth2 и другие.
  • Хранение метрик из любых источников, поддерживающих протокол Remote Write, таких как Prometheus, VictoriaMetrics и прочие, а также логов с использованием Loki.
  • Статистика утилизации ресурсов хранилища по тенантам.
  • Единый веб-интерфейс:
    • для работы с графиками, поддерживающий формат Grafana-дашбордов;
    • для работы с алертами и триггерами;
    • для управления и настройки платформы.
  • Центр уведомлений:
    • удобная работа с активными алертами и их историей;
    • фильтрация и сортировка уведомлений по различным критериям;
    • возможность временно отключить алерты при необходимости;
    • быстрое реагирование на изменения состояния системы.
  • Гибкая настройка дашбордов и триггеров с возможностью иметь общие настройки для всей компании, что позволяет удобно управлять однотипными дашбордами и триггерами, сохраняя при этом гибкость настройки на уровне отдельных проектов.

Ключевые особенности агента

Описание

Агент Deckhouse Observability Platform (далее – opAgent) представляет собой статически собранный бинарный файл, написанный на языке Go, что позволяет ему работать в любой Linux-подобной операционной системе. Поддерживаются архитектуры x86_64 и ARM.

opAgent устанавливается одной командой и автоматически начинает собирать метрики как с операционной системы, так и с прикладного программного обеспечения, установленного на серверы. opAgent уже имеет более 15 различных интеграций с прикладным ПО, что позволяет ему автоматически обнаруживать, подключаться и собирать ключевые метрики с этого ПО. В большинстве случаев конфигурация opAgent не требуется, но иногда для сбора метрик необходимо предоставить соответствующий доступ (система оповестит об этом автоматически и подскажет, какие команды нужно выполнить).

Функции opAgent

  • Сбор базовых метрик по утилизации серверов:
    • CPU;
    • Disk;
    • RAM + SWAP;
    • Сети / сетевых подключений (netstat);
    • Ресурсов ОС в разрезе по процессам.
  • Автоматическое обнаружение приложений, установленных на серверах, и постановка их на мониторинг:
    • PostgreSQL;
    • PgBouncer;
    • MySQL;
    • MongoDB;
    • Redis;
    • Memcached;
    • Cassandra;
    • Elasticsearch;
    • ZooKeeper;
    • Kafka;
    • Sphinx;
    • RabbitMQ;
    • Nginx;
    • PHP-FPM;
    • Java/JMX;
    • Envoy.
  • Сбор пользовательских метрик различными способами:
    • SQL-query – выполнение SQL-запросов;
    • Redis-query – выполнение запросов в Redis;
    • Exec – выполнение исполняемого файла и получение от него метрик;
    • Logparser – парсинг логов и преобразование полей лога в метрики;
    • HTTP-query – выполнение HTTP-запросов для получения метрик;
    • StatsD – встроенный в агента StatsD-сервер для быстрого сбора счётчиков;
    • Prometheus exporters – получение метрик из любых OpenMetrics-совместимых экспортёров.