Надёжность и устойчивость Kubernetes-кластера — ключевые характеристики, определяющие стабильность инфраструктуры. Deckhouse Kubernetes Platform (DKP) обеспечивает высокую доступность (High Availability, HA) и отказоустойчивость за счёт встроенных механизмов и модулей.

При включенном режиме HA критически важные компоненты кластера запускаются с учетом нужной избыточности что гарантирует их непрерывную работу. Даже при отказе отдельного экземпляра сервисы могут функционировать без простоев. Подробнее о включении режима HA – в разделе Управление режимом HA.

Если в кластере больше одного master-узла, режим HA включается автоматически — как при первичном развёртывании, так и при последующем добавлении узлов. Рекомендуемые роли и количество узлов приведены в разделе Рекомендации по конфигурации узлов кластера и предотвращению перегрузки.

Для проверки устойчивости в DKP предусмотрены инструменты хаос-инжиниринга. С их помощью можно управляемо или в случайном порядке выводить из строя отдельные компоненты и отслеживать реакцию инфраструктуры. О настройке инструментов хаос-инжиниринга читайте в разделе Хаос-инжиниринг.

Повышенную отказоустойчивость кластера можно реализовать через межкластерное взаимодействие на базе режима Service Mesh модуля istio. В этом режиме настраивается федерация между несколькими кластерами: при сбоях в одном из них нагрузка автоматически перераспределяется на другие. Подробнее про настройку читайте в разделе Федерация.