Катастрофоустойчивость — способность инфраструктуры на базе Deckhouse Kubernetes Platform (DKP) сохранять работоспособность при масштабных отказах. Она обеспечивается за счёт распределённого развёртывания, автоматического переключения трафика и репликации критически важных компонентов.

В DKP реализованы два подхода к обеспечению катастрофоустойчивости:

  • Геораспределённость — распределение элементов инфраструктуры по разным зонам доступности (Multi-AZ) или регионам (Multi-Region). Такой подход позволяет снизить влияние отказов инфраструктуры на работу приложений. Подробнее — в разделе Геораспределённость.

  • Георезервирование основано на использовании нескольких независимых кластеров, объединённых в мультикластерную систему. При недоступности одного из кластеров трафик может быть автоматически перенаправлен в другой. Подробнее — в разделе Георезервирование.

Оба подхода требуют настройки сетевой связности между узлами и регионами, балансировки трафика и правильной организации хранилищ. Выбор конкретной архитектуры зависит от особенностей приложений и ограничений инфраструктуры.