Wiz оптимизирует обновления Aurora PostgreSQL с минимальным временем простоя

Обновлено: 25 августа, 2025

Усовершенствование процесса обновления

Компания Wiz добилась практически нулевого времени простоя при обновлениях основных версий Amazon Aurora PostgreSQL. Переход с версии PostgreSQL 14 на 16 обеспечил значительные улучшения в производительности, безопасности и эффективности. Используя возможности Aurora, Wiz реализовала подход Blue-Green для минимизации downtime и повышения уровня автоматизация.

Процесс с автоматизацией и репликацией

Важную роль в этом проекте сыграл разработанный инструмент DB Upgrade Pilot, представляющий собой автоматизированный процесс из восьми этапов. Он основан на Aurora Blue-Green Deployments и включает функции автоматизированных проверок, мониторинга синхронизации и комплексной оркестрации. Благодаря этому подходу, время простоя было сокращено с примерно одного часа до 30 секунд, а весь процесс запускается одной командой.

Преимущество и безопасность обновлений

Введение DB Upgrade Pilot начало с подготовки: создание снимка кластера, включение rds.logical_replication, настройка log_statement=ddl, отключение мешающих дополнений, синхронизация параметров и пауза для ввода данных. Обновление происходит через создание Aurora Blue/Green Deployment и синхронизацию реплики PostgreSQL 16.

После создания выполняется операция VACUUM ANALYZE на зеленом кластере для обновления статистики. Мониторинг уровня задержки репликации осуществляется через CloudWatch, и выполняются проверки состояния данных. Когда задержка достигает нуля, выполняется переключение с автопереключением на случай ошибки и перенаправление трафика, сохраняя точку доступа.

Пост-обновление и мониторинг

После удачного переключения расширения, такие как pg_cron и pg_partman, повторно включаются и обновляются, а входящие данные возобновляются. Очистка включает снятие с эксплуатации старой инфраструктуры и удаление развертывания Blue/Green. Наблюдение ведется через Grafana, в которой отслеживаются фазы, задержки репликации, выполненные шаги и общее время простоя.

Система автоматической откатки до переключения обеспечивает безопасность, предлагая проверки шагов, идемпотентность и удаление заблокированных транзакций, что гарантирует создание слотов репликации. Образы применения специально тестировались на различных размерах кластеров и нагрузках.

Будущие направления развития

Подводя итог, Wiz добилась средней задержки системы до 30 секунд на кластер с минимальными накладными расходами. В будущем компания планирует поддерживать новые крупные версии и интегрировать функции FULL VACUUM и другие задачи по техническому обслуживанию с минимальным воздействием на клиентов.

Опубликовано: 25 августа, 2025

ЕЩЕ СТАТЬИ ПО ДАННОЙ ТЕМЕ

Postgres и Kubernetes: будущее корпоративных приложений

Переход на Postgres и Kubernetes ускоряет модернизацию приложений и применение AI. Компании ищут решения для улучшения производительности и внедрения искусственного интеллекта, отказываясь от устаревших монолитных систем.

Читать далее »

Поддержка Postgre SQL

Поддержка — это когда у вас возникает техническая
проблема с существующей системой,
и вам необходимо некоторое руководство