SAABlog
데이터베이스고급

AWS DR 전략: Backup & Restore부터 Active-Active까지 완벽 비교

비용 최소화는 Backup & Restore, 즉시 복구는 Active-Active. SAA-C03 시험 필수 토픽인 4가지 재해복구 전략의 RTO/RPO와 비용을 비교합니다.

PHILOLAMB-
DR재해복구BackupPilot LightWarm StandbyActive-Active

관련 시험 도메인

  • Domain 2: Design Resilient Architectures

핵심 요약 (BLUF)

비용이 우선이면 Backup & Restore(RTO 24시간), 빠른 복구가 필요하면 Warm Standby(RTO 분 단위), 다운타임 제로가 필수면 Active-Active(RTO ~0)를 선택하세요. DR 전략은 RTO/RPO 요구사항과 비용 간의 트레이드오프입니다.

시험 팁

시험 핵심: Backup & Restore(최저 비용, 긴 RTO) → Pilot Light(핵심만 가동) → Warm Standby(축소 운영) → Active-Active(제로 다운타임, 최고 비용)

DR 전략 한눈에 비교

전략RPORTO비용복잡성사용 사례
Backup & Restore수 시간24시간 이하최저낮음비핵심 시스템
Pilot Light수 분수십 분낮음중간중요 시스템
Warm Standby수 분수 분중간중간핵심 시스템
Active-Active~0~0최고높음미션 크리티컬
DR 전략 스펙트럼:

비용 낮음 ←────────────────────────────────────→ 비용 높음
RTO 길음 ←────────────────────────────────────→ RTO 짧음

Backup &     Pilot        Warm          Active-
Restore      Light        Standby       Active
   │           │            │              │
   ↓           ↓            ↓              ↓
 24시간      수십 분        수 분          ~0

1. Backup & Restore

Backup & Restore란?

데이터를 정기적으로 백업하고, 재해 발생 시 새로운 인프라를 생성하여 백업에서 복원하는 전략입니다. 가장 비용 효율적이지만 RTO가 가장 깁니다.

Backup & Restore 아키텍처:

평상시:
기본 리전                      복구 리전
┌─────────────┐               ┌─────────────┐
│ EC2, RDS    │               │             │
│ 운영 중     │ ─── 백업 ──→  │ S3 백업만   │
│             │               │ 저장        │
└─────────────┘               └─────────────┘

재해 발생 시:
기본 리전                      복구 리전
┌─────────────┐               ┌─────────────┐
│     ✕       │               │ 새 인프라   │
│   장애      │               │ 생성 & 복원 │
│             │               │ (IaC 사용)  │
└─────────────┘               └─────────────┘

핵심 구성 요소

구성 요소설명
S3 크로스 리전 복제백업 데이터 자동 복제
EBS 스냅샷볼륨 백업, 다른 리전으로 복사
RDS 자동 백업스냅샷 + 트랜잭션 로그
AWS Backup중앙 집중식 백업 관리
Infrastructure as CodeCloudFormation, Terraform

복구 프로세스

재해 발생 시 복구 단계:

1. 재해 감지 및 DR 선언
   ↓
2. IaC로 인프라 프로비저닝 (VPC, EC2, RDS 등)
   ↓
3. 최신 백업에서 데이터 복원
   ↓
4. 애플리케이션 배포 및 구성
   ↓
5. DNS 업데이트 (Route 53)
   ↓
6. 검증 및 서비스 재개

총 소요 시간: 수 시간 ~ 24시간

적합한 사용 사례

  • 비핵심 시스템: 내부 도구, 개발 환경
  • 비용 우선: 예산이 제한적인 경우
  • 낮은 RTO 허용: 24시간 다운타임 감수 가능
  • 규정 준수: 데이터 백업만 필수인 경우

시험 팁

시험 포인트: Backup & Restore는 비용 최소화 + RTO 24시간 이하 키워드와 함께 출제

2. Pilot Light

Pilot Light란?

핵심 인프라만 최소한으로 가동하는 전략입니다. 데이터베이스는 동기화 상태로 유지하고, 컴퓨팅 리소스는 재해 시에만 시작합니다.

Pilot Light 아키텍처:

평상시:
기본 리전                      복구 리전
┌─────────────┐               ┌─────────────┐
│ EC2 (운영)  │               │ EC2 (중지)  │
│ RDS Primary │ ─── 복제 ──→  │ RDS Replica │
│ (읽기/쓰기) │   (비동기)    │ (읽기 전용) │
└─────────────┘               └─────────────┘

재해 발생 시:
기본 리전                      복구 리전
┌─────────────┐               ┌─────────────┐
│     ✕       │               │ EC2 시작    │
│   장애      │               │ RDS 승격    │
│             │               │ (Primary로) │
└─────────────┘               └─────────────┘

핵심 구성 요소

구성 요소평상시 상태재해 시 작업
데이터베이스복제본 실행 중Primary로 승격
EC2 인스턴스중지 또는 미생성시작 또는 생성
AMI최신 유지EC2 시작에 사용
네트워크VPC, 서브넷 구성 완료즉시 사용

Backup & Restore와 차이점

핵심 차이:

Backup & Restore:
├── 데이터: S3에 백업만 저장
├── 인프라: 없음 (재해 시 생성)
└── RTO: 24시간 (인프라 생성 + 복원)

Pilot Light:
├── 데이터: DB 복제본 실시간 동기화
├── 인프라: 핵심만 대기 (DB, 네트워크)
└── RTO: 수십 분 (EC2 시작 + DB 승격)

적합한 사용 사례

  • 중요 비즈니스 시스템: 수십 분 내 복구 필요
  • 비용/복구 균형: Warm Standby보다 저렴
  • 예측 가능한 장애: 계획된 DR 절차 가능

시험 팁

시험 포인트: Pilot Light는 핵심 시스템만 가동 + RTO 수십 분 + DB 복제본 유지

3. Warm Standby

Warm Standby란?

축소된 버전의 전체 환경을 복구 리전에서 실행하는 전략입니다. 모든 구성 요소가 실행 중이지만 최소 용량으로 운영됩니다.

Warm Standby 아키텍처:

평상시:
기본 리전                      복구 리전
┌─────────────┐               ┌─────────────┐
│ EC2: 10대   │               │ EC2: 2대    │
│ (전체 용량) │               │ (최소 용량) │
│             │               │             │
│ RDS Primary │ ─── 복제 ──→  │ RDS Replica │
│             │               │             │
│ 100% 트래픽 │               │ 0% 트래픽   │
└─────────────┘               └─────────────┘

재해 발생 시:
기본 리전                      복구 리전
┌─────────────┐               ┌─────────────┐
│     ✕       │               │ EC2: 10대   │
│   장애      │               │ (스케일 업) │
│             │               │             │
│             │               │ RDS Primary │
│             │               │ (승격)      │
│             │               │ 100% 트래픽 │
└─────────────┘               └─────────────┘

Pilot Light vs Warm Standby

비교 항목Pilot LightWarm Standby
EC2 상태중지/미생성실행 중 (최소)
복구 작업시작 + 배포스케일 업만
RTO수십 분수 분
비용낮음중간
테스트복잡용이 (실행 중)

핵심 구성 요소

구성 요소평상시재해 시
Auto Scaling최소 용량 (예: 2대)원하는 용량 (예: 10대)
RDSRead ReplicaPrimary로 승격
ELB활성 (최소 트래픽)전체 트래픽
Route 53가중치 0%가중치 100%

적합한 사용 사례

  • 핵심 비즈니스 시스템: 분 단위 복구 필요
  • 상시 테스트 필요: DR 환경 정기 검증
  • 예산 여유: Pilot Light보다 높은 비용 감수

시험 팁

시험 포인트: Warm Standby는 축소 환경 실행 중 + 스케일 업만 필요 + RTO 분 단위

4. Active-Active (Multi-Site)

Active-Active란?

여러 리전에서 동시에 트래픽을 처리하는 전략입니다. 한 리전 장애 시 다른 리전이 즉시 전체 부하를 처리합니다.

Active-Active 아키텍처:

평상시:
      Route 53 (50% / 50% 분산)
              │
    ┌─────────┴─────────┐
    ↓                   ↓
기본 리전              복구 리전
┌─────────────┐    ┌─────────────┐
│ EC2 (전체)  │    │ EC2 (전체)  │
│ 50% 트래픽  │    │ 50% 트래픽  │
│             │    │             │
│ DynamoDB    │←──→│ DynamoDB    │
│ 글로벌 테이블│ 복제│ 글로벌 테이블│
└─────────────┘    └─────────────┘

재해 발생 시:
      Route 53 (0% / 100% 분산)
              │
    ┌─────────┴─────────┐
    ↓                   ↓
기본 리전              복구 리전
┌─────────────┐    ┌─────────────┐
│     ✕       │    │ EC2 (전체)  │
│   장애      │    │ 100% 트래픽 │
│             │    │             │
│             │    │ DynamoDB    │
│             │    │ (계속 운영) │
└─────────────┘    └─────────────┘

핵심 구성 요소

구성 요소설명
Route 53지연 시간/가중치 기반 라우팅
DynamoDB 글로벌 테이블다중 리전 다중 마스터
Aurora Global Database1초 미만 크로스 리전 복제
S3 크로스 리전 복제양방향 복제
Global Accelerator글로벌 트래픽 분산

데이터 동기화 고려사항

Active-Active 데이터 동기화 과제:

1. 쓰기 충돌 (Write Conflict)
   - 동일 레코드를 두 리전에서 동시 수정
   - 해결: Last Writer Wins, 버전 관리

2. 일관성 (Consistency)
   - 리전 간 복제 지연
   - 해결: 최종 일관성 허용, 읽기 리전 고정

3. 트랜잭션
   - 분산 트랜잭션 어려움
   - 해결: 리전 내 트랜잭션만 사용

적합한 사용 사례

  • 미션 크리티컬 시스템: 다운타임 허용 불가
  • 글로벌 서비스: 사용자 근접 리전 제공
  • 규제 요구: 제로 RTO/RPO 필수
  • 충분한 예산: 2배 인프라 비용

시험 팁

시험 포인트: Active-Active는 RTO/RPO ~0 + 양쪽 모두 트래픽 처리 + 데이터 충돌 관리 필요

전략 선택 가이드

요구사항별 선택

DR 전략 선택 결정 트리:

RTO 요구사항?
    │
    ├── 24시간 이상 허용 → Backup & Restore
    │
    ├── 수십 분 필요 → Pilot Light
    │
    ├── 수 분 필요 → Warm Standby
    │
    └── 제로 다운타임 → Active-Active

비용 vs 복구 시간 분석

월 비용 예시 (기본 환경 $10,000/월 기준):

Backup & Restore:
├── 추가 비용: ~$500/월 (S3 백업 + 스냅샷)
└── RTO: 24시간

Pilot Light:
├── 추가 비용: ~$2,000/월 (DB 복제본 + 최소 인프라)
└── RTO: 30분

Warm Standby:
├── 추가 비용: ~$5,000/월 (축소 환경 상시 운영)
└── RTO: 5분

Active-Active:
├── 추가 비용: ~$10,000/월 (전체 환경 2배)
└── RTO: ~0

AWS 서비스 활용

전략별 AWS 서비스

전략컴퓨팅데이터베이스스토리지네트워킹
BackupAMIRDS 스냅샷S3 CRR-
Pilot LightAMI (대기)RDS Read ReplicaS3 CRRVPC 구성
Warm StandbyASG (최소)RDS Read ReplicaS3 CRRELB
Active-ActiveASG (전체)Aurora Global, DynamoDB GlobalS3 CRRRoute 53

AWS Elastic Disaster Recovery

AWS Elastic Disaster Recovery (DRS):

특징:
├── 지속적인 블록 레벨 복제
├── 서브초 RPO
├── 분 단위 RTO
├── Pilot Light 비용으로 Warm Standby 수준 복구
└── 자동화된 장애 조치

적합한 경우:
├── 온프레미스 → AWS DR
├── AWS 리전 간 DR
└── 비용 효율적인 DR 필요

SAA-C03 시험 출제 포인트

  1. 전략별 RTO/RPO: Backup(시간), Pilot Light(수십 분), Warm Standby(분), Active-Active(~0)
  2. 비용 순서: Backup < Pilot Light < Warm Standby < Active-Active
  3. Pilot Light vs Warm Standby: 핵심만 가동 vs 축소 환경 전체 운영
  4. Active-Active 데이터: DynamoDB 글로벌 테이블, Aurora Global Database
  5. Route 53 역할: 장애 조치 라우팅, 상태 확인
  6. AWS DRS: Pilot Light 비용으로 낮은 RTO 달성

시험 팁

시험 문제 예시: "회사는 RTO 1시간, RPO 15분의 재해복구 요구사항이 있습니다. 비용을 최소화하면서 요구사항을 충족하는 DR 전략은?" → 정답: Pilot Light (RTO 수십 분, RPO 분 단위, Warm Standby보다 저렴)

자주 묻는 질문 (FAQ)

Q: Pilot Light와 Warm Standby의 가장 큰 차이점은?

EC2가 실행 중인지 여부입니다. Pilot Light는 데이터베이스만 실행하고 EC2는 중지 상태입니다. Warm Standby는 모든 구성 요소가 최소 용량으로 실행 중입니다. 따라서 Warm Standby가 RTO가 더 짧지만 비용이 높습니다.

Q: Active-Active에서 데이터 충돌은 어떻게 해결하나요?

최종 쓰기 우선(Last Writer Wins) 또는 충돌 해결 로직이 필요합니다. DynamoDB 글로벌 테이블은 타임스탬프 기반으로 최종 쓰기를 선택합니다. 애플리케이션 레벨에서 충돌 가능한 쓰기를 특정 리전으로 제한하는 것도 방법입니다.

Q: DR 전략을 테스트하는 방법은?

정기적인 DR 훈련(DR Drill)을 수행해야 합니다. 실제 장애 조치를 시뮬레이션하고 RTO/RPO 목표 달성 여부를 검증합니다. Warm Standby와 Active-Active는 실행 중이므로 테스트가 더 쉽습니다.

Q: Backup & Restore에서 RTO를 줄이는 방법은?

자동화와 IaC를 활용하세요. CloudFormation/Terraform으로 인프라를 코드화하고, AWS Backup으로 자동 백업을 구성하며, 복구 절차를 자동화하면 RTO를 수 시간으로 단축할 수 있습니다.

Q: 하이브리드 DR 전략이 가능한가요?

네, 워크로드별로 다른 전략을 적용할 수 있습니다. 핵심 시스템은 Warm Standby, 보조 시스템은 Backup & Restore로 구성하여 비용과 복구 시간의 균형을 맞출 수 있습니다.

Q: 다중 리전 DR에서 데이터 전송 비용은?

리전 간 데이터 전송에 비용이 발생합니다. S3 CRR, RDS 크로스 리전 복제, DynamoDB 글로벌 테이블 모두 리전 간 데이터 전송 요금이 부과됩니다. Active-Active는 양방향 동기화로 비용이 가장 높습니다.

관련 글

참고 자료