AWS Elastic Disaster Recovery: RPO 초 단위, RTO 분 단위 재해복구 완벽 가이드
AWS DRS로 온프레미스/클라우드 워크로드를 빠르게 복구하는 방법. DR 전략 비교, AWS Backup과 차이점, SAA-C03 시험 핵심 정리.
관련 시험 도메인
- Domain 2: Design Resilient Architectures
핵심 요약
**AWS Elastic Disaster Recovery (AWS DRS)**는 지속적인 블록 레벨 복제를 통해 RPO 초 단위, RTO 5-20분을 달성하는 재해복구 서비스입니다. 온프레미스, 타 클라우드, AWS 리전 간 워크로드 복구를 지원합니다.
시험 팁
시험 핵심: "비용 효율적인 DR + 낮은 RPO/RTO" → AWS DRS (Pilot Light), "정기 백업 + 긴 복구 시간 허용" → AWS Backup, "RTO 0에 가까움 + 비용 무관" → Active-Active
AWS DRS는 언제 사용해야 할까?
적합한 경우
AWS DRS 적합 시나리오:
├── 온프레미스 → AWS 재해복구
│ └── 데이터센터 장애 시 AWS로 빠른 전환
├── 타 클라우드 → AWS 재해복구
│ └── Azure, GCP 워크로드 AWS로 복구
├── AWS 리전 간 DR
│ └── 주 리전 장애 시 DR 리전으로 전환
├── 낮은 RPO/RTO 요구사항
│ └── 초 단위 데이터 손실, 분 단위 복구 필요
└── Pilot Light 전략 구현
└── 비용 효율적인 DR 인프라 유지
부적합한 경우
AWS DRS가 최선이 아닌 상황:
├── 단순 백업/복원이 충분한 경우
│ → AWS Backup 사용 (비용 절감)
├── RTO 0이 필수인 경우
│ → Active-Active 아키텍처 구성
├── 데이터베이스만 보호
│ → RDS Multi-AZ, Aurora Global Database
└── 대용량 데이터 초기 마이그레이션
→ AWS DMS, Snow Family 활용
AWS DRS 작동 원리
아키텍처
┌─────────────────────────────────────────────────────────────┐
│ AWS Elastic Disaster Recovery │
├─────────────────────────────────────────────────────────────┤
│ │
│ [소스 서버] [AWS 스테이징 영역] │
│ (온프레미스/클라우드) (저비용 리소스) │
│ │ │ │
│ │ AWS Replication Agent │ │
│ │ (지속적 블록 복제) │ │
│ ▼ ▼ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ 소스 볼륨 │ ────────→ │ EBS 볼륨 │ │
│ │ (운영 중) │ 실시간 │ (복제 데이터)│ │
│ └──────────────┘ └──────────────┘ │
│ │ │
│ ▼ │
│ [재해 발생 시] │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 복구 인스턴스 │ │
│ │ (EC2 런칭) │ │
│ └──────────────┘ │
│ │ │
│ RPO: 초 단위 │
│ RTO: 5-20분 │
│ │
└─────────────────────────────────────────────────────────────┘
핵심 구성 요소
| 구성 요소 | 역할 |
|---|---|
| AWS Replication Agent | 소스 서버에 설치, 블록 변경 감지 및 전송 |
| 복제 서버 (Replication Server) | t3.small EC2, 최대 15개 디스크 처리 |
| 스테이징 영역 | 저비용 EBS에 복제 데이터 저장 |
| 복구 인스턴스 | 재해 발생 시 실제 워크로드 실행 |
DR 전략 비교: 어떤 걸 선택해야 할까?
4가지 DR 전략
┌─────────────────────────────────────────────────────────────┐
│ DR 전략 비교 │
├──────────────┬──────────┬──────────┬──────────┬────────────┤
│ │ Backup & │ Pilot │ Warm │ Active- │
│ │ Restore │ Light │ Standby │ Active │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ RPO │ 시간 │ 분 │ 분 │ 초 이하 │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ RTO │ 시간~일 │ 분 │ <5분 │ <1분 │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ 비용 │ $ │ $$ │ $$$ │ $$$$ │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ 복잡도 │ 낮음 │ 중간 │ 중상 │ 높음 │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ DR 리전 │ 대기 │ 최소 │ 축소 │ 전체 │
│ 인프라 │ (없음) │ 구성 │ 운영 │ 운영 │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ AWS 서비스 │ Backup │ DRS │ Auto │ Route 53 │
│ │ S3 CRR │ Aurora │ Scaling │ Global │
│ │ │ Global │ │ Accelerator│
└──────────────┴──────────┴──────────┴──────────┴────────────┘
전략 선택 플로우
DR 전략 선택:
│
▼
RTO 요구사항이 분 단위 이내인가?
│
Yes → RPO도 초 단위가 필요한가?
│ │
│ Yes → 비용 제약이 있는가?
│ │ │
│ │ Yes → [Pilot Light + AWS DRS]
│ │ │
│ │ No → [Active-Active]
│ │
│ No → [Warm Standby]
│
No
│
▼
비용이 가장 중요한가?
│
Yes → [Backup & Restore]
│
No → [Pilot Light]
시험 팁
Pilot Light vs Warm Standby 핵심 차이:
- Pilot Light: DR 리전에 인프라가 "꺼진" 상태, 장애 시 서버 시작 필요
- Warm Standby: DR 리전에 축소된 인프라가 "항상 실행" 중, 스케일업만 필요
AWS DRS vs AWS Backup
비교표
| 비교 항목 | AWS DRS | AWS Backup |
|---|---|---|
| 복제 방식 | 지속적 블록 레벨 복제 | 정기 스냅샷 |
| RPO | 초 단위 | 시간 단위 |
| RTO | 5-20분 | 시간~일 |
| 비용 | $20/월/서버 + EC2/EBS | 스토리지 비용만 |
| 대상 | 전체 서버 (OS, 앱, 데이터) | AWS 리소스 (EBS, RDS, DynamoDB) |
| 사용 사례 | 서버 레벨 DR | 데이터 백업/복원 |
언제 무엇을 선택할까?
AWS DRS 선택:
├── 전체 서버를 AWS로 복구해야 할 때
├── RPO 초 단위가 필요할 때
├── 온프레미스/타 클라우드 워크로드 DR
└── Pilot Light 전략 구현
AWS Backup 선택:
├── AWS 리소스 정기 백업
├── 규정 준수를 위한 장기 보관
├── 시간 단위 RPO가 허용될 때
└── 비용 최적화가 우선일 때
AWS DRS 비용 구조
가격 구성
| 항목 | 비용 (US East 기준) |
|---|---|
| 서버당 복제 비용 | $0.028/시간 (~$20/월) |
| 복제 서버 (EC2) | t3.small 비용 |
| 스테이징 EBS | EBS gp3 비용 |
| 복구 인스턴스 | 장애 발생 시에만 과금 |
비용 최적화 팁
비용 절감 전략:
├── 스테이징 EBS는 gp3 사용 (gp2보다 저렴)
├── 복제 서버 1대로 여러 소스 서버 처리 (최대 15개 디스크)
├── 정기 DR 테스트 후 테스트 인스턴스 즉시 종료
└── 불필요한 Point-in-Time 복구 포인트 정리
시험 팁
시험 포인트: AWS DRS는 Warm Standby보다 저렴하면서 비슷한 RPO/RTO 달성 가능. "비용 효율적 + 낮은 RPO/RTO" 문제에서 정답!
SAA-C03 시험 출제 포인트
자주 나오는 시나리오
- ✅ 비용 효율적 DR: "RPO 초, RTO 분 + 비용 절감" → AWS DRS
- ✅ DR 전략 선택: "RTO 0 + 비용 무관" → Active-Active
- ✅ 온프레미스 DR: "데이터센터 → AWS 재해복구" → AWS DRS
- ✅ Backup vs DRS: "정기 백업 vs 실시간 복제" 구분
- ✅ Pilot Light 정의: "최소 인프라 + 장애 시 확장"
예상 문제
시험 팁
예상 문제 1: "온프레미스 SQL Server를 AWS로 재해복구해야 합니다. RPO 5분, RTO 30분이 요구됩니다. 가장 비용 효율적인 방법은?"
→ 정답: AWS Elastic Disaster Recovery (지속적 복제로 RPO 초 달성, 복구 시 EC2 런칭으로 RTO 분 달성)
시험 팁
예상 문제 2: "재해복구 전략 중 DR 리전에 축소된 인프라가 항상 실행 중이며, 장애 시 스케일업만 하면 되는 전략은?"
→ 정답: Warm Standby (Pilot Light는 인프라가 꺼져 있음)
시험 팁
예상 문제 3: "미션 크리티컬 애플리케이션이 RTO 0에 가까운 복구를 요구합니다. 어떤 DR 전략을 사용해야 할까요?"
→ 정답: Multi-Site Active/Active (두 리전에서 동시 트래픽 처리)
자주 묻는 질문 (FAQ)
Q: AWS DRS와 CloudEndure Disaster Recovery의 차이점은?
AWS DRS는 CloudEndure DR의 후속 서비스입니다. CloudEndure DR은 2024년 3월에 종료되었으며, AWS DRS가 동일한 기능을 더 나은 AWS 통합 (IAM, CloudWatch, PrivateLink)과 함께 제공합니다.
Q: AWS DRS로 데이터베이스도 복구할 수 있나요?
네, 서버에 설치된 데이터베이스(Oracle, SQL Server, MySQL 등)를 블록 레벨로 복제합니다. 단, 관리형 데이터베이스(RDS, Aurora)는 해당 서비스의 자체 DR 기능(Multi-AZ, Global Database)을 사용하세요.
Q: 복제 서버(Replication Server)는 몇 대가 필요한가요?
기본적으로 1대의 복제 서버가 15개 스테이징 디스크를 처리합니다. 소스 서버가 많으면 복제 서버 수가 자동으로 증가합니다. 대역폭이 문제라면 수동으로 추가할 수 있습니다.
Q: DR 테스트는 운영에 영향을 주나요?
아니요, AWS DRS의 DR 테스트는 **비파괴적(non-disruptive)**입니다. 스테이징 영역의 데이터로 테스트 인스턴스를 생성하므로 소스 서버에 영향 없이 테스트할 수 있습니다.
Q: Point-in-Time Recovery란?
AWS DRS는 복제 데이터의 여러 시점을 저장합니다. 랜섬웨어 감염 전 시점으로 복구하거나, 데이터 손상 전 상태로 돌아갈 수 있습니다. 기본 60일, 최대 365일 보관 가능합니다.