SAABlog
중급

AWS Elastic Disaster Recovery: RPO 초 단위, RTO 분 단위 재해복구 완벽 가이드

AWS DRS로 온프레미스/클라우드 워크로드를 빠르게 복구하는 방법. DR 전략 비교, AWS Backup과 차이점, SAA-C03 시험 핵심 정리.

PHILOLAMB-
Elastic Disaster RecoveryDR재해복구RPORTO

관련 시험 도메인

  • Domain 2: Design Resilient Architectures

핵심 요약

**AWS Elastic Disaster Recovery (AWS DRS)**는 지속적인 블록 레벨 복제를 통해 RPO 초 단위, RTO 5-20분을 달성하는 재해복구 서비스입니다. 온프레미스, 타 클라우드, AWS 리전 간 워크로드 복구를 지원합니다.

시험 팁

시험 핵심: "비용 효율적인 DR + 낮은 RPO/RTO" → AWS DRS (Pilot Light), "정기 백업 + 긴 복구 시간 허용" → AWS Backup, "RTO 0에 가까움 + 비용 무관" → Active-Active


AWS DRS는 언제 사용해야 할까?

적합한 경우

AWS DRS 적합 시나리오:
├── 온프레미스 → AWS 재해복구
│   └── 데이터센터 장애 시 AWS로 빠른 전환
├── 타 클라우드 → AWS 재해복구
│   └── Azure, GCP 워크로드 AWS로 복구
├── AWS 리전 간 DR
│   └── 주 리전 장애 시 DR 리전으로 전환
├── 낮은 RPO/RTO 요구사항
│   └── 초 단위 데이터 손실, 분 단위 복구 필요
└── Pilot Light 전략 구현
    └── 비용 효율적인 DR 인프라 유지

부적합한 경우

AWS DRS가 최선이 아닌 상황:
├── 단순 백업/복원이 충분한 경우
│   → AWS Backup 사용 (비용 절감)
├── RTO 0이 필수인 경우
│   → Active-Active 아키텍처 구성
├── 데이터베이스만 보호
│   → RDS Multi-AZ, Aurora Global Database
└── 대용량 데이터 초기 마이그레이션
    → AWS DMS, Snow Family 활용

AWS DRS 작동 원리

아키텍처

┌─────────────────────────────────────────────────────────────┐
│              AWS Elastic Disaster Recovery                   │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   [소스 서버]                    [AWS 스테이징 영역]         │
│   (온프레미스/클라우드)           (저비용 리소스)            │
│       │                              │                       │
│       │  AWS Replication Agent       │                       │
│       │  (지속적 블록 복제)          │                       │
│       ▼                              ▼                       │
│   ┌──────────────┐            ┌──────────────┐              │
│   │   소스 볼륨   │ ────────→ │  EBS 볼륨     │              │
│   │   (운영 중)   │   실시간   │  (복제 데이터)│              │
│   └──────────────┘            └──────────────┘              │
│                                      │                       │
│                                      ▼                       │
│                              [재해 발생 시]                  │
│                                      │                       │
│                                      ▼                       │
│                              ┌──────────────┐               │
│                              │  복구 인스턴스 │               │
│                              │  (EC2 런칭)   │               │
│                              └──────────────┘               │
│                                      │                       │
│                              RPO: 초 단위                    │
│                              RTO: 5-20분                     │
│                                                              │
└─────────────────────────────────────────────────────────────┘

핵심 구성 요소

구성 요소역할
AWS Replication Agent소스 서버에 설치, 블록 변경 감지 및 전송
복제 서버 (Replication Server)t3.small EC2, 최대 15개 디스크 처리
스테이징 영역저비용 EBS에 복제 데이터 저장
복구 인스턴스재해 발생 시 실제 워크로드 실행

DR 전략 비교: 어떤 걸 선택해야 할까?

4가지 DR 전략

┌─────────────────────────────────────────────────────────────┐
│                    DR 전략 비교                              │
├──────────────┬──────────┬──────────┬──────────┬────────────┤
│              │ Backup & │  Pilot   │   Warm   │  Active-   │
│              │ Restore  │  Light   │ Standby  │  Active    │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ RPO          │ 시간     │ 분       │ 분       │ 초 이하    │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ RTO          │ 시간~일  │ 분       │ <5분     │ <1분       │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ 비용         │ $        │ $$       │ $$$      │ $$$$       │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ 복잡도       │ 낮음     │ 중간     │ 중상     │ 높음       │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ DR 리전      │ 대기     │ 최소     │ 축소     │ 전체       │
│ 인프라       │ (없음)   │ 구성     │ 운영     │ 운영       │
├──────────────┼──────────┼──────────┼──────────┼────────────┤
│ AWS 서비스   │ Backup   │ DRS      │ Auto     │ Route 53   │
│              │ S3 CRR   │ Aurora   │ Scaling  │ Global     │
│              │          │ Global   │          │ Accelerator│
└──────────────┴──────────┴──────────┴──────────┴────────────┘

전략 선택 플로우

DR 전략 선택:
        │
        ▼
RTO 요구사항이 분 단위 이내인가?
        │
       Yes → RPO도 초 단위가 필요한가?
        │           │
        │          Yes → 비용 제약이 있는가?
        │           │           │
        │           │          Yes → [Pilot Light + AWS DRS]
        │           │           │
        │           │          No → [Active-Active]
        │           │
        │          No → [Warm Standby]
        │
       No
        │
        ▼
비용이 가장 중요한가?
        │
       Yes → [Backup & Restore]
        │
       No → [Pilot Light]

시험 팁

Pilot Light vs Warm Standby 핵심 차이:

  • Pilot Light: DR 리전에 인프라가 "꺼진" 상태, 장애 시 서버 시작 필요
  • Warm Standby: DR 리전에 축소된 인프라가 "항상 실행" 중, 스케일업만 필요

AWS DRS vs AWS Backup

비교표

비교 항목AWS DRSAWS Backup
복제 방식지속적 블록 레벨 복제정기 스냅샷
RPO초 단위시간 단위
RTO5-20분시간~일
비용$20/월/서버 + EC2/EBS스토리지 비용만
대상전체 서버 (OS, 앱, 데이터)AWS 리소스 (EBS, RDS, DynamoDB)
사용 사례서버 레벨 DR데이터 백업/복원

언제 무엇을 선택할까?

AWS DRS 선택:
├── 전체 서버를 AWS로 복구해야 할 때
├── RPO 초 단위가 필요할 때
├── 온프레미스/타 클라우드 워크로드 DR
└── Pilot Light 전략 구현

AWS Backup 선택:
├── AWS 리소스 정기 백업
├── 규정 준수를 위한 장기 보관
├── 시간 단위 RPO가 허용될 때
└── 비용 최적화가 우선일 때

AWS DRS 비용 구조

가격 구성

항목비용 (US East 기준)
서버당 복제 비용$0.028/시간 (~$20/월)
복제 서버 (EC2)t3.small 비용
스테이징 EBSEBS gp3 비용
복구 인스턴스장애 발생 시에만 과금

비용 최적화 팁

비용 절감 전략:
├── 스테이징 EBS는 gp3 사용 (gp2보다 저렴)
├── 복제 서버 1대로 여러 소스 서버 처리 (최대 15개 디스크)
├── 정기 DR 테스트 후 테스트 인스턴스 즉시 종료
└── 불필요한 Point-in-Time 복구 포인트 정리

시험 팁

시험 포인트: AWS DRS는 Warm Standby보다 저렴하면서 비슷한 RPO/RTO 달성 가능. "비용 효율적 + 낮은 RPO/RTO" 문제에서 정답!


SAA-C03 시험 출제 포인트

자주 나오는 시나리오

  1. 비용 효율적 DR: "RPO 초, RTO 분 + 비용 절감" → AWS DRS
  2. DR 전략 선택: "RTO 0 + 비용 무관" → Active-Active
  3. 온프레미스 DR: "데이터센터 → AWS 재해복구" → AWS DRS
  4. Backup vs DRS: "정기 백업 vs 실시간 복제" 구분
  5. Pilot Light 정의: "최소 인프라 + 장애 시 확장"

예상 문제

시험 팁

예상 문제 1: "온프레미스 SQL Server를 AWS로 재해복구해야 합니다. RPO 5분, RTO 30분이 요구됩니다. 가장 비용 효율적인 방법은?"

→ 정답: AWS Elastic Disaster Recovery (지속적 복제로 RPO 초 달성, 복구 시 EC2 런칭으로 RTO 분 달성)

시험 팁

예상 문제 2: "재해복구 전략 중 DR 리전에 축소된 인프라가 항상 실행 중이며, 장애 시 스케일업만 하면 되는 전략은?"

→ 정답: Warm Standby (Pilot Light는 인프라가 꺼져 있음)

시험 팁

예상 문제 3: "미션 크리티컬 애플리케이션이 RTO 0에 가까운 복구를 요구합니다. 어떤 DR 전략을 사용해야 할까요?"

→ 정답: Multi-Site Active/Active (두 리전에서 동시 트래픽 처리)


자주 묻는 질문 (FAQ)

Q: AWS DRS와 CloudEndure Disaster Recovery의 차이점은?

AWS DRS는 CloudEndure DR의 후속 서비스입니다. CloudEndure DR은 2024년 3월에 종료되었으며, AWS DRS가 동일한 기능을 더 나은 AWS 통합 (IAM, CloudWatch, PrivateLink)과 함께 제공합니다.

Q: AWS DRS로 데이터베이스도 복구할 수 있나요?

, 서버에 설치된 데이터베이스(Oracle, SQL Server, MySQL 등)를 블록 레벨로 복제합니다. 단, 관리형 데이터베이스(RDS, Aurora)는 해당 서비스의 자체 DR 기능(Multi-AZ, Global Database)을 사용하세요.

Q: 복제 서버(Replication Server)는 몇 대가 필요한가요?

기본적으로 1대의 복제 서버가 15개 스테이징 디스크를 처리합니다. 소스 서버가 많으면 복제 서버 수가 자동으로 증가합니다. 대역폭이 문제라면 수동으로 추가할 수 있습니다.

Q: DR 테스트는 운영에 영향을 주나요?

아니요, AWS DRS의 DR 테스트는 **비파괴적(non-disruptive)**입니다. 스테이징 영역의 데이터로 테스트 인스턴스를 생성하므로 소스 서버에 영향 없이 테스트할 수 있습니다.

Q: Point-in-Time Recovery란?

AWS DRS는 복제 데이터의 여러 시점을 저장합니다. 랜섬웨어 감염 전 시점으로 복구하거나, 데이터 손상 전 상태로 돌아갈 수 있습니다. 기본 60일, 최대 365일 보관 가능합니다.


관련 글

참고 자료