AWS DataSync: 온프레미스 데이터를 AWS로 빠르게 마이그레이션하는 방법
DataSync로 NFS, SMB 스토리지를 S3, EFS, FSx로 마이그레이션. Storage Gateway, Transfer Family와의 차이점, SAA-C03 시험 포인트 정리.
관련 시험 도메인
- Domain 2: Design Resilient Architectures
- Domain 3: Design High-Performing Architectures
핵심 요약
AWS DataSync는 온프레미스 스토리지와 AWS 스토리지 서비스 간 데이터 전송을 자동화하고 가속화하는 서비스입니다. 오픈소스 도구보다 최대 10배 빠른 속도로 데이터를 마이그레이션하며, 내장된 암호화와 데이터 무결성 검증을 제공합니다.
시험 팁
시험 핵심: "온프레미스 → AWS 대용량 데이터 마이그레이션" → DataSync, "하이브리드 스토리지 지속 접근" → Storage Gateway, "SFTP/FTP 파일 전송" → Transfer Family
DataSync는 언제 사용해야 할까?
적합한 경우
DataSync 권장 시나리오:
├── 대규모 데이터 마이그레이션
│ └── 온프레미스 NFS/SMB → S3, EFS, FSx 이전
├── 정기적인 데이터 동기화
│ └── 매시간/매일/매주 증분 복제
├── 멀티클라우드 데이터 전송
│ └── Google Cloud, Azure → AWS 마이그레이션
├── 콜드 데이터 아카이빙
│ └── 온프레미스 → S3 Glacier 이전
└── AWS 스토리지 간 전송
└── S3 → EFS, EFS → FSx 간 복제
부적합한 경우
DataSync가 적합하지 않은 시나리오:
├── 실시간 하이브리드 스토리지 접근
│ → Storage Gateway (File/Volume Gateway)
├── 외부 파트너와 SFTP/FTP 파일 교환
│ → Transfer Family
├── 페타바이트급 오프라인 전송
│ → Snow Family (Snowball, Snowcone)
└── 단순 일회성 소량 데이터 복사
→ AWS CLI (aws s3 cp)
DataSync 아키텍처
작동 방식
┌─────────────────────────────────────────────────────────────┐
│ AWS DataSync 아키텍처 │
├─────────────────────────────────────────────────────────────┤
│ │
│ [온프레미스] [AWS Cloud] │
│ │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ NFS/SMB │ │ Amazon │ │
│ │ 파일 서버 │ │ S3 │ │
│ └──────┬──────┘ └─────────────┘ │
│ │ ▲ │
│ ▼ │ │
│ ┌─────────────┐ TLS 암호화 ┌────┴────┐ │
│ │ DataSync │ ═══════════════════│ DataSync │ │
│ │ Agent │ 인터넷/DX │ Service │ │
│ │ (VM) │ │ │ │
│ └─────────────┘ └────┬────┘ │
│ │ │
│ ┌──────┴──────┐ │
│ │ │ │
│ ┌────┴───┐ ┌────┴───┐ │
│ │ EFS │ │ FSx │ │
│ └────────┘ └────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
핵심 구성 요소
| 구성 요소 | 설명 |
|---|---|
| DataSync Agent | 온프레미스에 설치하는 VM (VMware, Hyper-V, KVM) |
| 소스 위치 | NFS, SMB, HDFS, 객체 스토리지, Azure 등 |
| 대상 위치 | S3, EFS, FSx (Windows, Lustre, OpenZFS, ONTAP) |
| 작업 (Task) | 소스→대상 전송 설정 및 스케줄 |
| 작업 실행 | 실제 데이터 전송 인스턴스 |
지원 스토리지
소스 (온프레미스/다른 클라우드)
지원 소스 스토리지:
├── 파일 시스템
│ ├── NFS (Network File System)
│ ├── SMB (Server Message Block)
│ └── HDFS (Hadoop Distributed File System)
├── 객체 스토리지
│ ├── 자체 관리형 객체 스토리지
│ └── S3 호환 스토리지 (Wasabi 등)
├── 다른 클라우드
│ ├── Google Cloud Storage
│ ├── Azure Blob Storage
│ └── Azure Files
└── AWS 스토리지
└── Amazon S3 (리전 간 복제)
대상 (AWS 스토리지)
| AWS 서비스 | 용도 |
|---|---|
| Amazon S3 | 객체 스토리지, 데이터 레이크 |
| Amazon EFS | Linux 파일 시스템 (NFS) |
| FSx for Windows | Windows 파일 서버 |
| FSx for Lustre | 고성능 컴퓨팅 (HPC) |
| FSx for OpenZFS | Linux 고성능 파일 시스템 |
| FSx for NetApp ONTAP | 엔터프라이즈 NAS |
| S3 Glacier | 장기 아카이브 |
DataSync vs Storage Gateway vs Transfer Family
비교 표
| 비교 항목 | DataSync | Storage Gateway | Transfer Family |
|---|---|---|---|
| 주요 용도 | 데이터 마이그레이션/복제 | 하이브리드 스토리지 접근 | SFTP/FTP 파일 전송 |
| 데이터 흐름 | 일회성 또는 예약 전송 | 지속적인 양방향 접근 | 파일 업로드/다운로드 |
| 로컬 캐시 | 없음 | 있음 (File Gateway) | 없음 |
| 프로토콜 | DataSync 자체 프로토콜 | NFS, SMB, iSCSI | SFTP, FTPS, FTP |
| EFS 지원 | ✅ 지원 | ❌ 미지원 | ❌ 미지원 |
| 에이전트 | VM 에이전트 필요 | 게이트웨이 VM 필요 | 불필요 (관리형) |
| 과금 방식 | 전송된 GB당 | 게이트웨이 시간 + 스토리지 | 프로토콜 + 데이터 전송 |
선택 가이드
데이터 전송 서비스 선택 흐름:
│
▼
온프레미스에서 AWS로 데이터 이전?
│
Yes → 마이그레이션 후 온프레미스 접근 필요?
│ │
│ Yes → [Storage Gateway]
│ │ (하이브리드 스토리지)
│ │
│ No → 데이터 양은?
│ │
│ ≤ 수 TB, 대역폭 충분
│ │
│ ▼
│ [DataSync]
│
No
│
▼
외부 파트너와 파일 교환?
│
Yes → [Transfer Family]
│ (SFTP/FTP)
│
No → 특수 요구사항에 따라 선택
시험 팁
시험 포인트:
- NFS → EFS 마이그레이션: Storage Gateway는 EFS 미지원, DataSync 사용
- 하이브리드 접근 + 로컬 캐시: Storage Gateway File Gateway
- 외부 파트너 SFTP: Transfer Family
주요 기능
1. 대역폭 제어
전송 속도 제한 설정:
├── 네트워크 대역폭 제한 (Mbps 단위)
│ └── 업무 시간에는 낮게, 야간에는 높게
├── 최대 10 Gbps 활용 가능
│ └── 단일 작업으로 네트워크 링크 전체 활용
└── Direct Connect 지원
└── 전용 네트워크로 안정적 전송
2. 증분 전송
증분 복제 (Incremental Transfer):
├── 변경된 데이터만 전송
│ └── 시간 및 비용 절감
├── 전체 데이터 전송 옵션도 제공
│ └── 초기 마이그레이션에 사용
└── 파일 메타데이터 보존
└── 소유권, 권한, 타임스탬프 유지
3. 데이터 무결성 검증
무결성 검증 옵션:
├── 전송 중 검증 (기본)
│ └── 실시간으로 체크섬 비교
├── 전송 후 검증
│ └── 완료 후 소스-대상 비교
└── 자동 재전송
└── 불일치 발견 시 자동 재전송
4. 스케줄링
전송 일정 설정:
├── 수동 실행
├── 시간별, 일별, 주별 예약
└── 크론(cron) 표현식 지원
요금 구조
전송 요금 (US East 기준)
| 모드 | GB당 요금 |
|---|---|
| Basic 모드 | $0.0125/GB |
| Enhanced 모드 | $0.015/GB |
비용 예시
50 TB 마이그레이션 (Basic 모드):
├── DataSync 전송 비용: 50,000 GB × $0.0125 = $625
├── S3 PUT 요청 (1억 개 객체 가정): ~$50
└── 총 예상 비용: ~$675
추가 비용 고려 사항
- S3 요청 비용 (PUT, GET, LIST)
- CloudWatch 로그 및 메트릭
- Direct Connect 사용 시 연결 비용
- 리전 간 전송 시 데이터 전송 요금
SAA-C03 시험 출제 포인트
자주 출제되는 시나리오
- ✅ NFS → EFS 마이그레이션: "온프레미스 NFS 서버 → Amazon EFS" → DataSync
- ✅ SMB → FSx 마이그레이션: "Windows 파일 서버 → FSx for Windows" → DataSync
- ✅ 대역폭 제어: "1 Gbps 공유 링크로 30 TB 전송" → DataSync (대역폭 제한 설정)
- ✅ Storage Gateway와 구분: "하이브리드 접근 필요" → Storage Gateway, "마이그레이션" → DataSync
- ✅ 데이터 무결성: "전송 중 데이터 손상 방지" → DataSync (내장 검증)
시험 문제 예시
시험 팁
시험 문제 예시 1: "대학 연구소에서 30 TB의 데이터를 온프레미스 Windows 파일 서버에서 Amazon FSx for Windows File Server로 마이그레이션하려고 합니다. 네트워크 대역폭은 1 Gbps로 공유되며, 5일 내에 완료해야 합니다. 가장 적절한 솔루션은?"
→ 정답: AWS DataSync (대역폭 제한 설정, SMB → FSx 지원)
시험 팁
시험 문제 예시 2: "회사가 온프레미스 NFS 서버의 200 GB 데이터를 Amazon EFS로 마이그레이션하려고 합니다. 기존 서비스 중단 없이 진행해야 합니다. 적절한 솔루션은?"
→ 정답: AWS DataSync (증분 동기화, 서비스 중단 없음, EFS 지원)
시험 팁
시험 문제 예시 3: "온프레미스 애플리케이션이 AWS로 마이그레이션 후에도 S3 데이터에 계속 접근해야 합니다. 로컬 캐싱으로 낮은 지연 시간이 필요합니다. 적절한 솔루션은?"
→ 정답: Storage Gateway File Gateway (하이브리드 접근, 로컬 캐시)
자주 묻는 질문 (FAQ)
Q: DataSync Agent는 어디에 설치하나요?
온프레미스 환경에 VM으로 배포합니다. VMware ESXi, Microsoft Hyper-V, Linux KVM을 지원합니다. AWS에서 AWS 스토리지 간 전송 시에는 에이전트가 필요 없습니다.
Q: DataSync와 aws s3 sync CLI의 차이점은?
DataSync는 최적화된 프로토콜로 최대 10배 빠르고, 자동 재시도, 대역폭 제어, 스케줄링을 제공합니다. CLI는 소량 데이터의 간단한 복사에 적합합니다.
Q: 전송 중 암호화는 어떻게 되나요?
모든 데이터는 TLS로 전송 중 암호화됩니다. S3, EFS, FSx의 저장 시 암호화와도 통합됩니다.
Q: 멀티클라우드 마이그레이션이 가능한가요?
가능합니다. Google Cloud Storage, Azure Blob Storage, Azure Files에서 AWS로 직접 전송을 지원합니다.
Q: DataSync는 파일 권한을 보존하나요?
네. 파일 메타데이터(소유권, 권한, 타임스탬프)를 보존합니다. POSIX 권한 및 Windows ACL을 지원합니다.