SAABlog
스토리지중급

AWS DataSync: 온프레미스 데이터를 AWS로 빠르게 마이그레이션하는 방법

DataSync로 NFS, SMB 스토리지를 S3, EFS, FSx로 마이그레이션. Storage Gateway, Transfer Family와의 차이점, SAA-C03 시험 포인트 정리.

PHILOLAMB-
DataSync데이터 마이그레이션스토리지하이브리드 클라우드NFS

관련 시험 도메인

  • Domain 2: Design Resilient Architectures
  • Domain 3: Design High-Performing Architectures

핵심 요약

AWS DataSync는 온프레미스 스토리지와 AWS 스토리지 서비스 간 데이터 전송을 자동화하고 가속화하는 서비스입니다. 오픈소스 도구보다 최대 10배 빠른 속도로 데이터를 마이그레이션하며, 내장된 암호화와 데이터 무결성 검증을 제공합니다.

시험 팁

시험 핵심: "온프레미스 → AWS 대용량 데이터 마이그레이션" → DataSync, "하이브리드 스토리지 지속 접근" → Storage Gateway, "SFTP/FTP 파일 전송" → Transfer Family


DataSync는 언제 사용해야 할까?

적합한 경우

DataSync 권장 시나리오:
├── 대규모 데이터 마이그레이션
│   └── 온프레미스 NFS/SMB → S3, EFS, FSx 이전
├── 정기적인 데이터 동기화
│   └── 매시간/매일/매주 증분 복제
├── 멀티클라우드 데이터 전송
│   └── Google Cloud, Azure → AWS 마이그레이션
├── 콜드 데이터 아카이빙
│   └── 온프레미스 → S3 Glacier 이전
└── AWS 스토리지 간 전송
    └── S3 → EFS, EFS → FSx 간 복제

부적합한 경우

DataSync가 적합하지 않은 시나리오:
├── 실시간 하이브리드 스토리지 접근
│   → Storage Gateway (File/Volume Gateway)
├── 외부 파트너와 SFTP/FTP 파일 교환
│   → Transfer Family
├── 페타바이트급 오프라인 전송
│   → Snow Family (Snowball, Snowcone)
└── 단순 일회성 소량 데이터 복사
    → AWS CLI (aws s3 cp)

DataSync 아키텍처

작동 방식

┌─────────────────────────────────────────────────────────────┐
│                  AWS DataSync 아키텍처                       │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   [온프레미스]                         [AWS Cloud]           │
│                                                              │
│   ┌─────────────┐                  ┌─────────────┐          │
│   │ NFS/SMB     │                  │   Amazon    │          │
│   │ 파일 서버   │                  │     S3      │          │
│   └──────┬──────┘                  └─────────────┘          │
│          │                                 ▲                 │
│          ▼                                 │                 │
│   ┌─────────────┐     TLS 암호화     ┌────┴────┐            │
│   │  DataSync   │ ═══════════════════│ DataSync │            │
│   │   Agent     │    인터넷/DX       │ Service  │            │
│   │   (VM)      │                    │          │            │
│   └─────────────┘                    └────┬────┘            │
│                                           │                  │
│                                    ┌──────┴──────┐          │
│                                    │             │          │
│                               ┌────┴───┐   ┌────┴───┐      │
│                               │  EFS   │   │  FSx   │      │
│                               └────────┘   └────────┘      │
│                                                              │
└─────────────────────────────────────────────────────────────┘

핵심 구성 요소

구성 요소설명
DataSync Agent온프레미스에 설치하는 VM (VMware, Hyper-V, KVM)
소스 위치NFS, SMB, HDFS, 객체 스토리지, Azure 등
대상 위치S3, EFS, FSx (Windows, Lustre, OpenZFS, ONTAP)
작업 (Task)소스→대상 전송 설정 및 스케줄
작업 실행실제 데이터 전송 인스턴스

지원 스토리지

소스 (온프레미스/다른 클라우드)

지원 소스 스토리지:
├── 파일 시스템
│   ├── NFS (Network File System)
│   ├── SMB (Server Message Block)
│   └── HDFS (Hadoop Distributed File System)
├── 객체 스토리지
│   ├── 자체 관리형 객체 스토리지
│   └── S3 호환 스토리지 (Wasabi 등)
├── 다른 클라우드
│   ├── Google Cloud Storage
│   ├── Azure Blob Storage
│   └── Azure Files
└── AWS 스토리지
    └── Amazon S3 (리전 간 복제)

대상 (AWS 스토리지)

AWS 서비스용도
Amazon S3객체 스토리지, 데이터 레이크
Amazon EFSLinux 파일 시스템 (NFS)
FSx for WindowsWindows 파일 서버
FSx for Lustre고성능 컴퓨팅 (HPC)
FSx for OpenZFSLinux 고성능 파일 시스템
FSx for NetApp ONTAP엔터프라이즈 NAS
S3 Glacier장기 아카이브

DataSync vs Storage Gateway vs Transfer Family

비교 표

비교 항목DataSyncStorage GatewayTransfer Family
주요 용도데이터 마이그레이션/복제하이브리드 스토리지 접근SFTP/FTP 파일 전송
데이터 흐름일회성 또는 예약 전송지속적인 양방향 접근파일 업로드/다운로드
로컬 캐시없음있음 (File Gateway)없음
프로토콜DataSync 자체 프로토콜NFS, SMB, iSCSISFTP, FTPS, FTP
EFS 지원✅ 지원❌ 미지원❌ 미지원
에이전트VM 에이전트 필요게이트웨이 VM 필요불필요 (관리형)
과금 방식전송된 GB당게이트웨이 시간 + 스토리지프로토콜 + 데이터 전송

선택 가이드

데이터 전송 서비스 선택 흐름:
        │
        ▼
온프레미스에서 AWS로 데이터 이전?
        │
       Yes → 마이그레이션 후 온프레미스 접근 필요?
        │           │
        │          Yes → [Storage Gateway]
        │           │      (하이브리드 스토리지)
        │           │
        │          No → 데이터 양은?
        │                   │
        │              ≤ 수 TB, 대역폭 충분
        │                   │
        │                   ▼
        │               [DataSync]
        │
       No
        │
        ▼
외부 파트너와 파일 교환?
        │
       Yes → [Transfer Family]
        │      (SFTP/FTP)
        │
       No → 특수 요구사항에 따라 선택

시험 팁

시험 포인트:

  • NFS → EFS 마이그레이션: Storage Gateway는 EFS 미지원, DataSync 사용
  • 하이브리드 접근 + 로컬 캐시: Storage Gateway File Gateway
  • 외부 파트너 SFTP: Transfer Family

주요 기능

1. 대역폭 제어

전송 속도 제한 설정:
├── 네트워크 대역폭 제한 (Mbps 단위)
│   └── 업무 시간에는 낮게, 야간에는 높게
├── 최대 10 Gbps 활용 가능
│   └── 단일 작업으로 네트워크 링크 전체 활용
└── Direct Connect 지원
    └── 전용 네트워크로 안정적 전송

2. 증분 전송

증분 복제 (Incremental Transfer):
├── 변경된 데이터만 전송
│   └── 시간 및 비용 절감
├── 전체 데이터 전송 옵션도 제공
│   └── 초기 마이그레이션에 사용
└── 파일 메타데이터 보존
    └── 소유권, 권한, 타임스탬프 유지

3. 데이터 무결성 검증

무결성 검증 옵션:
├── 전송 중 검증 (기본)
│   └── 실시간으로 체크섬 비교
├── 전송 후 검증
│   └── 완료 후 소스-대상 비교
└── 자동 재전송
    └── 불일치 발견 시 자동 재전송

4. 스케줄링

전송 일정 설정:
├── 수동 실행
├── 시간별, 일별, 주별 예약
└── 크론(cron) 표현식 지원

요금 구조

전송 요금 (US East 기준)

모드GB당 요금
Basic 모드$0.0125/GB
Enhanced 모드$0.015/GB

비용 예시

50 TB 마이그레이션 (Basic 모드):
├── DataSync 전송 비용: 50,000 GB × $0.0125 = $625
├── S3 PUT 요청 (1억 개 객체 가정): ~$50
└── 총 예상 비용: ~$675

추가 비용 고려 사항

  • S3 요청 비용 (PUT, GET, LIST)
  • CloudWatch 로그 및 메트릭
  • Direct Connect 사용 시 연결 비용
  • 리전 간 전송 시 데이터 전송 요금

SAA-C03 시험 출제 포인트

자주 출제되는 시나리오

  1. NFS → EFS 마이그레이션: "온프레미스 NFS 서버 → Amazon EFS" → DataSync
  2. SMB → FSx 마이그레이션: "Windows 파일 서버 → FSx for Windows" → DataSync
  3. 대역폭 제어: "1 Gbps 공유 링크로 30 TB 전송" → DataSync (대역폭 제한 설정)
  4. Storage Gateway와 구분: "하이브리드 접근 필요" → Storage Gateway, "마이그레이션" → DataSync
  5. 데이터 무결성: "전송 중 데이터 손상 방지" → DataSync (내장 검증)

시험 문제 예시

시험 팁

시험 문제 예시 1: "대학 연구소에서 30 TB의 데이터를 온프레미스 Windows 파일 서버에서 Amazon FSx for Windows File Server로 마이그레이션하려고 합니다. 네트워크 대역폭은 1 Gbps로 공유되며, 5일 내에 완료해야 합니다. 가장 적절한 솔루션은?"

→ 정답: AWS DataSync (대역폭 제한 설정, SMB → FSx 지원)

시험 팁

시험 문제 예시 2: "회사가 온프레미스 NFS 서버의 200 GB 데이터를 Amazon EFS로 마이그레이션하려고 합니다. 기존 서비스 중단 없이 진행해야 합니다. 적절한 솔루션은?"

→ 정답: AWS DataSync (증분 동기화, 서비스 중단 없음, EFS 지원)

시험 팁

시험 문제 예시 3: "온프레미스 애플리케이션이 AWS로 마이그레이션 후에도 S3 데이터에 계속 접근해야 합니다. 로컬 캐싱으로 낮은 지연 시간이 필요합니다. 적절한 솔루션은?"

→ 정답: Storage Gateway File Gateway (하이브리드 접근, 로컬 캐시)


자주 묻는 질문 (FAQ)

Q: DataSync Agent는 어디에 설치하나요?

온프레미스 환경에 VM으로 배포합니다. VMware ESXi, Microsoft Hyper-V, Linux KVM을 지원합니다. AWS에서 AWS 스토리지 간 전송 시에는 에이전트가 필요 없습니다.

Q: DataSync와 aws s3 sync CLI의 차이점은?

DataSync는 최적화된 프로토콜로 최대 10배 빠르고, 자동 재시도, 대역폭 제어, 스케줄링을 제공합니다. CLI는 소량 데이터의 간단한 복사에 적합합니다.

Q: 전송 중 암호화는 어떻게 되나요?

모든 데이터는 TLS로 전송 중 암호화됩니다. S3, EFS, FSx의 저장 시 암호화와도 통합됩니다.

Q: 멀티클라우드 마이그레이션이 가능한가요?

가능합니다. Google Cloud Storage, Azure Blob Storage, Azure Files에서 AWS로 직접 전송을 지원합니다.

Q: DataSync는 파일 권한을 보존하나요?

네. 파일 메타데이터(소유권, 권한, 타임스탬프)를 보존합니다. POSIX 권한 및 Windows ACL을 지원합니다.


관련 글

참고 자료