AWS 재해 복구 전략 (Disaster Recovery)
1. 재해 및 복구 개념
재해(Disaster)
- 기업의 서비스 중단, 재무 손실, 평판 훼손 등을 유발할 수 있는 예기치 않은 사건 또는 사고
복구 전략 유형
- 온프레미스 간 복구: 기존 데이터센터 간 복구, 비용 높음
- 하이브리드 DR: 온프레미스 -> AWS로 복제 및 복구
- 클라우드 간 DR: AWS 리전 간 복구 수행
2. RPO & RTO
RPO (Recovery Point Objective)
- 데이터를 마지막으로 복구 가능한 시점
- 데이터 손실을 허용할 수 있는 최대 시간
- 백업 주기와 관련 있음
RTO (Recovery Time Objective)
- 서비스 복구까지 걸리는 최대 허용 시간
- 시스템 복구 속도와 연관됨
3. DR 전략별 구성 방식
백업 및 복구 방식
- 비용이 가장 낮고 RTO가 가장 큼
- 온프레미스: Snowball, Storage Gateway, 백업 파일 S3 업로드
- 클라우드: EBS/RDS/Redshift 스냅샷 주기적 수행
- 재해 시 수동 복원 필요
파일럿 라이트 방식
- 핵심 시스템만 AWS에 항상 운영
- 평소에 최소 리소스 유지, 재해 시 빠르게 나머지 리소스를 배포
- 예시: RDS는 미리 복제해 두고, EC2는 재해 시 생성
웜 대기 방식
- 전체 시스템을 축소 상태로 상시 실행
- 재해 시 확장해 프로덕션 규모로 작동
- 예시: EC2+RDS를 소형 인스턴스로 가동하다가, 트래픽 전환 후 확장
핫 사이트 / 다중 사이트
- 모든 리소스를 이중화하고 항상 작동
- RTO/RPO가 매우 짧고, 비용이 높음
- 클라우드와 온프레미스 혹은 다중 리전에서 동시에 운영
리전 간 복구
- AWS 내 리전 간 복제 및 페일오버 구성
- Aurora Global, Cross-Region Replication, Route53 트래픽 전환 등 사용
4. 복구 자동화 및 구성요소
자동화 도구
- CloudFormation, Beanstalk, Lambda, CodePipeline 등으로 인프라 재배포 자동화
DNS 전환
- Route53을 통해 다중 리전에 걸쳐 트래픽 분산 또는 장애 시 자동 전환
백업 저장소
- S3, Glacier, Backup Vault 활용
- 수명주기 정책, 버저닝, WORM 정책으로 보호 가능
카오스 엔지니어링
- Netflix의 Chaos Monkey처럼 무작위로 리소스를 중단시켜 복원력을 실험
5. 데이터베이스 마이그레이션 (DMS)
DMS 개요
- DB 간 마이그레이션을 안전하고 지속적으로 수행
- 동종/이종 간 마이그레이션 가능 (예: Oracle -> Aurora)
- 소스 DB는 가동 중 상태 유지 가능
- CDC(Change Data Capture)로 지속적 복제 가능
Schema Conversion Tool (SCT)
- 엔진이 다를 경우 스키마 변환 도구 사용
- 예: Oracle -> PostgreSQL
DMS 복제 아키텍처
- EC2에서 DMS 복제 인스턴스 실행
- 소스 -> EC2 -> 타겟으로 지속 전송
- 멀티 AZ 구성으로 복원력 강화
6. RDS/Aurora 마이그레이션 방법
RDS MySQL -> Aurora MySQL
- 스냅샷 복원 (다운타임 발생)
- 읽기 복제본 생성 후 승격 (지연 0일 때 절체)
외부 MySQL -> Aurora
- Percona XtraBackup → S3 → Aurora
- mysqldump → Aurora
- DMS로 지속 복제 가능
7. 온프레미스 마이그레이션 전략
Discovery Service
- Agentless: 성능 정보 위주 수집
- Agent-based: 프로세스, 네트워크 등 종속성 포함한 세부 정보 수집
Application Migration Service (MGN)
- 온프레미스 서버 → AWS로 리호스팅 (Lift & Shift)
- 저렴한 사양 EC2로 지속 복제하다가 컷오버 시 프로덕션 사양으로 전환
Server Migration Service (SMS)
- 라이브 서버 전체를 AWS로 복제
- 증분 복제 가능
8. 대용량 전송 방식
Site-to-Site VPN
- 빠르게 구축 가능하나 대역폭 제한
Direct Connect (DX)
- 높은 대역폭, 짧은 복구 시간
- 구축까지 리드 타임 필요 (수 주)
Snowball
- 대용량 오프라인 데이터 전송
- 병렬 장비 주문으로 효율성 확보
9. VMware Cloud on AWS
활용 시나리오
- 기존 VMware 환경을 유지하며 AWS 확장
- 재해 복구, 하이브리드 클라우드, 컴퓨팅 자원 확장 목적
지원 서비스
- vSphere, NSX, vSAN 등 기존 VMware 스택과 통합
- AWS 리전 내에서 VMware 워크로드 실행
장점
- 기존 데이터센터 운영 방식을 그대로 유지 가능
- AWS 자원과 통합하여 이점 극대화
'Certificate > AWS SAA-C03' 카테고리의 다른 글
[AWS-SAA] 21. 기타 서비스 요약 (0) | 2025.03.29 |
---|---|
[AWS-SAA] 19. 네트워킹, VPC 요약 (0) | 2025.03.29 |
[AWS-SAA] 18. 보안 및 암호화, KMS, SSM 요약 (0) | 2025.03.29 |
[AWS-SAA] 17. Organizations, IAM 고급 요약 (0) | 2025.03.29 |
[AWS-SAA] 16. 모니터링 및 감사 요약 (0) | 2025.03.29 |