본문 바로가기

Certificate/AWS SAA-C03

[AWS-SAA] 14. AWS Database, 데이터 및 분석 요약

1. 관계형 데이터베이스(RDBMS)

RDS

  • MySQL, PostgreSQL, MariaDB, Oracle, SQL Server 등 전통적인 관계형 DBMS 엔진을 지원
  • 인스턴스 기반으로 운영되며, EBS를 사용해 저장 용량을 제공
  • 고가용성은 Multi-AZ 배포로 확보하며, 읽기 전용 복제본으로 읽기 처리량 분산
  • IAM 인증, KMS 암호화, SSL 전송 암호화 지원
  • 자동 백업, 스냅샷, PITR 지원
  • 애플리케이션에서 SQL 사용 필요 시, OLTP 트랜잭션 처리에 적합

Aurora

  • MySQL, PostgreSQL과 호환되며 RDS보다 3~5배 성능 우수
  • 스토리지와 컴퓨팅이 분리된 구조, 다중 AZ에 분산 저장
  • 자동 복구, 오토스케일링, 리더/라이터 엔드포인트 지원
  • Aurora Serverless: 예측 불가능하거나 간헐적인 워크로드에 적합
  • Aurora Global: 글로벌 단위의 고가용성 지원
  • Aurora ML: DB 내에서 ML 예측 가능 (SageMaker, Comprehend 연계)

2. 비관계형 데이터베이스(NoSQL)

DynamoDB

  • 완전관리형, 서버리스, 고성능의 key-value 및 문서형 NoSQL DB
  • 온디맨드/프로비저닝 용량 모드 제공
  • TTL, 스트림, 글로벌 테이블, 트랜잭션, DAX(읽기 캐시) 기능 포함
  • PITR 백업과 S3 Export로 복구 및 분석 가능
  • API 호출 위주의 서버리스 애플리케이션에 적합

ElastiCache

  • Redis / Memcached 지원하는 인메모리 캐시 DB
  • 1ms 미만 지연, RDS 또는 DDB 앞단에 캐시로 활용 가능
  • 세션 상태 유지, 자주 접근되는 데이터에 적합
  • Redis Auth, KMS, IAM, 다중 AZ, 샤딩, 스냅샷 지원

DocumentDB

  • MongoDB 호환 문서형 DB
  • JSON 문서 저장/조회에 최적화
  • 자동 확장, 복제, 스냅샷, 고가용성 포함
  • MongoDB를 AWS로 마이그레이션할 때 유리함

Neptune

  • 완전관리형 그래프 DB (Gremlin, SPARQL 지원)
  • 관계형 데이터보다 연결 중심의 쿼리에 유리
  • 사회망, 추천 시스템, 지식그래프 등에 활용
  • Neptune Streams로 변경 이벤트 처리 가능

Keyspaces

  • Apache Cassandra 호환 NoSQL DB
  • 서버리스, CQL 기반 쿼리 지원, 멀티AZ 고가용성
  • 대규모 IoT, 시계열, 로그 수집에 적합

QLDB (Quantum Ledger DB)

  • 원장형(immutable) DB
  • 변경 불가능한 트랜잭션 기록 제공, SHA256 체인 연결
  • 회계, 공급망, 거래 기록 등 불변성이 요구되는 경우 사용
  • 중앙 집중식 방식이며 SQL 지원

Timestream

  • 시계열 데이터 저장 및 분석 전용 DB
  • 메모리/디스크 계층 분리, SQL 기반 쿼리
  • IoT 센서 데이터, 운영 모니터링, 이벤트 추적 등에 적합

3. 객체 저장소

S3 / Glacier

  • 비정형 데이터, 정적 자산 저장에 최적화
  • 저장 계층에 따른 비용 최적화 전략 가능 (Standard, IA, Glacier 등)
  • 버저닝, 암호화, 이벤트 트리거, 수명주기 정책 지원
  • Athena, Glue, Redshift Spectrum과 함께 분석 연계

4. 분석 데이터베이스

Redshift

  • 컬럼 기반의 OLAP 데이터 웨어하우스
  • PB급 데이터 분석, 다중 노드 클러스터 구성
  • 고속 쿼리 처리 및 BI 도구 연계
  • Spectrum을 사용하면 S3에 저장된 데이터를 쿼리 가능
  • 스냅샷, 백업, 리전 복제, 데이터 압축 지원

Athena

  • 서버리스 SQL 엔진, S3의 파일 기반 데이터를 쿼리
  • Presto 엔진 기반, JSON, CSV, Parquet, ORC 지원
  • Glue 데이터 카탈로그로 스키마 정보 관리
  • 파티셔닝, 압축, 열 기반 포맷으로 비용 최적화 가능

OpenSearch

  • 자유 텍스트 기반 검색 및 분석에 특화된 엔진
  • 실시간 인덱싱, Kibana(OpenSearch Dashboard) 시각화
  • 로그 분석, 메트릭 수집, 사용자 행동 분석 등에 적합
  • 서버리스 모드와 관리형 클러스터 모드 모두 제공

5. 빅데이터 / 스트리밍 / ETL

EMR (Elastic MapReduce)

  • Hadoop, Spark 등 빅데이터 프레임워크 기반 분석 플랫폼
  • 수백 대 EC2로 클러스터 구성 가능
  • 온디맨드/예약/스팟 인스턴스 활용 가능
  • 데이터 처리, 웹 인덱싱, ML 처리 등 대규모 데이터 워크로드에 적합

Glue

  • 서버리스 ETL 서비스
  • Glue Data Catalog, 크롤러, Job, Studio, DataBrew 기능
  • Glue Streaming은 Kinesis, Kafka 등에서 실시간 처리 가능
  • 다양한 포맷 변환(Parquet, JSON 등), Athena/Redshift와 연동

Lake Formation

  • 데이터 레이크 생성 및 권한 제어 통합
  • 행/열 수준의 접근 제어, Glue 기반 구성
  • S3, RDS, DDB 등 다양한 소스로 데이터 수집 및 카탈로그화

6. 스트리밍 및 실시간 처리

Kinesis (Data Streams, Firehose, Analytics)

  • 실시간 데이터 스트림 수집, 변환, 전송, 분석
  • Firehose는 S3, Redshift, OpenSearch 등에 전달
  • Analytics는 SQL/Flink 기반의 실시간 분석 지원
  • 수백 TPS 이상의 고속 스트리밍 워크로드에 적합

MSK (Managed Streaming for Apache Kafka)

  • Apache Kafka 기반의 완전관리형 스트리밍 플랫폼
  • 고가용성, 멀티 AZ 구성, 서버리스 모드도 제공
  • 기존 Kafka 기반 애플리케이션의 마이그레이션에 유리

7. 시각화 및 BI 분석

QuickSight

  • 서버리스 BI 도구, SPICE 인메모리 엔진 지원
  • 대시보드, 분석 공유, 세션 기반 과금
  • 다양한 데이터 소스와 연동 가능 (S3, RDS, Redshift 등)
  • 열 수준 보안, 매개변수, 필터링, 사용자 그룹 기반 분석 제공

요약 및 선택 기준

  • OLTP/정형 데이터: RDS / Aurora
  • 비정형 문서/NoSQL: DynamoDB, DocumentDB
  • 대규모 키-값 캐시: ElastiCache (Redis/Memcached)
  • 시계열 데이터: Timestream
  • 불변 장부/추적: QLDB
  • 관계 분석: Neptune
  • 실시간 로그/검색: OpenSearch
  • 대규모 배치/ML 분석: EMR
  • 대규모 데이터웨어하우스: Redshift
  • 즉석 SQL 분석: Athena
  • ETL 자동화/데이터 레이크: Glue, Lake Formation
  • 실시간 스트리밍: Kinesis / MSK
  • 시각화 및 리포팅: QuickSight

필요 시 각 서비스 조합으로 아키텍처를 설계하면, 데이터 수집 → 저장 → 처리 → 분석 → 시각화까지 완전한 파이프라인 구성이 가능함.