실시간 스트림
샤드 기반 수집. 1일~1년 보존. 다수 컨슈머 동시 재소비. 샤드 분할·병합으로 확장.
스트림 적재
서버리스. S3/Redshift/OpenSearch/Splunk로 자동 전달. 버퍼·변환·포맷 변환 내장.
실시간 분석
Flink(Managed Flink) 또는 SQL 기반. 윈도우 집계·조인·실시간 감지.
관리형 Kafka
업스트림 Kafka 호환. MSK Connect·Serverless·Replicator(리전 간) 지원.
DB 마이그레이션
동종/이종 DB 복제 + CDC. 타겟: RDS·Aurora·Redshift·Kinesis·S3·DocumentDB·Neptune.
스키마 변환
Oracle→PostgreSQL, SQL Server→Aurora 등 이종 DB 스키마 자동 변환.
파일 시스템 동기화
NFS/SMB/HDFS/S3/EFS/FSx 간 온라인 전송. 암호화·검증·스케줄.
SaaS 통합
Salesforce·SAP·Slack·Zendesk 등 SaaS → S3/Redshift/Snowflake 자동 전송.
SFTP/FTPS/FTP/AS2
기존 SFTP 워크플로를 S3 뒤에 노출. 레거시 파트너 연동.
오프라인 전송
Snowcone(8TB)·Snowball Edge(80TB)·Snowmobile(100PB). 네트워크 불가 시.
객체 스토리지 (데이터 레이크)
무제한·11-9 내구성. 파티션 구조·스토리지 클래스·Event·Lifecycle로 최적화.
자동 계층화
접근 패턴 학습해 자동 이동. 예측 불가 워크로드에 최적.
수명주기 정책
객체 자동 전환·만료. Standard → IA → Glacier → Deep Archive.
객체 이벤트
생성·삭제 시 Lambda/SQS/SNS/EventBridge 트리거. 실시간 파이프라인.
사용 분석
계정·버킷 수준 스토리지 사용 패턴·비용 인사이트.
WORM 보호
Write Once Read Many. Governance(해제 가능)/Compliance(해제 불가).
버킷 멀티 뷰
버킷에 여러 액세스 포인트. 애플리케이션별 정책 분리.
객체 목록 보고서
CSV/Parquet 객체 목록을 지정 버킷에 생성. Athena 쿼리 가능.
공유 NFS
여러 EC2·Lambda·컨테이너 동시 마운트. Lifecycle로 IA 계층 이동.
HPC 파일
S3 연동 병렬 파일 시스템. 대규모 ML/HPC 워크로드.
서버리스 ETL
Spark 기반. Job·Crawler·Catalog·Studio·DataBrew·Data Quality 통합.
스키마 자동 추론
S3/RDS/DynamoDB 등 스캔해 Catalog 테이블 생성·업데이트.
중앙 메타데이터
Hive metastore 호환. Athena·Redshift·EMR·Spark 공통 카탈로그.
노코드 데이터 정제
250+ 내장 변환·프로파일링. 비개발자용 UI.
선언적 품질 규칙
DQDL로 Completeness·Uniqueness·Referential 등 검증.
스트리밍 ETL
Kinesis/MSK → Spark Structured Streaming. 연속 변환.
증분 처리
이전 실행 이후 신규 데이터만 처리. 중복 방지.
스키마 관리
Avro/JSON/Protobuf 스키마 버전·진화. Kafka·Kinesis 통합.
관리형 Hadoop/Spark
Spark/Hive/HBase/Presto 클러스터. EMR Serverless·EMR on EKS 옵션.
서버리스 Spark/Hive
클러스터 관리 없이 Spark/Hive 실행. 초 단위 과금.
EKS 기반 EMR
Kubernetes에서 Spark 실행. 컨테이너 워크로드와 통합.
이벤트 기반 경량 처리
15분·10GB 제약. 단일 객체 변환·알림·연결 용도.
S3 서버리스 SQL
Presto/Trino 엔진. 스캔 TB당 과금. Glue Catalog 통합. CTAS·Federated Query.
쿼리 격리
팀별 쿼리 한도·결과 위치·CMK 관리.
외부 소스 쿼리
Lambda Connector로 RDS·Redshift·DynamoDB 등 직접 쿼리.
데이터 웨어하우스
열 기반 MPP. Dist/Sort Key·WLM·Concurrency Scaling. Serverless 옵션.
서버리스 DW
RPU 기반 자동 스케일링. 사용한 만큼만 과금.
S3 외부 테이블
Redshift에서 S3 직접 쿼리. DW + 데이터 레이크 조인.
실시간 수집
Kinesis/MSK를 Materialized View로 직접 수집.
클러스터 간 공유
소유자·컨슈머 클러스터 간 라이브 데이터 공유. 복사 없음.
자동 복제
Aurora OLTP 데이터를 Redshift에 거의 실시간 복제. 별도 ETL 불필요.
검색·로그 분석
Elasticsearch fork. 로그·검색·벡터 DB·Dashboards.
BI 시각화
서버리스 BI. ML Insights·임베딩·Q 자연어 질의.
데이터 레이크 권한
Glue Catalog 위에 테이블/행/열 수준 권한·LF-Tags·감사.
태그 기반 권한
리소스·사용자에 태그. 태그 매칭으로 권한 자동 부여.
비즈니스 카탈로그·데이터 메시
Domain·Project·Glossary·Subscription. 셀프서비스 데이터 공유.
S3 PII/PHI 탐지
민감 데이터 자동 분류·알림. 관리형 센서티브 데이터 디스커버리.
키 관리
CMK·Envelope Encryption. S3/Glue/Redshift 전반 통합.
접근 제어
User/Group/Role/Policy. 데이터 레이크에서는 Lake Formation과 병행.
API 감사
모든 AWS API 호출 기록. S3 Data Events로 객체 수준 감사 가능.
리소스 구성 추적
리소스 변경 이력·컴플라이언스 평가. Conformance Pack 멀티 계정.
워크플로
Standard(최대 1년)·Express(고빈도). 상태 기반. Map·Distributed Map 병렬.
관리형 Airflow
Managed Workflows for Apache Airflow. DAG 기반 Python 오케스트레이션.
이벤트 버스
SaaS·AWS·커스텀 이벤트 라우팅. Scheduler·Schema Registry 포함.
스케줄러
cron·rate·one-time 스케줄. CloudWatch Events 대체.
Glue 워크플로
Crawler·Job·Trigger를 하나의 워크플로로 묶음.
열 기반 포맷
압축·쿼리 효율 최고. Athena/Redshift 표준. Snappy·gzip·LZO 지원.
열 기반 포맷
Hive 최적화. ACID 지원. Bloom filter·Stripe 구조.
행 기반 포맷
강력한 스키마 진화. Kafka·Kinesis 이벤트 표준.
ACID 테이블 포맷
Time Travel·MERGE·Schema Evolution·Partition Evolution. Athena/Glue/EMR 지원.
Upsert 테이블 포맷
효율적 Upsert·Delete·Incremental Pull. EMR·Glue 지원.
Databricks 테이블 포맷
ACID·Time Travel·Optimize·Z-Order. EMR·Glue 호환.
디렉터리 파티션
year=2025/month=04/day=21 구조. Athena·Glue 자동 인식.
NoSQL
서버리스 KV/Document. Streams로 변경 이벤트 · Global Tables 멀티 리전.
변경 스트림
삽입·수정·삭제 이벤트 24h 보존. Lambda 트리거 용.
자동 만료
epoch 타임스탬프 속성 지정 → 자동 삭제 (무료).
AWS 네이티브 RDB
MySQL/PostgreSQL 호환. Serverless v2·Global DB·zero-ETL to Redshift.
시크릿 관리
DB 자격증명·API 키 자동 회전. RDS/Redshift 내장 템플릿.
구성 경량
Standard 무료. SecureString + KMS. 간단 구성 값.
모니터링·로그
Metrics·Logs·Alarm·Logs Insights. Kinesis/Glue/Redshift 지표.
분산 추적
Lambda·ECS·Glue 호출 흐름 시각화.
IaC
YAML/JSON 템플릿. StackSet으로 멀티 계정 배포.
프로그래밍 IaC
TypeScript/Python 등 언어로 CloudFormation 생성.