MLA-C01

공부하기

용어 정리·헷갈리는 포인트·공부 자료는 로그인이나 구매 없이 볼 수 있습니다.

SageMaker 핵심5

Amazon SageMaker

AWS 관리형 ML 플랫폼

ML 수명주기 전반(데이터 준비 → 학습 → 튜닝 → 배포 → 모니터링)을 지원하는 통합 서비스. Studio UI, SDK, CLI 제공.

핵심

SageMaker Studio

웹 IDE

Jupyter 기반 통합 ML IDE. 코드·노트북·실험·모델·배포를 단일 화면에서 관리.

SageMaker Canvas

노코드 ML

비즈니스 분석가를 위한 드래그앤드롭 모델링 도구. 코드 없이 분류·회귀·예측·이미지 모델 생성.

노코드

SageMaker JumpStart

사전 학습 모델 카탈로그

FM·사전 학습 모델·솔루션 템플릿 원클릭 배포. Hugging Face·Stable Diffusion·Llama·Falcon 등 포함.

템플릿

SageMaker Autopilot

AutoML

CSV 지정만으로 자동 전처리·알고리즘 선택·튜닝. 분류·회귀·시계열 지원.

AutoML

데이터 준비8

SageMaker Data Wrangler

비주얼 피처 엔지니어링

Studio 내 300+ 내장 변환을 비주얼 UI로 적용. Feature Store/Pipelines로 내보내기 가능.

전처리

SageMaker Feature Store

온라인+오프라인 피처 저장소

학습용 오프라인(S3) + 추론용 온라인(저지연) 스토어. 학습-추론 피처 일관성 보장.

피처

SageMaker Ground Truth

데이터 라벨링

사람(Mechanical Turk/내부/벤더) + Auto-labeling 혼합 라벨링 서비스. 텍스트·이미지·3D·비디오 지원.

라벨링

AWS Glue

서버리스 ETL

Spark 기반 서버리스 ETL + Data Catalog. 스케줄·크롤러·Studio UI 포함.

ETL

AWS Glue DataBrew

노코드 데이터 전처리

250+ 내장 변환, 노코드 UI로 데이터 정제·결측값 처리·타입 변환.

노코드

Amazon EMR

관리형 Spark/Hadoop

Hadoop·Spark·Hive·Presto·HBase 클러스터. 초대규모 빅데이터 처리.

빅데이터

Amazon Athena

S3 서버리스 SQL

S3 위에 Presto 기반 SQL. 스키마 온 리드, 쿼리당 과금.

SQL

AWS Lake Formation

데이터 레이크 거버넌스

세분화된 테이블·행·열 수준 권한, 감사, 중앙 Glue Catalog 기반 통합 관리.

거버넌스

학습·튜닝10

SageMaker Training Job

학습 작업

인스턴스 프로비저닝 → 컨테이너 실행 → S3 아티팩트 저장. Built-in / Script / BYOC 모드.

학습

Built-in Algorithm

기본 내장 알고리즘

XGBoost, Linear Learner, BlazingText, DeepAR, RCF 등. 코드 없이 하이퍼파라미터만 지정.

알고리즘

Script Mode

프레임워크 커스텀 스크립트

TensorFlow/PyTorch/Sklearn 컨테이너에 entry_point 스크립트 주입하여 학습.

프레임워크

BYOC

커스텀 컨테이너

Dockerfile로 자체 이미지 빌드 후 ECR 푸시. 완전 커스텀 런타임.

컨테이너

Automatic Model Tuning (HPO)

하이퍼파라미터 최적화

Bayesian(권장) · Random · Grid · Hyperband 전략. 목표 메트릭으로 최적 조합 탐색.

HPO

Managed Spot Training

Spot 학습

최대 90% 할인. 체크포인트 S3 저장 활성화 필요. 중단 허용 워크로드용.

비용

Managed Warm Pools

학습 인스턴스 재사용

학습 작업 완료 후 인스턴스 유지로 연속 작업 시 프로비저닝 시간 단축.

성능

SageMaker Distributed Training

분산 학습

SMDDP(데이터 병렬) + SMP(모델 병렬). 대규모 모델·데이터 가속.

분산

SageMaker Training Compiler

학습 컴파일 최적화

학습 코드를 하드웨어 최적화 IR로 자동 컴파일. GPU 활용률 향상.

최적화

SageMaker Debugger / Profiler

학습 디버그

학습 중 텐서 캡처, 그래디언트 소실·폭발 자동 규칙 탐지, 시스템 자원 프로파일링.

디버그

모델 관리5

SageMaker Model Registry

모델 중앙 레지스트리

Model Group 아래 Model Package(버전) 관리. 승인/거부 워크플로, 배포 추적.

핵심

Model Group

모델 버전 묶음

동일 목적 모델의 버전 모음. 새 Model Package 추가 시 버전 1,2,3… 자동 증가.

버전

SageMaker Pipelines

ML 전용 CI/CD

데이터 처리 → 학습 → 평가 → 등록 → 배포를 DAG로 선언. condition step 지원.

CI/CD

ML Lineage Tracking

계보 추적

학습 작업·데이터셋·모델 간의 계보 자동 기록. 감사·재현성 용도.

감사

SageMaker Experiments

실험 추적

학습 실험·trial·하이퍼파라미터·메트릭 비교. 노트북·SDK 연동.

실험

배포9

Real-time Endpoint

실시간 엔드포인트

상시 가동 추론. ms 단위 지연. 인스턴스 시간 과금.

실시간

Serverless Inference

서버리스 추론

요청 시에만 스케일 업. cold start 존재. 트래픽 0일 때 비용 0.

서버리스

Async Inference

비동기 추론

큐 기반. 큰 페이로드·긴 처리 시간 지원. S3 입출력.

비동기

Batch Transform

배치 추론

엔드포인트 없이 S3 → S3 일괄 추론. 오프라인 스코어링.

배치

Multi-Model Endpoint (MME)

멀티 모델 엔드포인트

하나의 컨테이너에 여러 모델 동적 로드. 사용 빈도 낮은 모델 저비용.

비용

Production Variants

트래픽 분기

엔드포인트 내 여러 모델 변형에 가중치로 트래픽 분산. A/B·Canary 배포.

A/B

Shadow Variant

Shadow 테스트

실트래픽의 복사본을 신규 모델에 보내 실제 사용자 영향 없이 비교.

테스트

Inference Recommender

인스턴스 추천

모델·워크로드 특성 기반 최적 인스턴스 타입·크기 자동 추천.

최적화

SageMaker Neo

하드웨어 최적화 컴파일

모델을 특정 GPU/CPU/엣지 디바이스용으로 최적화 컴파일. 추론 속도 가속.

엣지

모니터링·설명6

SageMaker Model Monitor

드리프트 감지

데이터 품질·모델 품질·편향(bias)·설명 가능성 4가지 드리프트 자동 탐지.

드리프트

SageMaker Clarify

편향·설명 가능성

학습 전·후·배포 후 편향 탐지 + SHAP 기반 해석. Model Monitor와 연동.

Bias

SHAP (Shapley Values)

피처 기여도

게임이론 기반으로 각 피처가 예측에 기여한 정도를 로컬·글로벌로 정량화.

해석

PDP (Partial Dependence Plot)

피처 영향 시각화

특정 피처 값 변화에 따른 예측의 평균적 변화를 그래프화. 글로벌 해석.

시각화

LIME

로컬 선형 근사 해석

개별 예측 주변을 단순 선형 모델로 근사. 한 건 단위 설명에 적합.

해석

CloudWatch Metrics

엔드포인트 지표

Invocations, Latency, ModelLatency, 4XX/5XX, CPU/Memory 사용률 모니터링.

모니터링

ML 기초10

Supervised Learning

지도 학습

(입력, 라벨) 쌍으로 학습. 분류·회귀 대표. F1/Precision/Recall/RMSE 등으로 평가.

기본

Unsupervised Learning

비지도 학습

라벨 없음. 클러스터링(K-Means), 이상 탐지(RCF), 차원 축소(PCA).

기본

Reinforcement Learning

강화 학습

에이전트가 환경과 상호작용하며 보상 최대화. RL Coach, Ray RLlib 지원.

Overfitting

과적합

학습 데이터엔 맞지만 일반화 실패. 해결: 정규화(L1/L2), Dropout, 더 많은 데이터, Early Stopping.

진단

Underfitting

과소적합

모델이 너무 단순해 학습/검증 모두 성능 낮음. 해결: 복잡도·피처 추가.

진단

Regularization (L1/L2)

정규화

L1=Lasso(희소해, 피처 선택) · L2=Ridge(가중치 축소). 과적합 방지.

정규화

Dropout

드롭아웃

학습 중 뉴런 일부 무작위 비활성화로 과적합 방지. 추론 시 전체 사용.

딥러닝

Batch Normalization

배치 정규화

미니배치 단위로 정규화 → 학습 안정·가속·내부 covariate shift 감소.

딥러닝

Learning Rate

학습률

가중치 업데이트 크기. 너무 크면 발산, 작으면 수렴 느림. 스케줄링 권장.

하이퍼파라미터

Early Stopping

조기 종료

검증 손실이 개선되지 않으면 학습 중단. 과적합 방지의 기본 장치.

정규화

평가 지표6

Confusion Matrix

혼동 행렬

TP/FP/FN/TN 표. 분류 모델 성능 분석의 출발점.

분류

Precision · Recall · F1

분류 지표

Precision=TP/(TP+FP) · Recall=TP/(TP+FN) · F1=조화평균. 불균형에 민감.

분류

AUC-ROC

ROC 곡선 아래 면적

임계값 변화에 따른 TPR vs FPR. 1에 가까울수록 좋음. 확률 출력 모델 평가.

분류

RMSE · MAE

회귀 오차

RMSE는 큰 오차에 민감, MAE는 이상치에 둔감. 목적에 맞게 선택.

회귀

R² (결정계수)

설명력

1에 가까울수록 좋음. 음수면 평균 예측보다 나쁨.

회귀

Silhouette Score

클러스터링 평가

-1~1. 1에 가까울수록 잘 분리된 클러스터.

클러스터링

피처 엔지니어링7

One-hot Encoding

원핫 인코딩

범주형 → 0/1 벡터. 카테고리 많으면 차원 폭발 주의.

범주형

Label Encoding

라벨 인코딩

범주형 → 정수. 순서형(ordinal) 데이터에만 권장.

범주형

Target Encoding

타깃 인코딩

범주를 타깃 평균으로 대체. data leakage 주의, train 세트에서만 계산.

고급

Embedding

임베딩

고차원 범주/텍스트를 저차원 벡터로. Word2Vec, BERT 등. 의미 보존.

딥러닝

Standardization · Normalization

스케일링

Standard=평균 0·표준편차 1 · Min-Max=0~1 범위. 분리 후 train 통계로만.

전처리

SMOTE

소수 클래스 오버샘플링

Synthetic Minority Oversampling. 합성 샘플 생성으로 불균형 해소.

불균형

Class Weights

클래스 가중치

손실 함수에 클래스별 가중치 부여. 불균형 대응, 데이터 증강 없이도 적용.

불균형

내장 알고리즘10

XGBoost

Gradient Boosting

대표 부스팅 트리. 정형 데이터에 강함. SageMaker Built-in 포함.

분류·회귀

Linear Learner

선형 모델

선형 회귀/분류 Built-in. L1/L2 정규화 지원.

분류·회귀

BlazingText

Word2Vec/텍스트 분류

FastText 기반 텍스트 분류·Word2Vec 임베딩 학습.

텍스트

DeepAR

시계열 예측

RNN 기반 확률적 시계열 예측. 다중 시계열 동시 학습.

시계열

Object2Vec

범용 임베딩

두 객체 간 유사도를 학습한 임베딩 생성 Built-in.

임베딩

IP Insights

IP-엔티티 연관성

IP와 엔티티(사용자/계정) 쌍의 비정상 패턴 탐지. 사기 탐지용.

이상탐지

Random Cut Forest (RCF)

이상 탐지

비지도 이상 탐지 알고리즘. 스트리밍 데이터에도 적용 가능.

이상탐지

K-Means

군집화

K개 클러스터 비지도 군집. 미리 K 지정 필요.

클러스터링

Seq2Seq

시퀀스 투 시퀀스

RNN encoder-decoder. 번역·요약 등 시퀀스 변환 태스크.

딥러닝

Image Classification / Object Detection / Semantic Segmentation

비전 Built-in

ResNet·SSD 기반 이미지 분류·객체 탐지·픽셀 단위 분할 Built-in.

비전

보안·인프라8

VPC Interface/Gateway Endpoint

프라이빗 액세스

SageMaker·S3 등을 프라이빗 네트워크에서 직접 접근. 인터넷 우회.

네트워크

IAM Role for SageMaker

최소 권한 원칙

학습·배포 작업별 권한 부여. 최소 권한(least privilege) 원칙.

IAM

AWS KMS

키 관리 서비스

학습 데이터·모델 아티팩트·EBS 볼륨 암호화. SageMaker 전반 통합.

암호화

Network Isolation

네트워크 격리

학습 컨테이너를 외부 네트워크에서 차단. 높은 보안 요구 시.

보안

Amazon S3 + Intelligent-Tiering

데이터 저장소

ML 학습 데이터 저장소. Intelligent-Tiering은 접근 패턴 기반 자동 계층화.

스토리지

Amazon FSx for Lustre

고성능 파일 시스템

병렬 파일 시스템. 대용량 ML 학습 데이터 고속 로드.

스토리지

Amazon EFS

공유 파일 스토리지

여러 학습 작업에서 코드·데이터 공유. NFS 기반.

스토리지

Inferentia / Trainium

AWS 전용 ML 칩

Inferentia(추론) · Trainium(학습). 비용 대비 효율 최적.

가속

생성형 AI7

Amazon Bedrock

FM API 플랫폼

Claude, Titan, Llama, Cohere 등 여러 FM을 단일 API로 제공. Agents/KB/Guardrails 포함.

Knowledge Bases for Bedrock

RAG 관리형

OpenSearch·Aurora pgvector 등 벡터 DB 자동 관리. 검색 증강 생성 즉시 구축.

RAG

Agents for Bedrock

에이전트

함수 호출·다단계 판단을 수행하는 LLM 에이전트. Lambda 통합으로 액션 실행.

에이전트

Vector DB (OpenSearch Serverless / pgvector / Kendra)

임베딩 검색

RAG의 Retrieval 담당. 임베딩을 저장·유사도 검색.

벡터

Prompt Engineering

프롬프트 설계

Zero-shot, Few-shot, Chain-of-Thought 등 프롬프트 기법. 성능 크게 좌우.

LLM

Fine-tuning

미세 조정

라벨 데이터로 FM 가중치 업데이트. 톤·스타일·태스크 특화. 데이터 부족 시 overfit 주의.

커스터마이징

Continued Pre-training

도메인 내재화

비라벨 대규모 도메인 텍스트로 추가 사전학습. 전문 용어 이해 강화.

커스터마이징

데이터 스트리밍4

Kinesis Data Streams

실시간 스트림

실시간 데이터 수집·재소비. 샤드 기반. 여러 컨슈머 동시 읽기.

스트리밍

Kinesis Firehose

스트림 적재

S3·Redshift·OpenSearch로 스트림 자동 전달. 배치·변환 가능.

스트리밍

Amazon MSK

관리형 Kafka

관리형 Apache Kafka. 기존 Kafka 에코시스템 호환.

Kafka

AWS Step Functions

일반 워크플로

일반 서비스 오케스트레이션. ML 전용은 SageMaker Pipelines가 우선.

워크플로