2What — ML 배포 실패의 현실
3- ML 모델의 약 87%가 프로덕션에 도달하지 못한다 (VentureBeat, 2019; Paleyes et al., 2022)
4- 연구실(노트북)에서 정확도 95%를 달성해도, 실제 서비스로 전환하는 과정에서 대부분 실패
5- 비유: 요리 대회에서 우승한 셰프가 프랜차이즈 레스토랑을 운영하는 것은 완전히 다른 문제
6Why — 프로덕션 ML만의 고유한 문제들
71. 실시간 예측 요청(Serving)
8 - 노트북: model.predict(x) 한 번 실행하면 끝
9 - 프로덕션: 초당 수천 건의 HTTP 요청을 수십 ms 이내에 응답해야 함
10 - 지연 시간(latency) p99 < 100ms가 일반적 SLA
112. 다중 사용자 트래픽(Scalability)
12 - 트래픽이 새벽 2시에는 거의 0, 점심시간에는 10배 급증
13 - 오토스케일링 없이는 과금 폭탄 또는 서비스 다운
143. 모델 버전 관리(Versioning)
15 - A/B 테스트: v2 모델을 10% 트래픽에만 먼저 배포
16 - 롤백: v2에서 성능 저하 발견 시 즉시 v1으로 복귀
17 - 모델 레지스트리로 어떤 데이터·코드·하이퍼파라미터로 학습했는지 추적 (Sculley et al., 2015)
184. 비용 효율화(Cost Optimization)
19 - GPU 인스턴스는 시간당 $3~$30 — 24시간 켜두면 월 $2,000+
20 - Spot/Preemptible 인스턴스, 서버리스 추론으로 비용 절감
21 - 트래픽 없을 때 scale-to-zero가 핵심
225. 데이터/모델 드리프트 모니터링
23 - 학습 데이터와 실제 입력 분포가 시간이 지나면 달라짐 (Klaise et al., 2021)
24 - 모니터링 없이 배포하면 "조용한 실패(silent failure)"가 발생
25How — 클라우드 ML 플랫폼의 등장
26- 위 문제들을 개별적으로 해결하려면 인프라 엔지니어링에 수개월 소요
27- 클라우드 ML 플랫폼은 이 모든 것을 관리형 서비스(Managed Service)로 제공:
28- AWS SageMaker: 엔드포인트 배포, 오토스케일링, A/B 테스트, Model Monitor 내장
29- GCP Vertex AI: 파이프라인 통합, Feature Store, 예측 서빙을 하나의 플랫폼에서 관리
30- Azure ML: MLflow 네이티브 통합, 엔터프라이즈 보안(RBAC, VNet) 강점
31- 공통 패턴: 학습(Training) → 레지스트리(Registry) → 배포(Serving) → 모니터링(Monitoring)
32이 레슨에서 배울 것
33- 클라우드 ML 배포의 전체 흐름과 각 단계별 핵심 개념
34- SageMaker/Vertex AI 기반 실제 배포 실습
35- 오토스케일링, 비용 최적화, 모니터링 설정 방법
36- Docker 컨테이너화(타 레슨)를 전제로, 컨테이너를 클라우드에 올리는 과정에 집중