2What — ML 모니터링이란?
3- ML 모니터링: 배포된 모델의 입력 데이터, 예측 결과, 시스템 상태를 지속적으로 관찰하고 이상을 탐지하는 체계
4- 전통 소프트웨어 모니터링(서버 상태, 에러율)을 넘어 모델 품질까지 추적하는 확장된 관측 시스템
5- "모델은 코드와 달리 시간이 지나면 스스로 나빠진다" — 이것이 ML 모니터링이 특별한 이유
6Why — 왜 ML 모니터링이 필수인가?
71. 모델은 조용히 실패한다 (Silent Failure)
8 - 전통 SW: 버그 → 에러 로그, 크래시 → 즉시 인지 가능
9 - ML 모델: 성능이 서서히 저하되어도 HTTP 200 OK를 반환하며 정상처럼 동작
10 - 예: 추천 시스템이 클릭률 30% → 15%로 떨어져도 서버는 멀쩡함 (Sculley et al., 2015)
112. 세상은 변한다 — Stationarity 가정의 붕괴
12 - ML 모델은 "학습 데이터의 분포 = 운영 데이터의 분포"를 가정
13 - 현실: 사용자 행동 변화, 계절성, 경쟁사 출현, 팬데믹 등으로 분포가 끊임없이 이동
14 - 학습 시점의 P_{\text{train}}(X, Y)와 운영 시점의 P_{\text{serve}}(X, Y)가 달라지는 것은 시간문제
15 - "All models are wrong, but some become wronger over time" (Klaise et al., 2020)
163. 피드백 지연 (Delayed Ground Truth)
17 - 대출 심사 모델: 실제 부도 여부를 알려면 수개월~수년 대기
18 - 의료 진단 모델: 확진까지 수일~수주 소요
19 - Ground truth가 즉시 없으므로, 입력 분포와 예측 분포의 변화를 대리 지표로 감시해야 함
204. 비용의 비대칭성
21 - 모니터링 구축 비용: 엔지니어링 며칠
22 - 장애 미감지 비용: 매출 손실, 규제 벌금, 평판 하락 → 수백~수천배 차이
23 - 2020 Zillow 사례: 주택 가격 예측 모델 실패 → 5억 달러 이상 손실, 사업부 폐쇄
24How — ML 모니터링의 세 가지 관측 계층
25- 계층 1: 시스템 건강 (Infrastructure)
26 - 서버 CPU/GPU 사용률, 메모리, 디스크
27 - API 응답 시간(latency), 처리량(throughput), 에러율
28 - 이 계층만으로는 "모델이 잘 예측하고 있는가"를 알 수 없음
29- 계층 2: 데이터 품질 (Data Quality)
30 - 입력 피처의 스키마 변경, 결측값 비율, 분포 이동
31 - 예: 나이 피처에 음수가 들어오거나, 카테고리에 학습 때 없던 값 등장
32 - 모델 성능 하락의 선행 지표 역할 (Breck et al., 2019)
33- 계층 3: 모델 품질 (Model Quality)
34 - 예측값 분포 변화: 갑자기 한쪽 클래스만 예측하기 시작
35 - Ground truth 확보 후 실제 accuracy, F1, AUC 추적
36 - 비즈니스 KPI와의 상관관계: CTR, 전환율, NPS 등
37핵심 통찰: 모니터링 없는 ML = 계기판 없는 비행
38- 전통 SW는 "만들면 끝"에 가깝지만, ML은 "배포하면 시작"
39- Google의 ML 기술 부채 논문은 ML 시스템의 유지보수 비용이 전체의 5~25%가 아니라 대부분이라고 경고 (Sculley et al., 2015)
40- 모니터링은 선택이 아닌 생존 조건 — 모든 프로덕션 ML 시스템의 필수 구성요소