이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 미적분과 최적화
MSE, Cross-Entropy, Focal Loss, 대조 손실, 손실 함수 설계 원칙
여러분, 오늘은 모든 딥러닝 학습의 출발점인 손실 함수를 깊이 있게 다뤄볼 거예요.
옵티마이저가 "어떻게" 최적화할지 결정한다면, 손실 함수는 "무엇을" 최적화할지를 결정합니다.
그림 왼쪽을 보세요. 모델이 입력 x에 대해 예측값 2.8을 출력했는데, 실제값은 3.5예요.
이 오차 0.7을 어떤 함수로 측정하느냐에 따라 학습 방향이 완전히 바뀝니다.
가운데 주황색 영역을 보시면, 같은 오차 0.7에 대해 MSE는 0.49, MAE는 0.7을 손실로 계산해요.
더 중요한 것은 그래디언트 차이예요. MSE는 마이너스 1.4, MAE는 마이너스 1의 그래디언트를 줍니다.
MSE는 오차가 클수록 그래디언트도 커져서 큰 오류를 빠르게 교정하지만, 이상치에 과민반응해요.
반면 MAE는 항상 일정한 크기의 그래디언트를 제공해서 이상치에 흔들리지 않아요.
오른쪽의 옵티마이저 박스를 보세요. 옵티마이저는 받은 그래디언트를 가지고 파라미터를 업데이트할 뿐이에요.
즉, 손실 함수가 잘못된 신호를 보내면, 아무리 좋은 옵티마이저라도 잘못된 방향으로 갑니다.
이것을 비유하면, 손실 함수는 시험 문제이고 옵티마이저는 공부 방법이에요.
하단 그림에서 왼쪽 빨간 박스를 보시면, 암기형 시험을 내면 학생은 단순 암기만 합니다.
가운데 초록 박스처럼 이해형 시험을 내면 학생은 개념을 깊이 이해하고 응용할 수 있게 돼요.
마찬가지로, 좋은 손실 함수는 모델에게 올바른 학습 목표를 제시하는 거예요.
오른쪽 보라색 박스에 정리된 5가지가 손실 함수가 결정하는 핵심 요소들이에요.
큰 오류 벌점 강도, 이상치 강건성, 클래스 불균형 대응, 분포 매칭, 그리고 유사성 정의까지요.
실제로 같은 ResNet 모델에 MSE를 쓰면 이상치에 과적합하고, Huber를 쓰면 강건한 예측을 해요.
손실 함수 하나를 바꾸는 것만으로 모델 성능이 10퍼센트 이상 바뀌는 사례도 흔합니다.
그래서 오늘 수업에서는 MSE부터 시작해서, Cross-Entropy, Focal Loss, Contrastive Loss까지 체계적으로 살펴볼 거예요.
각 손실 함수가 "왜" 그런 형태인지, 어떤 문제에 적합한지를 수학적으로 이해하는 것이 이번 수업의 핵심 목표입니다.