이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 머신러닝 — 데이터에서 지식을 추출하다 → 비지도학습 & 평가 — 정답 없이 구조 찾기 → 차원 축소(Dimensionality Reduction)
필터, 래퍼, 임베디드 방법을 탐구하여 모델에 가장 관련성 높은 특성을 선택합니다.
머신러닝에서 피처가 100개 있다고 해봐요.
전부 다 쓸 필요가 있을까요? 대부분은 노이즈이거나 중복이에요.
그래서 피처 셀렉션이 필요합니다. 의미 있는 변수만 고르는 거예요.
왼쪽 그림을 보세요. 피처 셀렉션은 원본 피처 중에서 골라내는 방식이에요.
x1, x2, x3 같은 원래 이름 그대로 남아요.
의료 데이터에서 "혈압"이 중요하다고 말할 수 있죠. 해석이 직관적이에요.
오른쪽 그림을 보세요. PCA 같은 차원 축소는 다른 접근이에요.
모든 피처를 선형 결합해서 새로운 축을 만들어요. PC1, PC2처럼요.
PC1이 0.5 곱하기 키 더하기 0.3 곱하기 몸무게... 이게 무슨 의미인지 해석이 어려워요.
오른쪽 비교 테이블을 보세요. 해석력에서 큰 차이가 나요.
피처 셀렉션은 해석력이 높고, PCA는 낮아요.
정보 손실 방식도 달라요. 피처 셀렉션은 제거만 하고, PCA는 압축을 해요.
의료나 금융에서는 "왜 이 환자가 고위험인가" 설명해야 해요.
그래서 해석 가능한 피처 셀렉션을 선호합니다.
반면 이미지나 자연어 처리에서는 차원만 줄이면 되니까 PCA를 많이 써요.
다중공선성도 중요한 차이예요. PCA는 자동으로 해결하지만 피처 셀렉션은 별도로 처리해야 해요.
하단 결론을 보세요. "어떤 피처가 중요한지 알아야 하면" 피처 셀렉션이에요.
"차원만 줄이면 되면" PCA나 티에스엔이 같은 차원 축소를 쓰는 거예요.
실전에서는 두 방법을 결합하기도 해요. 먼저 선택 후 축소하는 파이프라인이죠.
오늘은 피처 셀렉션의 세 가지 방법인 필터, 래퍼, 임베디드를 깊이 배울 거예요.
각각의 장단점과 언제 어떤 방법을 쓸지까지 완전히 이해하게 될 거예요.