이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → 심층 강화학습 — 딥러닝과 강화학습의 만남 → 다중 에이전트 RL
제약 기반 안전 학습과 기존 데이터 기반 오프라인 강화학습
안녕하세요, 오늘은 Safe RL이 왜 필요한지 살펴봅니다.
강화학습의 핵심은 탐색, Exploration입니다.
에이전트가 새 행동을 시도하며 최적 정책을 찾죠.
슬라이드 상단 파란 박스를 보세요.
새로운 행동을 시도하며 최적 정책을 찾는다고 나옵니다.
이 탐색, 온라인 탐색이 핵심입니다.
시뮬레이션 환경에서는 탐색이 자유롭습니다.
왼쪽 초록 박스를 보시면 장점이 세 가지 나옵니다.
실패해도 리셋하면 그만이고, 비용도 없습니다.
자유롭게 탐색하며 정책을 빠르게 개선할 수 있죠.
하지만 시뮬레이션과 현실 사이엔 간극이 있습니다.
이를 심-투-리얼 갭이라고 부릅니다.
그래서 실전 환경에서도 탐색이 필요한 경우가 많습니다.
오른쪽 빨간 박스를 보세요.
실전 환경에서의 탐색은 전혀 다른 이야기입니다.
자율주행 차가 위험 행동을 탐색하면 사고가 납니다.
로봇 팔의 실수는 사람을 다치게 할 수 있습니다.
의료 기기나 전력망도 마찬가지입니다.
단 한 번의 실패가 큰 피해로 이어질 수 있습니다.
가운데 분기 화살표를 보시면 두 환경의 차이가 보입니다.
초록은 안전한 시뮬레이션, 빨간은 위험한 실전입니다.
이것이 바로 Safe RL이 필요한 핵심 이유입니다.
탐색의 자유와 안전 사이의 균형이 필요합니다.
Safe RL은 제약 조건으로 이 문제를 해결합니다.