안전한 강화학습과 오프라인 RL — 실패 없이 배우기

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

안전한 강화학습과 오프라인 RL — 실패 없이 배우기

제약 기반 안전 학습과 기존 데이터 기반 오프라인 강화학습

1 / 15

왜 Safe RL이 필요한가? — 온라인 탐색의 위험성

왜 왜 Safe RL이 필요한가? — 온라인 탐색의 위험성이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

강화학습의 핵심은 탐색(exploration)입니다. 에이전트는 새로운 행동을 시도하며 최적 정책을 찾습니다. 그런데 실전 환경에서 탐색은 치명적인 결과를 가져올 수 있습니다.

위험한 탐색의 예시:

- 자율주행: "이 속도로 커브를 돌면 어떨까?" → 사고 발생

- 의료 로봇: "이 각도로 절개하면?" → 환자 부상

- 금융 트레이딩: "전 재산을 한 종목에?" → 파산

- 산업 로봇: "이 힘으로 부품을 잡으면?" → 장비 파손

시뮬레이터의 한계:

- 현실과 시뮬레이션 사이의 sim-to-real gap이 존재합니다

- 모든 위험 상황을 시뮬레이션하는 것은 불가능합니다

- 시뮬레이터에서 안전하다고 현실에서도 안전한 것이 아닙니다

두 가지 해결 방향:

1. Safe RL: 탐색하되, 안전 제약을 만족시키면서 학습

2. Offline RL: 아예 탐색하지 않고, 기존 데이터만으로 학습

이 두 접근법이 실전 RL의 핵심이며, 이번 레슨에서 깊이 다루겠습니다.

0:00

1:38

🎓 강의 스크립트

안녕하세요, 오늘은 Safe RL이 왜 필요한지 살펴봅니다.

강화학습의 핵심은 탐색, Exploration입니다.

에이전트가 새 행동을 시도하며 최적 정책을 찾죠.

슬라이드 상단 파란 박스를 보세요.

새로운 행동을 시도하며 최적 정책을 찾는다고 나옵니다.

이 탐색, 온라인 탐색이 핵심입니다.

시뮬레이션 환경에서는 탐색이 자유롭습니다.

왼쪽 초록 박스를 보시면 장점이 세 가지 나옵니다.

실패해도 리셋하면 그만이고, 비용도 없습니다.

자유롭게 탐색하며 정책을 빠르게 개선할 수 있죠.

하지만 시뮬레이션과 현실 사이엔 간극이 있습니다.

이를 심-투-리얼 갭이라고 부릅니다.

그래서 실전 환경에서도 탐색이 필요한 경우가 많습니다.

오른쪽 빨간 박스를 보세요.

실전 환경에서의 탐색은 전혀 다른 이야기입니다.

자율주행 차가 위험 행동을 탐색하면 사고가 납니다.

로봇 팔의 실수는 사람을 다치게 할 수 있습니다.

의료 기기나 전력망도 마찬가지입니다.

단 한 번의 실패가 큰 피해로 이어질 수 있습니다.

가운데 분기 화살표를 보시면 두 환경의 차이가 보입니다.

초록은 안전한 시뮬레이션, 빨간은 위험한 실전입니다.

이것이 바로 Safe RL이 필요한 핵심 이유입니다.

탐색의 자유와 안전 사이의 균형이 필요합니다.

Safe RL은 제약 조건으로 이 문제를 해결합니다.