Reinforcement Learning
-
Basic Contents of Reinforcement Learning 2Reinforcement Learning 2024. 7. 5. 11:19
이전 장에서 다루었던 강화학습의 기초를 바탕으로 다시 한번 내용을 정리하고자 합니다. (봐도 봐도 헷갈리고 어렵네요...)Agent강화학습에서 Agent는 관측을 하고, 주어진 환경에서 행동을하며, 이 행동의 결과로 보상을 받는다.이 Agent의 목적은 보상의 장기간 기대치를 최대로 만드는 행동을 학습하는 것이다. (목적지에 도착하면 양의 보상, 시간을 낭비하거나 잘못된 방향으로 향하면 음의 보상을 받는 방식으로 보상을 설정함)Reinforcement Learning강화학습은 위의 Agent가 주체가되어 행동 $\rightarrow$ 상태 변화 $\rightarrow$ 보상의 학습의 순환 구조를 갖는다.Agent가 행동을 결정하기 위해, 사용하는 알고리즘을 Policy(정책)이라고 한다. (요새 핫한 인..
-
[yongggg's] Basic Contents of Reinforcement LearningReinforcement Learning 2022. 10. 24. 15:58
1. 강화학습 원리와 성질 원리 강화 학습은 state, action을 번갈아 수행하며 목표를 달성하는 원리이다. Environment(환경)은 Agent(행위자)가 행동하는 공간이며, 어떤 State(상태)에서 행위자의 Action(행위)에 따라 새로운 State(상태)로의 변화와 그 행위에 대한 Reward(보상)이 만들어진다. 연속된 행위의 처음과 종료까지를 하나의 Episode(에피소드)라고 하는데, 하나의 에피소드를 통해 얻어진 보상의 합을 G(수익)이라고 한다. 강화학습은 바로 이 수익을 최대화시키기 위한 행위가 선택될 수 있는 Policy(정책)를 강화시키는 것이 목표이다. 아래 [그림 1]을 예제로 알기 쉽게 설명해보자면, $s_{t}$에서 action(행동) $a_{t}$을 취하면, 새로..