돌아서면 까먹어서

RL 개념 정리(4) Bellman Equation 18.11.28 본문

ML/RL

RL 개념 정리(4) Bellman Equation 18.11.28

양갱맨 2018. 11. 28. 19:08

이번 정리 참고 자료

d.silver - Reinforcement Learning 강의자료

이웅원 - Fundamental of Reinforcement Learning



Bellman Equation - 앞서 정리했던 value function들 사이의 연관성을 표현한 식



state value function과 action value function은 아래와 같이 정의할 수 있다고 함.



각 value function을 벨먼방정식으로 표현하면

이렇다고 함.

의미를 해석해보면, 

= 현재 state 에 대한 reward (immediate reward)() + discount factor가 적용된 next state의 value function() 의 기대값인 것이다.


action value function도 해석해보면


= 현재 state에 대한 reward (immediate reward)() + discount factor가 적용된 next state에서 액션 a를 했을 때의 value function()의 기대값이다.




그렇다면 여기서 생긴 궁금증,

next state에서의 action 에 대한 action value function 을 어떻게 알지?


- 실제 강화학습 환경에서는 reward와 state transition probability를 미리 알 수 없다.

  경험을 통해 알아가는 것


"MDP를 모두 안다" 라는 말은 reward, transition probability 같은 정보를 다 안다는 것.


∴ reward와 state transition probability를 모르는 상태에서 진행되는 강화학습은 bellman equation으로는 구할 수 없다.



위 그림에 대한 각각의 bellman equation은 다음과 같다.





이렇게 각각 state에 대한 value function도 구하고 action value function도 구했다.

중요한 것은 "그래서 최대로 total reward 얻을 수 있는 value function이 뭔데?"이다.


optimal value function을 구하는 것은 간단하다.

policy들 중에 maximum value function을 갖는 policy가 무엇인지 고르면 된다.

어떻게 고를까?


Q-value 가 가장 큰 action을 고르면 된다.


optimal action value

->




optimal state value function

->






예제를 보면 6에서 facebook을 하면 reward -1 이고 study하면 reward -2다.

action value function을 구하면 facebook을 하면 q* = 5, study는 q* = 6이다.

이기 때문에 study를 하는 policy가 optimal policy가 되는 것이다.











* 잘못된 부분들은 댓글 부탁드립니다


'ML > RL' 카테고리의 다른 글

RL 개념 정리(3) value function 18.11.28  (0) 2018.11.28
RL 개념 정리(2) MDP 18.11.21  (0) 2018.11.21
RL 개념 정리(1) 기본구조 18.11.21  (0) 2018.11.21
Comments