일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- value function
- multiagent
- classification
- interesting party
- seednet
- atari RL
- ML
- 인공지능
- 텐서플로우
- 알고리즘
- 텐서플로로 시작하는 딥러닝
- 멀티에이전트
- 2019정처기
- Reinforcement Learning
- 강화학습
- TensorFlow
- 탑코더
- DeepLearning
- action value function
- cnn
- linearclassification
- 소스코드 올리기
- 큐넷시험일정
- 티스토리 코드올리기
- reinforcement
- 2019기사일정
- 딥러닝
- state value function
- RL
- 머신러닝
- Today
- Total
돌아서면 까먹어서
RL 개념 정리(4) Bellman Equation 18.11.28 본문
이번 정리 참고 자료
d.silver - Reinforcement Learning 강의자료
이웅원 - Fundamental of Reinforcement Learning
Bellman Equation - 앞서 정리했던 value function들 사이의 연관성을 표현한 식
state value function과 action value function은 아래와 같이 정의할 수 있다고 함.
각 value function을 벨먼방정식으로 표현하면
이렇다고 함.
의미를 해석해보면,
= 현재 state 에 대한 reward (immediate reward)(
) + discount factor가 적용된 next state의 value function(
) 의 기대값인 것이다.
action value function도 해석해보면
= 현재 state에 대한 reward (immediate reward)(
) + discount factor가 적용된 next state에서 액션 a를 했을 때의 value function(
)의 기대값이다.
그렇다면 여기서 생긴 궁금증,
next state에서의 action 에 대한 action value function 을 어떻게 알지?
- 실제 강화학습 환경에서는 reward와 state transition probability를 미리 알 수 없다.
경험을 통해 알아가는 것
"MDP를 모두 안다" 라는 말은 reward, transition probability 같은 정보를 다 안다는 것.
∴ reward와 state transition probability를 모르는 상태에서 진행되는 강화학습은 bellman equation으로는 구할 수 없다.
위 그림에 대한 각각의 bellman equation은 다음과 같다.
이렇게 각각 state에 대한 value function도 구하고 action value function도 구했다.
중요한 것은 "그래서 최대로 total reward 얻을 수 있는 value function이 뭔데?"이다.
optimal value function을 구하는 것은 간단하다.
policy들 중에 maximum value function을 갖는 policy가 무엇인지 고르면 된다.
어떻게 고를까?
Q-value 가 가장 큰 action을 고르면 된다.
optimal action value
->
optimal state value function
->
예제를 보면 6에서 facebook을 하면 reward -1 이고 study하면 reward -2다.
action value function을 구하면 facebook을 하면 q* = 5, study는 q* = 6이다.
이기 때문에 study를 하는 policy가 optimal policy가 되는 것이다.
* 잘못된 부분들은 댓글 부탁드립니다
'ML > RL' 카테고리의 다른 글
RL 개념 정리(3) value function 18.11.28 (0) | 2018.11.28 |
---|---|
RL 개념 정리(2) MDP 18.11.21 (0) | 2018.11.21 |
RL 개념 정리(1) 기본구조 18.11.21 (0) | 2018.11.21 |