일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- linearclassification
- 강화학습
- 2019정처기
- 소스코드 올리기
- RL
- action value function
- 텐서플로우
- interesting party
- DeepLearning
- 탑코더
- 인공지능
- 티스토리 코드올리기
- seednet
- Reinforcement Learning
- reinforcement
- 텐서플로로 시작하는 딥러닝
- classification
- cnn
- ML
- 딥러닝
- 알고리즘
- 2019기사일정
- atari RL
- 멀티에이전트
- value function
- 큐넷시험일정
- multiagent
- TensorFlow
- state value function
- 머신러닝
- Today
- Total
목록Reinforcement Learning (2)
돌아서면 까먹어서
이번 정리 참고 자료d.silver - Reinforcement Learning 강의자료이웅원 - Fundamental of Reinforcement Learning Bellman Equation - 앞서 정리했던 value function들 사이의 연관성을 표현한 식 state value function과 action value function은 아래와 같이 정의할 수 있다고 함. 각 value function을 벨먼방정식으로 표현하면이렇다고 함.의미를 해석해보면, = 현재 state 에 대한 reward (immediate reward)() + discount factor가 적용된 next state의 value function() 의 기대값인 것이다. action value function도 해석해..
이번 개념 정리 참고 자료d.silver - Reinforcement Learning 강의 자료Sutton - Reinforcement Learning: An Introduction이웅원 - Fundamental of Reinforcement Learning state value function : state s에서 얻을 수 있는 기대 total rewardaction value function : 어떤 policy를 따른다고 할 때, state s 에서 action a를 했을 때 얻을 수 있는 기대 total reward Reinforcement learning는 무엇일까?주어진 MDP 문제에 대해서 좋은 방향으로 행동하도록 reward를 통해 학습시키는 것.-> 최대의 total reward를 받을 ..