일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- linearclassification
- cnn
- interesting party
- 딥러닝
- 탑코더
- DeepLearning
- 티스토리 코드올리기
- 머신러닝
- 텐서플로우
- state value function
- 인공지능
- 큐넷시험일정
- 텐서플로로 시작하는 딥러닝
- 소스코드 올리기
- value function
- multiagent
- ML
- 2019정처기
- Reinforcement Learning
- RL
- classification
- 강화학습
- reinforcement
- 2019기사일정
- action value function
- 알고리즘
- 멀티에이전트
- seednet
- TensorFlow
- atari RL
- Today
- Total
목록ML/RL (4)
돌아서면 까먹어서
이번 정리 참고 자료d.silver - Reinforcement Learning 강의자료이웅원 - Fundamental of Reinforcement Learning Bellman Equation - 앞서 정리했던 value function들 사이의 연관성을 표현한 식 state value function과 action value function은 아래와 같이 정의할 수 있다고 함. 각 value function을 벨먼방정식으로 표현하면이렇다고 함.의미를 해석해보면, = 현재 state 에 대한 reward (immediate reward)() + discount factor가 적용된 next state의 value function() 의 기대값인 것이다. action value function도 해석해..
이번 개념 정리 참고 자료d.silver - Reinforcement Learning 강의 자료Sutton - Reinforcement Learning: An Introduction이웅원 - Fundamental of Reinforcement Learning state value function : state s에서 얻을 수 있는 기대 total rewardaction value function : 어떤 policy를 따른다고 할 때, state s 에서 action a를 했을 때 얻을 수 있는 기대 total reward Reinforcement learning는 무엇일까?주어진 MDP 문제에 대해서 좋은 방향으로 행동하도록 reward를 통해 학습시키는 것.-> 최대의 total reward를 받을 ..
확률론에서, 마르코프 연쇄(Марков連鎖, 영어: Markov chain)는 이산 시간 확률 과정이다.마르코프 연쇄는 시간에 따른 계의 상태의 변화를 나타낸다. 매 시간마다 계는 상태를 바꾸거나 같은 상태를 유지한다. 상태의 변화를 전이라 한다. 마르코프 성질은 과거와 현재 상태가 주어졌을 때의 미래 상태의 조건부 확률 분포가 과거 상태와는 독립적으로 현재 상태에 의해서만 결정된다는 것을 뜻한다 출처 : https://ko.wikipedia.org/wiki/%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84_%EC%97%B0%EC%87%84※ Stochastic Process는 확률분포를 가진 랜덤 변수가 일정 시간 간격으로 값을 발생시키는 문제를 모델링 한 것Markov Chain은 이..
RL(Reinforcement Learning) : 강화학습기본 구조Environment : agent 외 모든것 Action : agent가 Environment 내에서 할 수 있는 행동 Discrete, Continuous action으로 구분할 수 있다. Reward : 주기적으로 얻을 수 있는 스칼라 값 positive or negative agent의 action이 얼마나 좋은지 나쁜지를 판단할 수 있는 기준으로 사용가능. Observation : environment로부터 편의를 위해서 얻을 수 있는 정보 * 잘못된 부분들은 댓글 부탁드립니다