일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- RL
- action value function
- DeepLearning
- 티스토리 코드올리기
- multiagent
- reinforcement
- value function
- 텐서플로로 시작하는 딥러닝
- 알고리즘
- 딥러닝
- 멀티에이전트
- TensorFlow
- 2019기사일정
- state value function
- 텐서플로우
- interesting party
- seednet
- 큐넷시험일정
- classification
- 탑코더
- cnn
- 머신러닝
- Reinforcement Learning
- ML
- atari RL
- linearclassification
- 2019정처기
- 인공지능
- 강화학습
- 소스코드 올리기
- Today
- Total
돌아서면 까먹어서
CNN에서 언급되는 용어의 개념과 관계에 대해 정리해보자 1. convolution layer2. Pooling layer3. Fully Connected layer4. Filter5. Feature map(activation map)6. stride7. padding8. 1x1 conv layer 먼저 convolution layer를 보면,입력 이미지의 구조를 변형시키지 않은채로 그대로 width x height x depth 형태로 사용한다.filter가 아래 이미지 처럼 input image를 슬라이딩 하면서 feature를 계산한다.결과적으로 한 filter가 input image를 다 거치고 나면 feature map(activation map)을 한장 생성한다.이런식으로 여러개의 필터가 in..
아래 사진처럼 맞추고자하는 input image를 넣으면 network를 통해 각 class에 대한 score로 어떤 이미지인지 맞추는 network가 있으면,우리는 loss function을 통해서 얼마나 못맞췄는지를 알 수 있다.loss function이 0에 수렴할 수록 잘 맞추는 것이다. 그렇다면 목표는 loss function 값이 작아지게!-> gradient를 구해서 W를 업데이트 한다.-> W가 loss function을 줄인다.-> 또 gradient 구해서 W 업데이트, ...-> 결과적으로 loss function 값이 작아져 input image를 잘 맞춘다. gradient를 구할 때 미분을 사용하고, 이 미분을 위해서 backpropagation을 사용하는 것이다. cs231n에..
- minimum loss 값을 찾는 것. gradient를 계산하는 것은 가장 급경사를 찾아내는 것이다.Input 개수 = gradient 개수 gradient를 계산하는 방법은 두가지1. numeric gradient : 느리고 근사값이지만 계산 쉬움.2. analytic gradient : 빠르고 정확하지만 미분 필요. 계산 실수가 있을 수 있음. numeric gradient는 도함수 공식을 사용해서 Weight 요소들과 이동간격인 h를 대입해서 gradient를 전부 구해서 update한다. (너무너무 오래걸림..) analytic gradient를 사용하게 되면, 일반적으로 사용하는 미분을 해서 구한다. (바로 답 나옴. 빠르다) gradient check : numeric으로 구한 gradi..
이번 정리 참고 자료d.silver - Reinforcement Learning 강의자료이웅원 - Fundamental of Reinforcement Learning Bellman Equation - 앞서 정리했던 value function들 사이의 연관성을 표현한 식 state value function과 action value function은 아래와 같이 정의할 수 있다고 함. 각 value function을 벨먼방정식으로 표현하면이렇다고 함.의미를 해석해보면, = 현재 state 에 대한 reward (immediate reward)() + discount factor가 적용된 next state의 value function() 의 기대값인 것이다. action value function도 해석해..
이번 개념 정리 참고 자료d.silver - Reinforcement Learning 강의 자료Sutton - Reinforcement Learning: An Introduction이웅원 - Fundamental of Reinforcement Learning state value function : state s에서 얻을 수 있는 기대 total rewardaction value function : 어떤 policy를 따른다고 할 때, state s 에서 action a를 했을 때 얻을 수 있는 기대 total reward Reinforcement learning는 무엇일까?주어진 MDP 문제에 대해서 좋은 방향으로 행동하도록 reward를 통해 학습시키는 것.-> 최대의 total reward를 받을 ..
Unity ml-agent github 에 사용 가이드가 친절하게 잘 나와있지만 혹시라도 도움이 될 수 있으니.. https://github.com/Unity-Technologies/ml-agents 처음엔 아무것도 모르고 그냥 프로젝트 다운받아서 실행시키면 되는건 줄 알았는데전혀 아니었다.. tensorflow-gpu 깔려있다는 전제 하에 시작 1) unity project 하나 열어서 UnityML example 중 아무거나 연다. (처음이라 3DBall 열었음) 2) 아래 사진처럼 player setting > scripting runtime version 4.x 으로 한다.이것때문에 며칠동안 visual studio 2017 c# 버전 바꾸는 법 이런거 다 찾아봤는데도 안돼서 인내심에 한계가 왔지..
loss function = data예측이 얼마나 안좋은지를 나타냄Dataset에서 각 N개의 샘플의 loss들의 평균을 구한다.-> W 중에 loss를 최소화하는 W를 구하는 것. 이진 SVM의 일반화된 형태로 여러 클래스를 다루기 위함. image , label 가 주어질 때,각 클래스에 대한 score를 나타내는 vector는 이때 SVM loss의 형태는 여기서 +1은 margin 값을 나타낸다.SVM loss 해석을 해보면True인 카테고리를 제외한 나머지 카테고리 y의 합을 구한다.올바르지 않은 카테고리와 정답 카테고리의 score s비교정답 카테고리의 score가 아닌 카테고리 score+margin보다 크거나 같으면 loss를 0으로 준다.그리고 나머지의 경우는 정답이 아닌 카테고리- 정답..
각각의 친구들은 2가지의 흥미를 가지고 있다.이 흥미 주제가 맞아야지만 즐거운 파티를 보낼 수 있다.초대할 수 있는 최대 친구는 몇 명일까?문자열 배열 first/second가 있고i번째 친구의 흥미 주제는 first[i], second[i]이고 이 둘은 같을 수 없다. 1234567891011121314151617181920212223242526272829303132333435#include #include #include #include using namespace std;int people = 0;int happyParty(string * first, string * second) { int friendNum = 0; for (int i = 0; i