Temporal Difference
-
Temporal Difference 1Tech/Algorithms 2011. 6. 27. 21:28
Reinforcement learning에서 가장 핵심적인 아이디어라 하면, Temporal Difference learning이라 들 수 있다. 앞선 포스팅에서 Monte Carlo와 Dynamic Programming 등에 대해 간략히 설명해보았는데, Reinforcement learning에서 사용되는 Temporal difference learning은 이 2가지 방법을 모두 적절히 combination한 모델이라 볼 수 있다. Monte Carlo와 같은 점 : The environment's dynmaic에 대한 Modeling이 없이, raw experience 만으로도 learning이 가능하다. Dynamic Programming과 같은 점 : Final outcome까지 기다리지 않고,..
-
Reinforcement Learning에서 사용되는 Learning MethodsTech/Algorithms 2011. 6. 25. 18:12
Reinforcement Learning에서 State Value 등을 계산하고자 할 때 사용되는 Learning Methods 등에는 크게 3가지 방법이 사용되고 있다. 3 algorithms are used in reinforcement learning to predict a measure of the total amount of reward expected over the future. Dynmaic Programming Monte-Carlo Temporal Difference Learning Reinforcement Learning 관련 강의 자료를 보다가, 이 3가지의 Learning method에 대해 가장 직관적으로 나타내는 그림이 있어 첨부해보았다. Reinforcement Learning..