DQN(3)
-
[3줄 RL] Back to basic
https://arxiv.org/abs/1312.5602 Playing Atari with Deep Reinforcement Learning We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw arxiv.org 1. 기존 Tabular Q-Learning은 image와 같은 observation에 대응 ..
2021.08.10 -
[3줄 RL] 빨간 Q
https://openreview.net/pdf?id=AY8zfZm0tDd 1. 모델 베이스드 방법론들 최근에 되게 좋은 sample efficiency 보여줬는데, 우리는 모델 프리로 기존 모델 베이스드 방법들 이겨보겠다. 또한 자원도 덜 쓰는 모델을 만들겠다! 2. Sample Efficient 하다는건 데이터를 잘 쓴다는 뜻이므로 Update-To-Data Ratio를 올린 알고리즘을 만들어야지? 근데 그럼 다른 알고리즘도 UTD ratio 올리면 잘 되는거 아니냐는 반문이 있을 수 있다. 3. 그렇지만 SAC 같은 알고리즘은 UTD ratio를 너무 많이 쓰면 당연하게도 bias와 그 표준편차가 매우 커져 불안정하게 된다. 이것을 해결하기 위해 ensemble 방법론과 in-target minim..
2021.07.28 -
[3줄 RL] 큐러닝의 고질병을 해결하다
https://openreview.net/pdf?id=Bkg0u3Etwr 1. q-learning에서 underestimation 또는 overestimation bias는 q-learning에서 argmax Q(s,a)를 타겟으로 사용해 발생하는 고질적인 문제이다. 어떤 환경에서는 underestimation이, 어떤 환경에서는 overestimation이 나쁘다. 2. 이런 것을 보완하기 위해 double q-learning이 고안되기도 했지만 이것은 과도한 underestimation을 가져오기 때문에, 본 논문에서는 Q함수를 N개 사용하고 그중 가장 작은 것을 타겟으로 사용하는 maxmin q-learning을 제안한다. 3. 이것을 DQN에 적용하게 되면 여러개의 타겟 큐함수를 만들어놓고 매스텝..
2021.07.24