[3줄 RL] 빨간 Q
https://openreview.net/pdf?id=AY8zfZm0tDd 1. 모델 베이스드 방법론들 최근에 되게 좋은 sample efficiency 보여줬는데, 우리는 모델 프리로 기존 모델 베이스드 방법들 이겨보겠다. 또한 자원도 덜 쓰는 모델을 만들겠다! 2. Sample Efficient 하다는건 데이터를 잘 쓴다는 뜻이므로 Update-To-Data Ratio를 올린 알고리즘을 만들어야지? 근데 그럼 다른 알고리즘도 UTD ratio 올리면 잘 되는거 아니냐는 반문이 있을 수 있다. 3. 그렇지만 SAC 같은 알고리즘은 UTD ratio를 너무 많이 쓰면 당연하게도 bias와 그 표준편차가 매우 커져 불안정하게 된다. 이것을 해결하기 위해 ensemble 방법론과 in-target minim..
2021.07.28