Bellman

알고리즘(1)

[3줄 RL] Multi Objective RL에 대해 고민해본적 있나?
https://arxiv.org/pdf/1908.08342.pdf 1. Multi-Objective RL이란 강화학습을 하는데 있어서 몇가지 objective가 있는 것을 뜻하는데, 가령 무언가를 조종할 때 안정성에 대한 리워드와 효율성에 대한 리워드가 둘 다 존재할 수 있다. 2. 이것을 여러 가지 objective의 linear combination으로 푸는 방법도 있지만, 본 논문에서는 아예 vectorized reward에 대해 학습할 수 있는 MDP와 Q function을 사용하며, 추가로 안정적인 학습을 위해 각 리워드들에 대한 중요도를 랜덤하게 샘플링하는 방법인 Envelope Q-Learning을 제안한다. 3. 실제로 이 방법은 adaptation(새로운 중요도에 적응) 과 성공율(리워드..
2021.07.11

1

티스토리툴바