[3줄 RL] Multi Objective RL에 대해 고민해본적 있나?

2021. 7. 11. 02:22카테고리 없음

<arxiv> https://arxiv.org/pdf/1908.08342.pdf

1. Multi-Objective RL이란 강화학습을 하는데 있어서 몇가지 objective가 있는 것을 뜻하는데, 가령 무언가를 조종할 때 안정성에 대한 리워드와 효율성에 대한 리워드가 둘 다 존재할 수 있다.

2. 이것을 여러 가지 objective의 linear combination으로 푸는 방법도 있지만, 본 논문에서는 아예 vectorized reward에 대해 학습할 수 있는 MDP와 Q function을 사용하며, 추가로 안정적인 학습을 위해 각 리워드들에 대한 중요도를 랜덤하게 샘플링하는 방법인 Envelope Q-Learning을 제안한다.


pseudocode


3. 실제로 이 방법은 adaptation(새로운 중요도에 적응) 과 성공율(리워드)를 여러 태스크에서 안정적으로 높일 수 있었다고 한다.

학습 결과
adaptation error