[3줄 RL] 리워드 없이도 배운다

2021. 7. 19. 22:56AI Paper Review/Deep RL Papers [EN]

<arxiv> https://arxiv.org/pdf/1802.06070.pdf

1. 대부분의 강화학습은 리워드에 기반해 있다. 근데 현실에선 리워드 엔지니어링 하기 애매하고 어려울 때가 많고 무엇보다 하기 싫은데, 리워드 엔지니어링 안 하고 RL 할 방법은 없나?

2. Maximum Entropy 개념과 Discriminator를 도입해서 최대한 diverse하게 skill들을 학습할 수 있도록 만들어 보자!

Model Architecture

3. 리워드 없이 다양한 스킬을 학습할 수 있었고, 학습이 진행됨에 따라 스킬들이 분별가능해짐을 알 수 있다.

DIAYN이 배운 스킬들


4. 이런 형태가 조금 더 AGI에 가까운지도 모르겠다는
생각이 들었고, practical 하게는 저 discriminator를 이용해서 exploration을 최대화하는 기존 Reward Based RL 알고리즘을 만들면 어떨까 싶다.