[3줄 RL] 리워드 없이도 배운다
2021. 7. 19. 22:56ㆍAI Paper Review/Deep RL Papers [EN]
<arxiv> https://arxiv.org/pdf/1802.06070.pdf
1. 대부분의 강화학습은 리워드에 기반해 있다. 근데 현실에선 리워드 엔지니어링 하기 애매하고 어려울 때가 많고 무엇보다 하기 싫은데, 리워드 엔지니어링 안 하고 RL 할 방법은 없나?
2. Maximum Entropy 개념과 Discriminator를 도입해서 최대한 diverse하게 skill들을 학습할 수 있도록 만들어 보자!
3. 리워드 없이 다양한 스킬을 학습할 수 있었고, 학습이 진행됨에 따라 스킬들이 분별가능해짐을 알 수 있다.
4. 이런 형태가 조금 더 AGI에 가까운지도 모르겠다는
생각이 들었고, practical 하게는 저 discriminator를 이용해서 exploration을 최대화하는 기존 Reward Based RL 알고리즘을 만들면 어떨까 싶다.
'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글
[3줄 RL] 큐러닝의 고질병을 해결하다 (1) | 2021.07.24 |
---|---|
[3줄 RL] 과학적 발견도 에이전트에게 맡겨둬! (0) | 2021.07.21 |
[3줄 RL] 운송수단도 RL로 (0) | 2021.07.18 |
[3줄 RL] RL+Self-Supervised=Adaptation (2) | 2021.07.15 |
[3줄 RL] 재무부 대신 에이전트 (0) | 2021.07.13 |