[3줄 RL] 리워드 없이도 배운다

[3줄 RL] 리워드 없이도 배운다

2021. 7. 19. 22:56ㆍAI Paper Review/Deep RL Papers [EN]

<arxiv> https://arxiv.org/pdf/1802.06070.pdf

1. 대부분의 강화학습은 리워드에 기반해 있다. 근데 현실에선 리워드 엔지니어링 하기 애매하고 어려울 때가 많고 무엇보다 하기 싫은데, 리워드 엔지니어링 안 하고 RL 할 방법은 없나?

2. Maximum Entropy 개념과 Discriminator를 도입해서 최대한 diverse하게 skill들을 학습할 수 있도록 만들어 보자!

3. 리워드 없이 다양한 스킬을 학습할 수 있었고, 학습이 진행됨에 따라 스킬들이 분별가능해짐을 알 수 있다.

4. 이런 형태가 조금 더 AGI에 가까운지도 모르겠다는
생각이 들었고, practical 하게는 저 discriminator를 이용해서 exploration을 최대화하는 기존 Reward Based RL 알고리즘을 만들면 어떨까 싶다.

'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글

[3줄 RL] 큐러닝의 고질병을 해결하다 (1)	2021.07.24
[3줄 RL] 과학적 발견도 에이전트에게 맡겨둬! (0)	2021.07.21
[3줄 RL] 운송수단도 RL로 (0)	2021.07.18
[3줄 RL] RL+Self-Supervised=Adaptation (2)	2021.07.15
[3줄 RL] 재무부 대신 에이전트 (0)	2021.07.13

Bellman

Bellman

태그

최근글

댓글

공지사항

아카이브

'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글

관련글

티스토리툴바