리워드(2)
-
[3줄 RL] 과학적 발견도 에이전트에게 맡겨둬!
https://openreview.net/pdf?id=S1g2skStPB 1. 과학적 발견, 그러니까 변수들 관의 causal structure를 찾아내는 것은 많은 과학 분야에서 핵심적인 이슈이다. causal structure를 찾는 문제는 주로 DAG(Directed Acyclic Graph)로 표현되며, 대부분의 문제가 많은 조합 수로 인해 NP-hard에 속한다. 2. 최근에 강화학습을 이용해 NP-Hard 수준의 Combinatorial Optimization을 푸는 접근이 매우 Promising 하므로, 본 논문에서는 Acyclicity와 Score Function을 모두 고려하여 DAG를 만드는프레임워크를 제안한다. 3. Synthetic Data와 Real Data에서 모두 Causal ..
2021.07.21 -
[3줄 RL] 리워드 없이도 배운다
https://arxiv.org/pdf/1802.06070.pdf 1. 대부분의 강화학습은 리워드에 기반해 있다. 근데 현실에선 리워드 엔지니어링 하기 애매하고 어려울 때가 많고 무엇보다 하기 싫은데, 리워드 엔지니어링 안 하고 RL 할 방법은 없나? 2. Maximum Entropy 개념과 Discriminator를 도입해서 최대한 diverse하게 skill들을 학습할 수 있도록 만들어 보자! 3. 리워드 없이 다양한 스킬을 학습할 수 있었고, 학습이 진행됨에 따라 스킬들이 분별가능해짐을 알 수 있다. 4. 이런 형태가 조금 더 AGI에 가까운지도 모르겠다는 생각이 들었고, practical 하게는 저 discriminator를 이용해서 exploration을 최대화하는 기존 Reward Based ..
2021.07.19