[3줄 Control] 강화학습 그런거 왜씀?

2021. 8. 9. 17:37카테고리 없음

<arxiv> https://arxiv.org/pdf/1912.06088.pdf

1. Goal Learning을 강화학습으로 하는 접근은 사실 좀 쓰기 힘들고, imitation learning은 전문가가 필요해 구현이 어렵다.
2. 그럼 둘다 안쓰고 Iterative Supervised Learning으로 해보는건 어떨까? Trajectory 몇개 가보고 좋은거만 Self-Imitation 해도 되는거잖아?

3. 강화학습보다 더 잘 된다! 아주 싼 비용으로 imitation learning 할 수 있어! 오늘도 self-imitation의 능력을 깨닫는다. Replay memory랑 비슷한듯 하면서 다른 것 같다.

Experimental Results