[3줄 RL] 자가지도학습과 강화학습의 샘플 효율성

2021. 7. 3. 19:32카테고리 없음

<openreview> https://openreview.net/pdf?id=uCQfPZwRaUu

1.self-supervised representation learning은 data efficiency에 있어 큰 발전을 보였는데, 강화학습에서 sample efficiency는 매우 중요한 이슈이므로 이 두가지의 연결점을 찾고자 하였다.

2.state와 next state와 그 augmentation들에 대해 representation learning을 수행하여 self-predictive 한 형태로 학습한다.


3. 실험 결과는 실제로 다소 작은 step(100k)을 진행한 atari26 환경에서 기존 data-efficient RL 방법론을 아웃퍼폼했는데, 이것은 representation learning과 data-efficient RL을 융합하는 접근이 유효함을 시사한다.