[3줄 RL] RL + Contrastive = sample efficiency

2021. 8. 1. 16:21AI Paper Review/Deep RL Papers [EN]

<arxiv> https://arxiv.org/pdf/2004.04136.pdf

1. 큰 observation size를 가진 강화학습 문제는 보통 sample inefficient한데, contrastive learning은 data augmentation 등을 통해 학습하므로 데이터를 레버리징하는 효과가 있다.

2. 따라서 둘을 합친 형태의 제너럴한 강화학습 프레임워크를 제안한다. 다른 논문들처럼 미래를 예측하는 world-model 스타일 대신 간단한 augmentation을 통한 contrastive learning을 사용한다.

Method Overview

3. 다양한 알고리즘에 적용한 결과 sample efficiency를 향상할 수 있었다. 최근 이런 스타일의 논문이 많이 보이는데, 강화학습 말고도 contrasive learning 같은 것들을 데이터셋을 레버리징 하는데 사용하면 좋을 것 같다.

experimental results

'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글

[3줄 RL] Back to basic  (0) 2021.08.10
[3줄 RL] 에이전트는 궁금해요  (0) 2021.08.06
[3줄 RL] RL로 QP 풀기  (0) 2021.07.30
[3줄 RL] 빨간 Q  (0) 2021.07.28
[3줄 RL] 큐러닝의 고질병을 해결하다  (1) 2021.07.24