[3줄 RL] RL + Contrastive = sample efficiency

[3줄 RL] RL + Contrastive = sample efficiency

2021. 8. 1. 16:21ㆍAI Paper Review/Deep RL Papers [EN]

<arxiv> https://arxiv.org/pdf/2004.04136.pdf

1. 큰 observation size를 가진 강화학습 문제는 보통 sample inefficient한데, contrastive learning은 data augmentation 등을 통해 학습하므로 데이터를 레버리징하는 효과가 있다.

2. 따라서 둘을 합친 형태의 제너럴한 강화학습 프레임워크를 제안한다. 다른 논문들처럼 미래를 예측하는 world-model 스타일 대신 간단한 augmentation을 통한 contrastive learning을 사용한다.

3. 다양한 알고리즘에 적용한 결과 sample efficiency를 향상할 수 있었다. 최근 이런 스타일의 논문이 많이 보이는데, 강화학습 말고도 contrasive learning 같은 것들을 데이터셋을 레버리징 하는데 사용하면 좋을 것 같다.

'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글

[3줄 RL] Back to basic (0)	2021.08.10
[3줄 RL] 에이전트는 궁금해요 (0)	2021.08.06
[3줄 RL] RL로 QP 풀기 (0)	2021.07.30
[3줄 RL] 빨간 Q (0)	2021.07.28
[3줄 RL] 큐러닝의 고질병을 해결하다 (1)	2021.07.24

Bellman Bellman 님의 블로그입니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Bellman

Bellman

태그

최근글

댓글

공지사항

아카이브

'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역