[3줄 RL] Curiosity+Contrastive=Sample Efficiency

[3줄 RL] Curiosity+Contrastive=Sample Efficiency

2021. 8. 14. 10:32ㆍAI Paper Review/Deep RL Papers [EN]

<arxiv> https://arxiv.org/pdf/2103.08255.pdf

1. Forward-Dynamics Model을 이용한 Curiosity Model, Self-Supervised Learning으로 Sample Efficiency를 높이는 접근은 둘다 좋다.

2.두개의 공통점은 Temporal Difference를 이용한다는 점이다. 현재 state와 다음 state의 차이, prediction error를 기반으로 curiosity를 만들고 contrasive learning을 수행하는 것이다. 두개를 섞어보면 어떨까?

3. Sample Efficient 하면서도 Curiosity 기반하여 exploration이 잘 되는 모습을 확인할 수 있었다. 이럴 때 보면 현재 스텝에서는 알 수 없지만, 다음 스텝에서는 알 수 있는 정보를 활용하는 TD식 접근은 정말 놀라운 것 같다.

'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글

[3줄 RL] 놀랍도록 단순한 자가지도 오프라인 강화학습 (0)	2021.08.20
[3줄 RL] COBRA! (0)	2021.08.15
[3줄 RL] Back to basic (0)	2021.08.10
[3줄 RL] 에이전트는 궁금해요 (0)	2021.08.06
[3줄 RL] RL + Contrastive = sample efficiency (0)	2021.08.01

Bellman

Bellman

태그

최근글

댓글

공지사항

아카이브

'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글

관련글

티스토리툴바