[3줄 RL] 놀랍도록 단순한 자가지도 오프라인 강화학습

[3줄 RL] 놀랍도록 단순한 자가지도 오프라인 강화학습

2021. 8. 20. 23:40ㆍAI Paper Review/Deep RL Papers [EN]

<arxiv> https://arxiv.org/pdf/2103.06326.pdf
1. 환경이랑 인터랙션 못하고 데이터만 있을때 유용하게 쓰이는 오프라인 강화학습. 그러나 오버피팅 등 다양한 문제가 있다.

2. 비슷한 state에서는 당연히 비슷한 q-value를 가진다. 그러니까 이거에 기반하면 그냥 stochastic augmentation여러번 해서 q-value 다 구한 다음 그걸로 BE풀면 되네?

3. 정말 Self-Supervision의 핵심을 잘 꿰뚫어본 논문 같다. 결국 같은 데이터를 요리조리 생각해보고 이미지트레이닝(?) 비슷한거 하는게 Self-Supervision의 본질이 아닐까.

'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글

[3줄 RL] COBRA! (0)	2021.08.15
[3줄 RL] Curiosity+Contrastive=Sample Efficiency (0)	2021.08.14
[3줄 RL] Back to basic (0)	2021.08.10
[3줄 RL] 에이전트는 궁금해요 (0)	2021.08.06
[3줄 RL] RL + Contrastive = sample efficiency (0)	2021.08.01

Bellman

Bellman

태그

최근글

댓글

공지사항

아카이브

'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글

관련글

티스토리툴바