[3줄 RL] 놀랍도록 단순한 자가지도 오프라인 강화학습
2021. 8. 20. 23:40ㆍAI Paper Review/Deep RL Papers [EN]
<arxiv> https://arxiv.org/pdf/2103.06326.pdf
1. 환경이랑 인터랙션 못하고 데이터만 있을때 유용하게 쓰이는 오프라인 강화학습. 그러나 오버피팅 등 다양한 문제가 있다.
2. 비슷한 state에서는 당연히 비슷한 q-value를 가진다. 그러니까 이거에 기반하면 그냥 stochastic augmentation여러번 해서 q-value 다 구한 다음 그걸로 BE풀면 되네?
3. 정말 Self-Supervision의 핵심을 잘 꿰뚫어본 논문 같다. 결국 같은 데이터를 요리조리 생각해보고 이미지트레이닝(?) 비슷한거 하는게 Self-Supervision의 본질이 아닐까.
'AI Paper Review > Deep RL Papers [EN]' 카테고리의 다른 글
[3줄 RL] COBRA! (0) | 2021.08.15 |
---|---|
[3줄 RL] Curiosity+Contrastive=Sample Efficiency (0) | 2021.08.14 |
[3줄 RL] Back to basic (0) | 2021.08.10 |
[3줄 RL] 에이전트는 궁금해요 (0) | 2021.08.06 |
[3줄 RL] RL + Contrastive = sample efficiency (0) | 2021.08.01 |