[3줄 RL] 놀랍도록 단순한 자가지도 오프라인 강화학습

2021. 8. 20. 23:40AI Paper Review/Deep RL Papers [EN]

<arxiv> https://arxiv.org/pdf/2103.06326.pdf
1. 환경이랑 인터랙션 못하고 데이터만 있을때 유용하게 쓰이는 오프라인 강화학습. 그러나 오버피팅 등 다양한 문제가 있다.

2. 비슷한 state에서는 당연히 비슷한 q-value를 가진다. 그러니까 이거에 기반하면 그냥 stochastic augmentation여러번 해서 q-value 다 구한 다음 그걸로 BE풀면 되네?

Proposed Method(약간 허탈한)
Self-Supervised Objective

3. 정말 Self-Supervision의 핵심을 잘 꿰뚫어본 논문 같다. 결국 같은 데이터를 요리조리 생각해보고 이미지트레이닝(?) 비슷한거 하는게 Self-Supervision의 본질이 아닐까.

결과가 좋으니 논문으로 썼겠지?