AI Paper Review/Deep RL Papers [EN](20)
-
[3줄 RL] 놀랍도록 단순한 자가지도 오프라인 강화학습
https://arxiv.org/pdf/2103.06326.pdf 1. 환경이랑 인터랙션 못하고 데이터만 있을때 유용하게 쓰이는 오프라인 강화학습. 그러나 오버피팅 등 다양한 문제가 있다. 2. 비슷한 state에서는 당연히 비슷한 q-value를 가진다. 그러니까 이거에 기반하면 그냥 stochastic augmentation여러번 해서 q-value 다 구한 다음 그걸로 BE풀면 되네? 3. 정말 Self-Supervision의 핵심을 잘 꿰뚫어본 논문 같다. 결국 같은 데이터를 요리조리 생각해보고 이미지트레이닝(?) 비슷한거 하는게 Self-Supervision의 본질이 아닐까.
2021.08.20 -
[3줄 RL] COBRA!
https://arxiv.org/pdf/1905.09275.pdf 1. Goal-Objected RL 셋업은 매우 Sample-Efficient한 접근을 가능하게 했고, Model-Based+Representation Learning또한 Sample Efficiency를 업그레이드 했지만 아직 복잡한 환경에 사용하기는 어렵다. Curiosity 기반 Exploration은 매우 Sparse한 환경에서도 Robust한 학습을 보여줬다. 2. 이거 3가지를 다 섞은 모델은 어떨까? Object들의 Representation을 Curiosity에 기반해 잘 뽑아낼 수 있으면서도 Robust하고 Sample-Efficient하지 않을까? COBRA를 소개합니다! 3. Curiosity에 기반한 학습으로 Obje..
2021.08.15 -
[3줄 RL] Curiosity+Contrastive=Sample Efficiency
https://arxiv.org/pdf/2103.08255.pdf 1. Forward-Dynamics Model을 이용한 Curiosity Model, Self-Supervised Learning으로 Sample Efficiency를 높이는 접근은 둘다 좋다. 2.두개의 공통점은 Temporal Difference를 이용한다는 점이다. 현재 state와 다음 state의 차이, prediction error를 기반으로 curiosity를 만들고 contrasive learning을 수행하는 것이다. 두개를 섞어보면 어떨까? 3. Sample Efficient 하면서도 Curiosity 기반하여 exploration이 잘 되는 모습을 확인할 수 있었다. 이럴 때 보면 현재 스텝에서는 알 수 없지만, 다음 ..
2021.08.14 -
[3줄 RL] Back to basic
https://arxiv.org/abs/1312.5602 Playing Atari with Deep Reinforcement Learning We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw arxiv.org 1. 기존 Tabular Q-Learning은 image와 같은 observation에 대응 ..
2021.08.10 -
[3줄 RL] 에이전트는 궁금해요
https://arxiv.org/pdf/1705.05363.pdf 1. 안 가본 state를 방문하면 exploration이 정말 잘될 텐데 2. 그럼 안 가본 state를 궁금해하는 모델을 만들자. self-supervised prediction 모델을 학습한 다음 에러만큼 리워드를 주면 curiosity를 정의할 수 있을것이다. 3. sparse한 리워드에 잘 먹히며, 심지어 No reward setting!!! 에서도 잘 된다고 한다.
2021.08.06 -
[3줄 RL] RL + Contrastive = sample efficiency
https://arxiv.org/pdf/2004.04136.pdf 1. 큰 observation size를 가진 강화학습 문제는 보통 sample inefficient한데, contrastive learning은 data augmentation 등을 통해 학습하므로 데이터를 레버리징하는 효과가 있다. 2. 따라서 둘을 합친 형태의 제너럴한 강화학습 프레임워크를 제안한다. 다른 논문들처럼 미래를 예측하는 world-model 스타일 대신 간단한 augmentation을 통한 contrastive learning을 사용한다. 3. 다양한 알고리즘에 적용한 결과 sample efficiency를 향상할 수 있었다. 최근 이런 스타일의 논문이 많이 보이는데, 강화학습 말고도 contrasive learning ..
2021.08.01