2021/08(12)
-
[3줄 RL] 놀랍도록 단순한 자가지도 오프라인 강화학습
https://arxiv.org/pdf/2103.06326.pdf 1. 환경이랑 인터랙션 못하고 데이터만 있을때 유용하게 쓰이는 오프라인 강화학습. 그러나 오버피팅 등 다양한 문제가 있다. 2. 비슷한 state에서는 당연히 비슷한 q-value를 가진다. 그러니까 이거에 기반하면 그냥 stochastic augmentation여러번 해서 q-value 다 구한 다음 그걸로 BE풀면 되네? 3. 정말 Self-Supervision의 핵심을 잘 꿰뚫어본 논문 같다. 결국 같은 데이터를 요리조리 생각해보고 이미지트레이닝(?) 비슷한거 하는게 Self-Supervision의 본질이 아닐까.
2021.08.20 -
[3줄 Control] 샘플링 대신 뉴럴넷
https://arxiv.org/abs/1806.05767 Motion Planning Networks Fast and efficient motion planning algorithms are crucial for many state-of-the-art robotics applications such as self-driving cars. Existing motion planning methods become ineffective as their computational complexity increases exponentially with the dime arxiv.org 1. Path Planning 문제를 기존에 샘플링 베이스드 방법론으로 풀었다. 시간을 오래 들이면 더 좋은 해가 나오지만 실시간 ..
2021.08.18 -
[3줄 RL] COBRA!
https://arxiv.org/pdf/1905.09275.pdf 1. Goal-Objected RL 셋업은 매우 Sample-Efficient한 접근을 가능하게 했고, Model-Based+Representation Learning또한 Sample Efficiency를 업그레이드 했지만 아직 복잡한 환경에 사용하기는 어렵다. Curiosity 기반 Exploration은 매우 Sparse한 환경에서도 Robust한 학습을 보여줬다. 2. 이거 3가지를 다 섞은 모델은 어떨까? Object들의 Representation을 Curiosity에 기반해 잘 뽑아낼 수 있으면서도 Robust하고 Sample-Efficient하지 않을까? COBRA를 소개합니다! 3. Curiosity에 기반한 학습으로 Obje..
2021.08.15 -
[3줄 RL] Curiosity+Contrastive=Sample Efficiency
https://arxiv.org/pdf/2103.08255.pdf 1. Forward-Dynamics Model을 이용한 Curiosity Model, Self-Supervised Learning으로 Sample Efficiency를 높이는 접근은 둘다 좋다. 2.두개의 공통점은 Temporal Difference를 이용한다는 점이다. 현재 state와 다음 state의 차이, prediction error를 기반으로 curiosity를 만들고 contrasive learning을 수행하는 것이다. 두개를 섞어보면 어떨까? 3. Sample Efficient 하면서도 Curiosity 기반하여 exploration이 잘 되는 모습을 확인할 수 있었다. 이럴 때 보면 현재 스텝에서는 알 수 없지만, 다음 ..
2021.08.14 -
[3줄 RL] Back to basic
https://arxiv.org/abs/1312.5602 Playing Atari with Deep Reinforcement Learning We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw arxiv.org 1. 기존 Tabular Q-Learning은 image와 같은 observation에 대응 ..
2021.08.10 -
[3줄 Control] 강화학습 그런거 왜씀?
https://arxiv.org/pdf/1912.06088.pdf 1. Goal Learning을 강화학습으로 하는 접근은 사실 좀 쓰기 힘들고, imitation learning은 전문가가 필요해 구현이 어렵다. 2. 그럼 둘다 안쓰고 Iterative Supervised Learning으로 해보는건 어떨까? Trajectory 몇개 가보고 좋은거만 Self-Imitation 해도 되는거잖아? 3. 강화학습보다 더 잘 된다! 아주 싼 비용으로 imitation learning 할 수 있어! 오늘도 self-imitation의 능력을 깨닫는다. Replay memory랑 비슷한듯 하면서 다른 것 같다.
2021.08.09