rl(19)
-
[3줄 AutoML] 공격에도 끄떡없는
https://arxiv.org/pdf/2101.05950.pdf 1. 성능좋은 AutoML에 대한 연구는 많은데 왜 Adversarial Attack에 Robust한 Feature Selection을 해주는 AutoML은 없을까? 2. 그래서 ERM 기반으로 0-1 Robust Error를 정의하고 이거 기반으로 옵티마이즈 하는 Robusta라는 프레임웤을 준비했어. 3. 실제로 공격해 보았는데도 다른 방법론들에 비해 Robustness가 괜찮았고, AutoML이 옵티마이즈할 새로운 Objective Function (Robustness)을 제시했다는 관점에서 노블티를 줄 수 있을 것 같아.
2021.09.12 -
[3줄 RL] 놀랍도록 단순한 자가지도 오프라인 강화학습
https://arxiv.org/pdf/2103.06326.pdf 1. 환경이랑 인터랙션 못하고 데이터만 있을때 유용하게 쓰이는 오프라인 강화학습. 그러나 오버피팅 등 다양한 문제가 있다. 2. 비슷한 state에서는 당연히 비슷한 q-value를 가진다. 그러니까 이거에 기반하면 그냥 stochastic augmentation여러번 해서 q-value 다 구한 다음 그걸로 BE풀면 되네? 3. 정말 Self-Supervision의 핵심을 잘 꿰뚫어본 논문 같다. 결국 같은 데이터를 요리조리 생각해보고 이미지트레이닝(?) 비슷한거 하는게 Self-Supervision의 본질이 아닐까.
2021.08.20 -
[3줄 RL] COBRA!
https://arxiv.org/pdf/1905.09275.pdf 1. Goal-Objected RL 셋업은 매우 Sample-Efficient한 접근을 가능하게 했고, Model-Based+Representation Learning또한 Sample Efficiency를 업그레이드 했지만 아직 복잡한 환경에 사용하기는 어렵다. Curiosity 기반 Exploration은 매우 Sparse한 환경에서도 Robust한 학습을 보여줬다. 2. 이거 3가지를 다 섞은 모델은 어떨까? Object들의 Representation을 Curiosity에 기반해 잘 뽑아낼 수 있으면서도 Robust하고 Sample-Efficient하지 않을까? COBRA를 소개합니다! 3. Curiosity에 기반한 학습으로 Obje..
2021.08.15 -
[3줄 RL] Curiosity+Contrastive=Sample Efficiency
https://arxiv.org/pdf/2103.08255.pdf 1. Forward-Dynamics Model을 이용한 Curiosity Model, Self-Supervised Learning으로 Sample Efficiency를 높이는 접근은 둘다 좋다. 2.두개의 공통점은 Temporal Difference를 이용한다는 점이다. 현재 state와 다음 state의 차이, prediction error를 기반으로 curiosity를 만들고 contrasive learning을 수행하는 것이다. 두개를 섞어보면 어떨까? 3. Sample Efficient 하면서도 Curiosity 기반하여 exploration이 잘 되는 모습을 확인할 수 있었다. 이럴 때 보면 현재 스텝에서는 알 수 없지만, 다음 ..
2021.08.14 -
[3줄 RL] Back to basic
https://arxiv.org/abs/1312.5602 Playing Atari with Deep Reinforcement Learning We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw arxiv.org 1. 기존 Tabular Q-Learning은 image와 같은 observation에 대응 ..
2021.08.10 -
[3줄 IC] Image Captioning+Curiosity=BAAAM
https://arxiv.org/pdf/1908.00169.pdf 1. 기존 Image Captioning 방법론들은 아예 다른 이미지를 받았음에도 불구하고 비슷한 패턴, 비슷한 캡션을 달아주는 문제가 있었는데, 우리는 Curiosity 기반 RL로 이걸 해결해 보기로 했다. 2. 일전에 소개했던 Self-Supervised 기반의 Intrinsic Reward와 기존에 존재하는 언어적 메져의 선형결합으로 정의되는 Extrinsic Reward의 합으로 최종 리워드가 정의된다. 추가로 Pretraining도 사용한다. 3. 1번에서 언급한 기존 방식의 문제점을 해결하는 아주 자연스러운 형태의 Visual Paragraph generation이 가능했고, RL, curiosity가 모두 성능을 올리는데 중..
2021.08.08