Bellman

[3줄 RL] Curiosity+Contrastive=Sample Efficiency

https://arxiv.org/pdf/2103.08255.pdf 1. Forward-Dynamics Model을 이용한 Curiosity Model, Self-Supervised Learning으로 Sample Efficiency를 높이는 접근은 둘다 좋다. 2.두개의 공통점은 Temporal Difference를 이용한다는 점이다. 현재 state와 다음 state의 차이, prediction error를 기반으로 curiosity를 만들고 contrasive learning을 수행하는 것이다. 두개를 섞어보면 어떨까? 3. Sample Efficient 하면서도 Curiosity 기반하여 exploration이 잘 되는 모습을 확인할 수 있었다. 이럴 때 보면 현재 스텝에서는 알 수 없지만, 다음 ..

2021.08.14

[3줄 RL] Back to basic

https://arxiv.org/abs/1312.5602 Playing Atari with Deep Reinforcement Learning We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw arxiv.org 1. 기존 Tabular Q-Learning은 image와 같은 observation에 대응 ..

2021.08.10

[3줄 Control] 강화학습 그런거 왜씀?

https://arxiv.org/pdf/1912.06088.pdf 1. Goal Learning을 강화학습으로 하는 접근은 사실 좀 쓰기 힘들고, imitation learning은 전문가가 필요해 구현이 어렵다. 2. 그럼 둘다 안쓰고 Iterative Supervised Learning으로 해보는건 어떨까? Trajectory 몇개 가보고 좋은거만 Self-Imitation 해도 되는거잖아? 3. 강화학습보다 더 잘 된다! 아주 싼 비용으로 imitation learning 할 수 있어! 오늘도 self-imitation의 능력을 깨닫는다. Replay memory랑 비슷한듯 하면서 다른 것 같다.

2021.08.09

[3줄 IC] Image Captioning+Curiosity=BAAAM

https://arxiv.org/pdf/1908.00169.pdf 1. 기존 Image Captioning 방법론들은 아예 다른 이미지를 받았음에도 불구하고 비슷한 패턴, 비슷한 캡션을 달아주는 문제가 있었는데, 우리는 Curiosity 기반 RL로 이걸 해결해 보기로 했다. 2. 일전에 소개했던 Self-Supervised 기반의 Intrinsic Reward와 기존에 존재하는 언어적 메져의 선형결합으로 정의되는 Extrinsic Reward의 합으로 최종 리워드가 정의된다. 추가로 Pretraining도 사용한다. 3. 1번에서 언급한 기존 방식의 문제점을 해결하는 아주 자연스러운 형태의 Visual Paragraph generation이 가능했고, RL, curiosity가 모두 성능을 올리는데 중..

2021.08.08

[3줄 RL] 에이전트는 궁금해요

https://arxiv.org/pdf/1705.05363.pdf 1. 안 가본 state를 방문하면 exploration이 정말 잘될 텐데 2. 그럼 안 가본 state를 궁금해하는 모델을 만들자. self-supervised prediction 모델을 학습한 다음 에러만큼 리워드를 주면 curiosity를 정의할 수 있을것이다. 3. sparse한 리워드에 잘 먹히며, 심지어 No reward setting!!! 에서도 잘 된다고 한다.

2021.08.06

[3줄 AutoML] 효율적 NAS의 전설, ENAS

https://arxiv.org/abs/1802.03268 Efficient Neural Architecture Search via Parameter Sharing We propose Efficient Neural Architecture Search (ENAS), a fast and inexpensive approach for automatic model design. In ENAS, a controller learns to discover neural network architectures by searching for an optimal subgraph within a large computational grap arxiv.org 1. 기존 뉴럴 아키텍쳐 서치는 전체 뉴럴넷을 찾느라 비효율적이다. 2..

2021.08.04

Bellman

Bellman

태그

최근글

댓글

공지사항

아카이브

전체 글(67)

티스토리툴바