딥러닝(20)
-
[3줄 IC] Image Captioning+Curiosity=BAAAM
https://arxiv.org/pdf/1908.00169.pdf 1. 기존 Image Captioning 방법론들은 아예 다른 이미지를 받았음에도 불구하고 비슷한 패턴, 비슷한 캡션을 달아주는 문제가 있었는데, 우리는 Curiosity 기반 RL로 이걸 해결해 보기로 했다. 2. 일전에 소개했던 Self-Supervised 기반의 Intrinsic Reward와 기존에 존재하는 언어적 메져의 선형결합으로 정의되는 Extrinsic Reward의 합으로 최종 리워드가 정의된다. 추가로 Pretraining도 사용한다. 3. 1번에서 언급한 기존 방식의 문제점을 해결하는 아주 자연스러운 형태의 Visual Paragraph generation이 가능했고, RL, curiosity가 모두 성능을 올리는데 중..
2021.08.08 -
[3줄 AutoML] 효율적 NAS의 전설, ENAS
https://arxiv.org/abs/1802.03268 Efficient Neural Architecture Search via Parameter Sharing We propose Efficient Neural Architecture Search (ENAS), a fast and inexpensive approach for automatic model design. In ENAS, a controller learns to discover neural network architectures by searching for an optimal subgraph within a large computational grap arxiv.org 1. 기존 뉴럴 아키텍쳐 서치는 전체 뉴럴넷을 찾느라 비효율적이다. 2..
2021.08.04 -
[3줄 AutoML] FMRI도 FINANCE도 뉴럴넷에 맡겨줘!
https://res.mdpi.com/d_attachment/make/make-01-00019/article_deploy/make-01-00019-v2.pdf 1. casual relationship discovery problem은 주로 iid 가정이고, 시계열에 하려면 많은 고민과 고난(challenge)가 필요하다. 2. 그래서 Delay analysis까지 포함된 Attention-Based CNN 모델으로 본 문제를 해결해보도록 하겠다. 3. CAPM을 기반으로 만든 Finance 데이터셋 등에서 괜찮은 성능을 냈다고 한다. 개인적으로 성능으로 보나 모델의 구조적인 한계(non-stationary 데이터를 예측)로 보나 예측 성능보다는 casual relationship discovery에 초점..
2021.08.03 -
[3줄 RL] RL + Contrastive = sample efficiency
https://arxiv.org/pdf/2004.04136.pdf 1. 큰 observation size를 가진 강화학습 문제는 보통 sample inefficient한데, contrastive learning은 data augmentation 등을 통해 학습하므로 데이터를 레버리징하는 효과가 있다. 2. 따라서 둘을 합친 형태의 제너럴한 강화학습 프레임워크를 제안한다. 다른 논문들처럼 미래를 예측하는 world-model 스타일 대신 간단한 augmentation을 통한 contrastive learning을 사용한다. 3. 다양한 알고리즘에 적용한 결과 sample efficiency를 향상할 수 있었다. 최근 이런 스타일의 논문이 많이 보이는데, 강화학습 말고도 contrasive learning ..
2021.08.01 -
[3줄 RL] 빨간 Q
https://openreview.net/pdf?id=AY8zfZm0tDd 1. 모델 베이스드 방법론들 최근에 되게 좋은 sample efficiency 보여줬는데, 우리는 모델 프리로 기존 모델 베이스드 방법들 이겨보겠다. 또한 자원도 덜 쓰는 모델을 만들겠다! 2. Sample Efficient 하다는건 데이터를 잘 쓴다는 뜻이므로 Update-To-Data Ratio를 올린 알고리즘을 만들어야지? 근데 그럼 다른 알고리즘도 UTD ratio 올리면 잘 되는거 아니냐는 반문이 있을 수 있다. 3. 그렇지만 SAC 같은 알고리즘은 UTD ratio를 너무 많이 쓰면 당연하게도 bias와 그 표준편차가 매우 커져 불안정하게 된다. 이것을 해결하기 위해 ensemble 방법론과 in-target minim..
2021.07.28 -
[3줄 RL] 큐러닝의 고질병을 해결하다
https://openreview.net/pdf?id=Bkg0u3Etwr 1. q-learning에서 underestimation 또는 overestimation bias는 q-learning에서 argmax Q(s,a)를 타겟으로 사용해 발생하는 고질적인 문제이다. 어떤 환경에서는 underestimation이, 어떤 환경에서는 overestimation이 나쁘다. 2. 이런 것을 보완하기 위해 double q-learning이 고안되기도 했지만 이것은 과도한 underestimation을 가져오기 때문에, 본 논문에서는 Q함수를 N개 사용하고 그중 가장 작은 것을 타겟으로 사용하는 maxmin q-learning을 제안한다. 3. 이것을 DQN에 적용하게 되면 여러개의 타겟 큐함수를 만들어놓고 매스텝..
2021.07.24