rl(19)
-
[3줄 AutoML] S-Oil? S-GAS
https://arxiv.org/pdf/1912.00195.pdf 1. 기존 DARTS 정말 효율적이고 다 좋은데, 아직도 end-to-end 냄새가 난다. 문제를 부분 문제로 분할해 보자. 2. 매 스텝마다 어떤 메트릭에 따른 greedy decision으로 에지를 날려보면 어떨까? 이러면 엄청 효율적이지 않을까? 3. 잘 된다! 심지어 GCN도 찾아봤는데 되게 잘 된다. gpu 코스트도 darts에 비해 매우 낮아져 정말로 보급형 nas의 시대가 열린다! 3. 잘 된다! 심지어 GCN도 찾아봤는데 되게 잘 된다. gpu 코스트도 darts에 비해 매우 낮아져 정말로 보급형 nas의 시대가 열린다! 4. 오늘도 부분문제 분할은 항상 옳다는 것을 깨닫는다.
2021.08.02 -
[3줄 RL] RL + Contrastive = sample efficiency
https://arxiv.org/pdf/2004.04136.pdf 1. 큰 observation size를 가진 강화학습 문제는 보통 sample inefficient한데, contrastive learning은 data augmentation 등을 통해 학습하므로 데이터를 레버리징하는 효과가 있다. 2. 따라서 둘을 합친 형태의 제너럴한 강화학습 프레임워크를 제안한다. 다른 논문들처럼 미래를 예측하는 world-model 스타일 대신 간단한 augmentation을 통한 contrastive learning을 사용한다. 3. 다양한 알고리즘에 적용한 결과 sample efficiency를 향상할 수 있었다. 최근 이런 스타일의 논문이 많이 보이는데, 강화학습 말고도 contrasive learning ..
2021.08.01 -
[3줄 AutoML] RNN형은 잠깐 빠져있어
https://arxiv.org/pdf/1806.09055.pdf 1. 기존 NAS는 RNN 컨트롤러를 이용해 연산을 하나하나 선택해서 뉴럴넷 만든다음 학습하고 다시 컨트롤러를 강화학습을 사용해 학습하는, “아키텍쳐의 val loss에 대해 controller가 미분가능하지 않은” 비효율적인 학습 방법을 사용했다. 2. 그래서 이번에는 아예 모든 연산을 다 쓰되, 그 연산의 가중치를 컨트롤로의 아웃풋(softmax) 값으로 하는 방식으로 한다. 3. 엄청나게 빠른 속도로 좋은 성능의 모델을 찾아낼 수 있었으며, CIFAR10-ImageNet으로, PTB-WT2로 generalization도 할 수 있다! 4. NAS만 놓고 본다면 매우 좋은 방법론임에 틀림없지만 다른 도메인의 DAG는 differenti..
2021.07.31 -
[3줄 RL] RL로 QP 풀기
https://arxiv.org/pdf/2107.10847.pdf 1. OSQP의 first-order optimization은 임베디드 제어 등에서 큰 역할을 한다. 또한 최근 강화학습을 이용해 combinatorial optimization 문제를 해결하는 등의 사례가 늘고 있다. 2. 이에 따라 QP 솔버의 하이퍼파라미터를 기존 휴리스틱한 방법이나 사람이 직접 튜닝하는 대신 RL(TD3)을 사용해 튜닝하는 프레임워크를 본 논문에서는 제안하고 있다. 3. 실제로 성능이 큰 폭으로 개선된 것을 볼 수 있다. 전통적인 제어등 최적화 분야에서 강화학습이 제어기 자체를 e2e로 대체하는 접근보다 하이퍼파라미터 튜닝 등 최적화 관점에서 접근하는게 더 빠르고 효율적이라는 생각을 항상 가지고 있다.
2021.07.30 -
[3줄 RL] 큐러닝의 고질병을 해결하다
https://openreview.net/pdf?id=Bkg0u3Etwr 1. q-learning에서 underestimation 또는 overestimation bias는 q-learning에서 argmax Q(s,a)를 타겟으로 사용해 발생하는 고질적인 문제이다. 어떤 환경에서는 underestimation이, 어떤 환경에서는 overestimation이 나쁘다. 2. 이런 것을 보완하기 위해 double q-learning이 고안되기도 했지만 이것은 과도한 underestimation을 가져오기 때문에, 본 논문에서는 Q함수를 N개 사용하고 그중 가장 작은 것을 타겟으로 사용하는 maxmin q-learning을 제안한다. 3. 이것을 DQN에 적용하게 되면 여러개의 타겟 큐함수를 만들어놓고 매스텝..
2021.07.24 -
[3줄 RL] 리워드 없이도 배운다
https://arxiv.org/pdf/1802.06070.pdf 1. 대부분의 강화학습은 리워드에 기반해 있다. 근데 현실에선 리워드 엔지니어링 하기 애매하고 어려울 때가 많고 무엇보다 하기 싫은데, 리워드 엔지니어링 안 하고 RL 할 방법은 없나? 2. Maximum Entropy 개념과 Discriminator를 도입해서 최대한 diverse하게 skill들을 학습할 수 있도록 만들어 보자! 3. 리워드 없이 다양한 스킬을 학습할 수 있었고, 학습이 진행됨에 따라 스킬들이 분별가능해짐을 알 수 있다. 4. 이런 형태가 조금 더 AGI에 가까운지도 모르겠다는 생각이 들었고, practical 하게는 저 discriminator를 이용해서 exploration을 최대화하는 기존 Reward Based ..
2021.07.19