AI Paper Review/Deep RL Papers [EN](20)
-
[3줄 RL] RL로 QP 풀기
https://arxiv.org/pdf/2107.10847.pdf 1. OSQP의 first-order optimization은 임베디드 제어 등에서 큰 역할을 한다. 또한 최근 강화학습을 이용해 combinatorial optimization 문제를 해결하는 등의 사례가 늘고 있다. 2. 이에 따라 QP 솔버의 하이퍼파라미터를 기존 휴리스틱한 방법이나 사람이 직접 튜닝하는 대신 RL(TD3)을 사용해 튜닝하는 프레임워크를 본 논문에서는 제안하고 있다. 3. 실제로 성능이 큰 폭으로 개선된 것을 볼 수 있다. 전통적인 제어등 최적화 분야에서 강화학습이 제어기 자체를 e2e로 대체하는 접근보다 하이퍼파라미터 튜닝 등 최적화 관점에서 접근하는게 더 빠르고 효율적이라는 생각을 항상 가지고 있다.
2021.07.30 -
[3줄 RL] 빨간 Q
https://openreview.net/pdf?id=AY8zfZm0tDd 1. 모델 베이스드 방법론들 최근에 되게 좋은 sample efficiency 보여줬는데, 우리는 모델 프리로 기존 모델 베이스드 방법들 이겨보겠다. 또한 자원도 덜 쓰는 모델을 만들겠다! 2. Sample Efficient 하다는건 데이터를 잘 쓴다는 뜻이므로 Update-To-Data Ratio를 올린 알고리즘을 만들어야지? 근데 그럼 다른 알고리즘도 UTD ratio 올리면 잘 되는거 아니냐는 반문이 있을 수 있다. 3. 그렇지만 SAC 같은 알고리즘은 UTD ratio를 너무 많이 쓰면 당연하게도 bias와 그 표준편차가 매우 커져 불안정하게 된다. 이것을 해결하기 위해 ensemble 방법론과 in-target minim..
2021.07.28 -
[3줄 RL] 큐러닝의 고질병을 해결하다
https://openreview.net/pdf?id=Bkg0u3Etwr 1. q-learning에서 underestimation 또는 overestimation bias는 q-learning에서 argmax Q(s,a)를 타겟으로 사용해 발생하는 고질적인 문제이다. 어떤 환경에서는 underestimation이, 어떤 환경에서는 overestimation이 나쁘다. 2. 이런 것을 보완하기 위해 double q-learning이 고안되기도 했지만 이것은 과도한 underestimation을 가져오기 때문에, 본 논문에서는 Q함수를 N개 사용하고 그중 가장 작은 것을 타겟으로 사용하는 maxmin q-learning을 제안한다. 3. 이것을 DQN에 적용하게 되면 여러개의 타겟 큐함수를 만들어놓고 매스텝..
2021.07.24 -
[3줄 RL] 과학적 발견도 에이전트에게 맡겨둬!
https://openreview.net/pdf?id=S1g2skStPB 1. 과학적 발견, 그러니까 변수들 관의 causal structure를 찾아내는 것은 많은 과학 분야에서 핵심적인 이슈이다. causal structure를 찾는 문제는 주로 DAG(Directed Acyclic Graph)로 표현되며, 대부분의 문제가 많은 조합 수로 인해 NP-hard에 속한다. 2. 최근에 강화학습을 이용해 NP-Hard 수준의 Combinatorial Optimization을 푸는 접근이 매우 Promising 하므로, 본 논문에서는 Acyclicity와 Score Function을 모두 고려하여 DAG를 만드는프레임워크를 제안한다. 3. Synthetic Data와 Real Data에서 모두 Causal ..
2021.07.21 -
[3줄 RL] 리워드 없이도 배운다
https://arxiv.org/pdf/1802.06070.pdf 1. 대부분의 강화학습은 리워드에 기반해 있다. 근데 현실에선 리워드 엔지니어링 하기 애매하고 어려울 때가 많고 무엇보다 하기 싫은데, 리워드 엔지니어링 안 하고 RL 할 방법은 없나? 2. Maximum Entropy 개념과 Discriminator를 도입해서 최대한 diverse하게 skill들을 학습할 수 있도록 만들어 보자! 3. 리워드 없이 다양한 스킬을 학습할 수 있었고, 학습이 진행됨에 따라 스킬들이 분별가능해짐을 알 수 있다. 4. 이런 형태가 조금 더 AGI에 가까운지도 모르겠다는 생각이 들었고, practical 하게는 저 discriminator를 이용해서 exploration을 최대화하는 기존 Reward Based ..
2021.07.19 -
[3줄 RL] 운송수단도 RL로
https://openreview.net/pdf?id=SkyQShLaf 1. 현대의 교통 시스템은 많이 복잡해져서 최적화가 필요하며, 이것은 커다란 nonlinear combinatorial optimization으로 풀 수 있다. 2. 차원의 저주를 피하기 위해 오토인코더를 사용하여 현재 상태(origin-dest pairs) 를 축소하여 DQN 네트워크에 피드하고, 에이전트는 O-D 페어를 어떻게 추가할지를 결정하고 효율성 등을 리워드로 받는다. 3. 결론적으로는 최적화가 잘 되는 것을 보여주었으며, Neural Combinatorial Optimization+Deep RL 컨셉이 할수있는 일이 정말 많은 것 같다는 생각이 든다. 독자님들도 이런 어플리케이션 논문 재밌는거 있으면 추천해주시라.
2021.07.18