DDPG(2)
-
[3줄 RL] RL로 QP 풀기
https://arxiv.org/pdf/2107.10847.pdf 1. OSQP의 first-order optimization은 임베디드 제어 등에서 큰 역할을 한다. 또한 최근 강화학습을 이용해 combinatorial optimization 문제를 해결하는 등의 사례가 늘고 있다. 2. 이에 따라 QP 솔버의 하이퍼파라미터를 기존 휴리스틱한 방법이나 사람이 직접 튜닝하는 대신 RL(TD3)을 사용해 튜닝하는 프레임워크를 본 논문에서는 제안하고 있다. 3. 실제로 성능이 큰 폭으로 개선된 것을 볼 수 있다. 전통적인 제어등 최적화 분야에서 강화학습이 제어기 자체를 e2e로 대체하는 접근보다 하이퍼파라미터 튜닝 등 최적화 관점에서 접근하는게 더 빠르고 효율적이라는 생각을 항상 가지고 있다.
2021.07.30 -
[3줄 AutoML] AMC, 미국 작전주가 아니라 뉴럴넷 컴프레서!
https://arxiv.org/pdf/1802.03494v4.pdf 1. 뉴럴넷 경량화는 당연하게도 디플로이 시 매우 중요한 것 중 하나인데, 사람이 하면 그냥 쌩 노가다에 가까운 작업이다(해봐서 안다) 그래서 이것을 자동화할 수 있다면 정말 대박인데, 그래서 이 논문이 대박이다(?) 2. 뉴럴넷 레이어의 임베딩을 받고 적정한 압축률을 제시하는 강화학습 에이전트(DDPG)를 이용해 자동화된 뉴럴넷 압축을 수행하게 되는데, 모델의 특성상 RNN을 사용하지 않아도 되어서 가볍다. 또한 리워드는 압축률과 정확성을 모두 잘 고려한 형태로 정의된다. 3. Human Expert에 비해 높은 압축률과 정확도를 취할 수 있었으며, 오버피팅 또한 관찰되지 않았다.
2021.07.12