2021/07(30)
-
[3줄 Survey] RL for CO
https://arxiv.org/pdf/2003.03600.pdf 1. Combinatorial Optimization(CO)는 일반적으로 TSP등 조합을 최적화하는 매우 어려운(NP-hard)에 대한 솔루션이다. 대표적인 어플리케이션으로는 칩 설계, 교통체계 최적화, 유전자 설계 등이 있다. 2. 강화학습으로 Combinatorial Optimization을 풀었을 때의 이점은, 기본적으로 강화학습을 Search Space Reduction의 관점에서 보았을 때에 의미가 있다. 강화학습은 단순히 어떤 조합을 시도하는 것을 넘어 Trial And Error를 통해 비선형적 패턴을 학습하고 조금 더 새로운 샘플을 찾아 나간다. 이것은 RL로 CO를 풀었을 때 결과물의 퀄리티가 매우 좋아지게 하고, 기존 알..
2021.07.18 -
[3줄 RL] 운송수단도 RL로
https://openreview.net/pdf?id=SkyQShLaf 1. 현대의 교통 시스템은 많이 복잡해져서 최적화가 필요하며, 이것은 커다란 nonlinear combinatorial optimization으로 풀 수 있다. 2. 차원의 저주를 피하기 위해 오토인코더를 사용하여 현재 상태(origin-dest pairs) 를 축소하여 DQN 네트워크에 피드하고, 에이전트는 O-D 페어를 어떻게 추가할지를 결정하고 효율성 등을 리워드로 받는다. 3. 결론적으로는 최적화가 잘 되는 것을 보여주었으며, Neural Combinatorial Optimization+Deep RL 컨셉이 할수있는 일이 정말 많은 것 같다는 생각이 든다. 독자님들도 이런 어플리케이션 논문 재밌는거 있으면 추천해주시라.
2021.07.18 -
[3줄 RL] RL+Self-Supervised=Adaptation
https://openreview.net/pdf?id=o_V-MjyyGV_ 1. 강화학습에서 Generalization은 굉장히 큰 문제인데, 가령 Sim-to-real 문제처럼 태스크는 같지만 observation이 다른 텍스쳐로 들어오는 문제가 있다. 2. 그렇다면 이러한 문제를 해결하는 핵심은 새로 바뀐 observation에 잘 adaptation 되도록 뉴럴넷을 재학습시키는 것이다. Visual Representation을 배우는데 좋은 방법인 Self-Supervised Learning을 사용한다. SSL 태스크는 rotation prediction 등 다양하게 사용할 수 있다. 3. 로봇 매니퓰레이터 sim-to-real, 장애물 넣기나 백그라운드를 바꾼 Deepmind Control 태스크..
2021.07.15 -
[3줄 RL] 재무부 대신 에이전트
https://arxiv.org/pdf/2004.13332.pdf 1. 세금정책은 공평하면서도 효율적인 방향으로 만들어져야 한다. 우리는 세금정책과 같은 것들을 Agent-Based Simulation이라는 물건으로 해결할 수 있는데, 간단하게 말하면 가상세계를 만들어 에이전트끼리 상호작용하는 것을 관찰하는 것이다. 2. 효율성이 각기 다른(생산성이 다른) 에이전트들을 집어넣고 세금정책을 결정하는 에이전트도 집어넣은 다음, 각각에 대해 강화학습을 수행한다. 생산성이 다른 에이전트들은 건설, 거래, 이동을 통해 생산성을 최대화하고, 세금정책을 결정하는 에이전트는 생산성과 공평성을 최대화한다. 기본적으로 두가지 에이전트들은 모두 그리드에 표현된 오픈 맵을 본다. 3. 미국의 세금정책과 베이스라인 세금정책에 ..
2021.07.13 -
[3줄 AutoML] 도메인 전문가 게섯거라, 에이전트가 피쳐도 뽑아줄게
https://arxiv.org/pdf/1709.07150.pdf 1. Feature Extraction은 머신러닝에서 되게 큰 문제인데, 도메인 전문가를 고용해야 하기 때문이고 이분들의 몸값은 대개 많이 비싸기 때문이다. 이것을 자동화할 수는 없을까? 라는 질문이 떠오른다. 2. Feature Extraction은 되게 어려운 문제지만 사실 아웃풋은 그냥 로우 데이터에 어떤 연산을 적용해 무엇을 무엇과 조합하는지에 대한 계산, 즉 계산 그래프로써 표현될 수 있는데 또 이런거 잘 찾는 방법론이 강화학습 이라는 것을 우리는 NAS와 NOS 등에서 보았다. 그래서 이번에도 강화학습을 들고 왔다! 3. 로우데이터를 그대로 넣는 모델은 물론 기존 Automated FE 모델들까지 뛰어넘는 모습이다. 금융 데이터..
2021.07.13 -
[3줄 AutoML] AMC, 미국 작전주가 아니라 뉴럴넷 컴프레서!
https://arxiv.org/pdf/1802.03494v4.pdf 1. 뉴럴넷 경량화는 당연하게도 디플로이 시 매우 중요한 것 중 하나인데, 사람이 하면 그냥 쌩 노가다에 가까운 작업이다(해봐서 안다) 그래서 이것을 자동화할 수 있다면 정말 대박인데, 그래서 이 논문이 대박이다(?) 2. 뉴럴넷 레이어의 임베딩을 받고 적정한 압축률을 제시하는 강화학습 에이전트(DDPG)를 이용해 자동화된 뉴럴넷 압축을 수행하게 되는데, 모델의 특성상 RNN을 사용하지 않아도 되어서 가볍다. 또한 리워드는 압축률과 정확성을 모두 잘 고려한 형태로 정의된다. 3. Human Expert에 비해 높은 압축률과 정확도를 취할 수 있었으며, 오버피팅 또한 관찰되지 않았다.
2021.07.12