RL sota(5)
-
[3줄 RL] 빨간 Q
https://openreview.net/pdf?id=AY8zfZm0tDd 1. 모델 베이스드 방법론들 최근에 되게 좋은 sample efficiency 보여줬는데, 우리는 모델 프리로 기존 모델 베이스드 방법들 이겨보겠다. 또한 자원도 덜 쓰는 모델을 만들겠다! 2. Sample Efficient 하다는건 데이터를 잘 쓴다는 뜻이므로 Update-To-Data Ratio를 올린 알고리즘을 만들어야지? 근데 그럼 다른 알고리즘도 UTD ratio 올리면 잘 되는거 아니냐는 반문이 있을 수 있다. 3. 그렇지만 SAC 같은 알고리즘은 UTD ratio를 너무 많이 쓰면 당연하게도 bias와 그 표준편차가 매우 커져 불안정하게 된다. 이것을 해결하기 위해 ensemble 방법론과 in-target minim..
2021.07.28 -
[3줄 RL] 과학적 발견도 에이전트에게 맡겨둬!
https://openreview.net/pdf?id=S1g2skStPB 1. 과학적 발견, 그러니까 변수들 관의 causal structure를 찾아내는 것은 많은 과학 분야에서 핵심적인 이슈이다. causal structure를 찾는 문제는 주로 DAG(Directed Acyclic Graph)로 표현되며, 대부분의 문제가 많은 조합 수로 인해 NP-hard에 속한다. 2. 최근에 강화학습을 이용해 NP-Hard 수준의 Combinatorial Optimization을 푸는 접근이 매우 Promising 하므로, 본 논문에서는 Acyclicity와 Score Function을 모두 고려하여 DAG를 만드는프레임워크를 제안한다. 3. Synthetic Data와 Real Data에서 모두 Causal ..
2021.07.21 -
[3줄 RL] 운송수단도 RL로
https://openreview.net/pdf?id=SkyQShLaf 1. 현대의 교통 시스템은 많이 복잡해져서 최적화가 필요하며, 이것은 커다란 nonlinear combinatorial optimization으로 풀 수 있다. 2. 차원의 저주를 피하기 위해 오토인코더를 사용하여 현재 상태(origin-dest pairs) 를 축소하여 DQN 네트워크에 피드하고, 에이전트는 O-D 페어를 어떻게 추가할지를 결정하고 효율성 등을 리워드로 받는다. 3. 결론적으로는 최적화가 잘 되는 것을 보여주었으며, Neural Combinatorial Optimization+Deep RL 컨셉이 할수있는 일이 정말 많은 것 같다는 생각이 든다. 독자님들도 이런 어플리케이션 논문 재밌는거 있으면 추천해주시라.
2021.07.18 -
[3줄 RL] 재무부 대신 에이전트
https://arxiv.org/pdf/2004.13332.pdf 1. 세금정책은 공평하면서도 효율적인 방향으로 만들어져야 한다. 우리는 세금정책과 같은 것들을 Agent-Based Simulation이라는 물건으로 해결할 수 있는데, 간단하게 말하면 가상세계를 만들어 에이전트끼리 상호작용하는 것을 관찰하는 것이다. 2. 효율성이 각기 다른(생산성이 다른) 에이전트들을 집어넣고 세금정책을 결정하는 에이전트도 집어넣은 다음, 각각에 대해 강화학습을 수행한다. 생산성이 다른 에이전트들은 건설, 거래, 이동을 통해 생산성을 최대화하고, 세금정책을 결정하는 에이전트는 생산성과 공평성을 최대화한다. 기본적으로 두가지 에이전트들은 모두 그리드에 표현된 오픈 맵을 본다. 3. 미국의 세금정책과 베이스라인 세금정책에 ..
2021.07.13 -
[3줄 RL] Multi Objective RL에 대해 고민해본적 있나?
https://arxiv.org/pdf/1908.08342.pdf 1. Multi-Objective RL이란 강화학습을 하는데 있어서 몇가지 objective가 있는 것을 뜻하는데, 가령 무언가를 조종할 때 안정성에 대한 리워드와 효율성에 대한 리워드가 둘 다 존재할 수 있다. 2. 이것을 여러 가지 objective의 linear combination으로 푸는 방법도 있지만, 본 논문에서는 아예 vectorized reward에 대해 학습할 수 있는 MDP와 Q function을 사용하며, 추가로 안정적인 학습을 위해 각 리워드들에 대한 중요도를 랜덤하게 샘플링하는 방법인 Envelope Q-Learning을 제안한다. 3. 실제로 이 방법은 adaptation(새로운 중요도에 적응) 과 성공율(리워드..
2021.07.11