AI Paper Review/Deep RL Papers [EN](20)
-
[3줄 RL] RL+Self-Supervised=Adaptation
https://openreview.net/pdf?id=o_V-MjyyGV_ 1. 강화학습에서 Generalization은 굉장히 큰 문제인데, 가령 Sim-to-real 문제처럼 태스크는 같지만 observation이 다른 텍스쳐로 들어오는 문제가 있다. 2. 그렇다면 이러한 문제를 해결하는 핵심은 새로 바뀐 observation에 잘 adaptation 되도록 뉴럴넷을 재학습시키는 것이다. Visual Representation을 배우는데 좋은 방법인 Self-Supervised Learning을 사용한다. SSL 태스크는 rotation prediction 등 다양하게 사용할 수 있다. 3. 로봇 매니퓰레이터 sim-to-real, 장애물 넣기나 백그라운드를 바꾼 Deepmind Control 태스크..
2021.07.15 -
[3줄 RL] 재무부 대신 에이전트
https://arxiv.org/pdf/2004.13332.pdf 1. 세금정책은 공평하면서도 효율적인 방향으로 만들어져야 한다. 우리는 세금정책과 같은 것들을 Agent-Based Simulation이라는 물건으로 해결할 수 있는데, 간단하게 말하면 가상세계를 만들어 에이전트끼리 상호작용하는 것을 관찰하는 것이다. 2. 효율성이 각기 다른(생산성이 다른) 에이전트들을 집어넣고 세금정책을 결정하는 에이전트도 집어넣은 다음, 각각에 대해 강화학습을 수행한다. 생산성이 다른 에이전트들은 건설, 거래, 이동을 통해 생산성을 최대화하고, 세금정책을 결정하는 에이전트는 생산성과 공평성을 최대화한다. 기본적으로 두가지 에이전트들은 모두 그리드에 표현된 오픈 맵을 본다. 3. 미국의 세금정책과 베이스라인 세금정책에 ..
2021.07.13 -
[3줄 RL] SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environme
https://openreview.net/forum?id=cPZOyoDloxl 1. 강화학습을 이용해 문제를 풀 때 매우 불안정한 환경들에서는 엔트로피를 최대화하여 exploration을 최대화하는 것이 오히려 좋지 않은 것을 확인했고, 매우 불안정한 강화학습 환경에 대한 새로운 솔루션의 필요가 생기게 되었다. 2. 발상의 전환을 통해 오히려 엔트로피를 최소화, 행동의 novelty를 최소화해 exploration과 surprise를 오히려 감소 방법을 고안하여, 오히려 안정적인, "안전빵" 알고리즘을 만들고자 하였다. 3. 매우 불안정한 환경에서 SMiRL 프레임워크를 사용하였을 때 기존 알고리즘에 비해 좋은 성과를 내는 것을 관찰했는데, 필자가 생각하기에 이것은 너무 불안정한 상황에 놓여 있다면, 일..
2021.07.02 -
WHAT MATTERS FOR ON-POLICY DEEP ACTOR-CRITIC METHODS? A LARGE-SCALE STUDY
https://openreview.net/pdf?id=nIAxjsniDzg We train over 250’000 agents in five continuous control environments of different complexity and provide insights and practical recommendations for the training of on-policy deep actor-critic RL agents. 0. Deep Actor-Critic Methods Policy-Based 계열의 Deep Actor-Critic Method들은 Hopper, Humanoid와 같은 D4RL 벤치마크에 있는 continuous task에서 아주 좋은 성능을 냈다. REINFORCE, TR..
2021.06.16 -
Decision Transformer: Attention is all RL Need?
https://arxiv.org/pdf/2106.01345.pdf Instead of training a policy through conventional RL algorithms like temporal difference (TD) learning, We will train transformer models on collected experience using a sequence modeling objective. 0. 기존 RL의 학습방법과 Credit Assignement Problem 기존 RL은 위대한 수학자 Bellman에 의해 만들어진 Bellman Equation, 즉 TD를 이용해 학습했다. TD 러닝의 아이디어는 아주 간단하다. t스텝에는 t+1 스텝의 리워드를 알 수 없다. 그러므로 ..
2021.06.12 -
Evolving Reinforcement Learning Algorithms
https://arxiv.org/pdf/2101.03958.pdf 0. Why Designing Reinforcement Learning Algorithms Are Important? "Designing new deep reinforcement learning algorithms that can efficiently solve across a wide variety of problems generally requires a tremendous amount of manual effort" -Evolving Reinforcement Learning Algorithms- 1. Designing Reinforcement Learning algorithms Deep Reinforcement Learning is ..
2021.06.01