강화학습(18)
-
[3줄 RL] 에이전트는 궁금해요
https://arxiv.org/pdf/1705.05363.pdf 1. 안 가본 state를 방문하면 exploration이 정말 잘될 텐데 2. 그럼 안 가본 state를 궁금해하는 모델을 만들자. self-supervised prediction 모델을 학습한 다음 에러만큼 리워드를 주면 curiosity를 정의할 수 있을것이다. 3. sparse한 리워드에 잘 먹히며, 심지어 No reward setting!!! 에서도 잘 된다고 한다.
2021.08.06 -
[3줄 AutoML] 효율적 NAS의 전설, ENAS
https://arxiv.org/abs/1802.03268 Efficient Neural Architecture Search via Parameter Sharing We propose Efficient Neural Architecture Search (ENAS), a fast and inexpensive approach for automatic model design. In ENAS, a controller learns to discover neural network architectures by searching for an optimal subgraph within a large computational grap arxiv.org 1. 기존 뉴럴 아키텍쳐 서치는 전체 뉴럴넷을 찾느라 비효율적이다. 2..
2021.08.04 -
[3줄 AutoML] S-Oil? S-GAS
https://arxiv.org/pdf/1912.00195.pdf 1. 기존 DARTS 정말 효율적이고 다 좋은데, 아직도 end-to-end 냄새가 난다. 문제를 부분 문제로 분할해 보자. 2. 매 스텝마다 어떤 메트릭에 따른 greedy decision으로 에지를 날려보면 어떨까? 이러면 엄청 효율적이지 않을까? 3. 잘 된다! 심지어 GCN도 찾아봤는데 되게 잘 된다. gpu 코스트도 darts에 비해 매우 낮아져 정말로 보급형 nas의 시대가 열린다! 3. 잘 된다! 심지어 GCN도 찾아봤는데 되게 잘 된다. gpu 코스트도 darts에 비해 매우 낮아져 정말로 보급형 nas의 시대가 열린다! 4. 오늘도 부분문제 분할은 항상 옳다는 것을 깨닫는다.
2021.08.02 -
[3줄 RL] RL + Contrastive = sample efficiency
https://arxiv.org/pdf/2004.04136.pdf 1. 큰 observation size를 가진 강화학습 문제는 보통 sample inefficient한데, contrastive learning은 data augmentation 등을 통해 학습하므로 데이터를 레버리징하는 효과가 있다. 2. 따라서 둘을 합친 형태의 제너럴한 강화학습 프레임워크를 제안한다. 다른 논문들처럼 미래를 예측하는 world-model 스타일 대신 간단한 augmentation을 통한 contrastive learning을 사용한다. 3. 다양한 알고리즘에 적용한 결과 sample efficiency를 향상할 수 있었다. 최근 이런 스타일의 논문이 많이 보이는데, 강화학습 말고도 contrasive learning ..
2021.08.01 -
[3줄 RL] RL로 QP 풀기
https://arxiv.org/pdf/2107.10847.pdf 1. OSQP의 first-order optimization은 임베디드 제어 등에서 큰 역할을 한다. 또한 최근 강화학습을 이용해 combinatorial optimization 문제를 해결하는 등의 사례가 늘고 있다. 2. 이에 따라 QP 솔버의 하이퍼파라미터를 기존 휴리스틱한 방법이나 사람이 직접 튜닝하는 대신 RL(TD3)을 사용해 튜닝하는 프레임워크를 본 논문에서는 제안하고 있다. 3. 실제로 성능이 큰 폭으로 개선된 것을 볼 수 있다. 전통적인 제어등 최적화 분야에서 강화학습이 제어기 자체를 e2e로 대체하는 접근보다 하이퍼파라미터 튜닝 등 최적화 관점에서 접근하는게 더 빠르고 효율적이라는 생각을 항상 가지고 있다.
2021.07.30 -
[3줄 RL] 빨간 Q
https://openreview.net/pdf?id=AY8zfZm0tDd 1. 모델 베이스드 방법론들 최근에 되게 좋은 sample efficiency 보여줬는데, 우리는 모델 프리로 기존 모델 베이스드 방법들 이겨보겠다. 또한 자원도 덜 쓰는 모델을 만들겠다! 2. Sample Efficient 하다는건 데이터를 잘 쓴다는 뜻이므로 Update-To-Data Ratio를 올린 알고리즘을 만들어야지? 근데 그럼 다른 알고리즘도 UTD ratio 올리면 잘 되는거 아니냐는 반문이 있을 수 있다. 3. 그렇지만 SAC 같은 알고리즘은 UTD ratio를 너무 많이 쓰면 당연하게도 bias와 그 표준편차가 매우 커져 불안정하게 된다. 이것을 해결하기 위해 ensemble 방법론과 in-target minim..
2021.07.28