AI Paper Review(40)
-
[3줄 RL] SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environme
https://openreview.net/forum?id=cPZOyoDloxl 1. 강화학습을 이용해 문제를 풀 때 매우 불안정한 환경들에서는 엔트로피를 최대화하여 exploration을 최대화하는 것이 오히려 좋지 않은 것을 확인했고, 매우 불안정한 강화학습 환경에 대한 새로운 솔루션의 필요가 생기게 되었다. 2. 발상의 전환을 통해 오히려 엔트로피를 최소화, 행동의 novelty를 최소화해 exploration과 surprise를 오히려 감소 방법을 고안하여, 오히려 안정적인, "안전빵" 알고리즘을 만들고자 하였다. 3. 매우 불안정한 환경에서 SMiRL 프레임워크를 사용하였을 때 기존 알고리즘에 비해 좋은 성과를 내는 것을 관찰했는데, 필자가 생각하기에 이것은 너무 불안정한 상황에 놓여 있다면, 일..
2021.07.02 -
[3줄 퓨샷] Free Lunch For Few-Shot Learning: Distribution Calibration
https://openreview.net/forum?id=JWOiYxMG92s 1. 전통적인 퓨샷러닝 모델을 학습시키는 방법론, 정확히는 데이터셋을 레버리지시키는 방법론을 고안한 논문 2. 기존 퓨샷러닝은 몇개의 데이터 포인트에 과적합되는 문제가 있었으므로, 각 클래스별 feature distribution을 gaussian으로 가정해 샘플링하여 학습한다. 3. 기존 퓨샷러닝 모델을 아웃퍼폼 하였고 강건성 측면에서 좋을 것으로 예상되나, feature distribution을 가우시안으로 가정할 수 없는 경우 사용이 불가한 메서드이므로 다른 distribution을 가지는 데이터에 이와 같은 프레임워크를 적용하였을 때의 실험 결과도 있으면 좋을 것 같다.
2021.06.29 -
[3줄 NLP] How could Neural Networks understand Programs?
https://arxiv.org/pdf/2105.04297.pdf 1. 자연어처리에서 fundamental한 문제인 Programming Language Processing(PLP) 풀기 위해 고안된 pretrained Model 2. 트랜스포머 기반의 모델에 소스코드/바이너리를 그대로 넣는 것이 아닌 정적 코드 분석을 이용해 abstract environment로 바꿔 넣음, 벤치마크들 아웃퍼폼 3. 정적인 코드 분석만 가능하고 코드가 컴파일 가능함을 가정하고 있기 때문에 현대에 사용되는 IDE 환경이나 파이썬과 같은 스크립트 언어에서의 사용은 아직 한계임.
2021.06.29 -
WHAT MATTERS FOR ON-POLICY DEEP ACTOR-CRITIC METHODS? A LARGE-SCALE STUDY
https://openreview.net/pdf?id=nIAxjsniDzg We train over 250’000 agents in five continuous control environments of different complexity and provide insights and practical recommendations for the training of on-policy deep actor-critic RL agents. 0. Deep Actor-Critic Methods Policy-Based 계열의 Deep Actor-Critic Method들은 Hopper, Humanoid와 같은 D4RL 벤치마크에 있는 continuous task에서 아주 좋은 성능을 냈다. REINFORCE, TR..
2021.06.16 -
Decision Transformer: Attention is all RL Need?
https://arxiv.org/pdf/2106.01345.pdf Instead of training a policy through conventional RL algorithms like temporal difference (TD) learning, We will train transformer models on collected experience using a sequence modeling objective. 0. 기존 RL의 학습방법과 Credit Assignement Problem 기존 RL은 위대한 수학자 Bellman에 의해 만들어진 Bellman Equation, 즉 TD를 이용해 학습했다. TD 러닝의 아이디어는 아주 간단하다. t스텝에는 t+1 스텝의 리워드를 알 수 없다. 그러므로 ..
2021.06.12 -
[KOREAN] MLP Mixer: An all-MLP Architecture for Vision
https://arxiv.org/pdf/2105.01601.pdf As the history of computer vision demonstrates, the availability of larger datasets coupled with in- creased computational capacity often leads to a paradigm shift 큰 이벤트가 될 논문이라 생각해서 나중에 입문하실 초보 분들을 위해 초보가 한국어로 리뷰를 작성하기로 했다. 1. 비전을 위한 신경망 아키텍쳐 비전을 위한 신경망 아키텍쳐들은 본 글의 머릿말과 같이 데이터셋의 크기가 커지고, 컴퓨터 자원의 성능이 올라감에 따라 패러다임이 계속 바뀌어 왔다. 기존 휴리스틱, 머신러닝 기반 컴퓨터 비전부터, ResNet과..
2021.06.09