자가지도학습(8)
-
[3줄 RL] 놀랍도록 단순한 자가지도 오프라인 강화학습
https://arxiv.org/pdf/2103.06326.pdf 1. 환경이랑 인터랙션 못하고 데이터만 있을때 유용하게 쓰이는 오프라인 강화학습. 그러나 오버피팅 등 다양한 문제가 있다. 2. 비슷한 state에서는 당연히 비슷한 q-value를 가진다. 그러니까 이거에 기반하면 그냥 stochastic augmentation여러번 해서 q-value 다 구한 다음 그걸로 BE풀면 되네? 3. 정말 Self-Supervision의 핵심을 잘 꿰뚫어본 논문 같다. 결국 같은 데이터를 요리조리 생각해보고 이미지트레이닝(?) 비슷한거 하는게 Self-Supervision의 본질이 아닐까.
2021.08.20 -
[3줄 RL] COBRA!
https://arxiv.org/pdf/1905.09275.pdf 1. Goal-Objected RL 셋업은 매우 Sample-Efficient한 접근을 가능하게 했고, Model-Based+Representation Learning또한 Sample Efficiency를 업그레이드 했지만 아직 복잡한 환경에 사용하기는 어렵다. Curiosity 기반 Exploration은 매우 Sparse한 환경에서도 Robust한 학습을 보여줬다. 2. 이거 3가지를 다 섞은 모델은 어떨까? Object들의 Representation을 Curiosity에 기반해 잘 뽑아낼 수 있으면서도 Robust하고 Sample-Efficient하지 않을까? COBRA를 소개합니다! 3. Curiosity에 기반한 학습으로 Obje..
2021.08.15 -
[3줄 RL] Curiosity+Contrastive=Sample Efficiency
https://arxiv.org/pdf/2103.08255.pdf 1. Forward-Dynamics Model을 이용한 Curiosity Model, Self-Supervised Learning으로 Sample Efficiency를 높이는 접근은 둘다 좋다. 2.두개의 공통점은 Temporal Difference를 이용한다는 점이다. 현재 state와 다음 state의 차이, prediction error를 기반으로 curiosity를 만들고 contrasive learning을 수행하는 것이다. 두개를 섞어보면 어떨까? 3. Sample Efficient 하면서도 Curiosity 기반하여 exploration이 잘 되는 모습을 확인할 수 있었다. 이럴 때 보면 현재 스텝에서는 알 수 없지만, 다음 ..
2021.08.14 -
[3줄 RL] RL + Contrastive = sample efficiency
https://arxiv.org/pdf/2004.04136.pdf 1. 큰 observation size를 가진 강화학습 문제는 보통 sample inefficient한데, contrastive learning은 data augmentation 등을 통해 학습하므로 데이터를 레버리징하는 효과가 있다. 2. 따라서 둘을 합친 형태의 제너럴한 강화학습 프레임워크를 제안한다. 다른 논문들처럼 미래를 예측하는 world-model 스타일 대신 간단한 augmentation을 통한 contrastive learning을 사용한다. 3. 다양한 알고리즘에 적용한 결과 sample efficiency를 향상할 수 있었다. 최근 이런 스타일의 논문이 많이 보이는데, 강화학습 말고도 contrasive learning ..
2021.08.01 -
[3줄 Vision] BERT+DOGE=BEIT
https://arxiv.org/pdf/2106.08254.pdf 1. ViT 같은 모델이나, 이미지에 GPT를 활용하는 연구들이 정말 많아 나는 무적이고 Transformer는 신인거 같이 느껴지는 요즘인 것 같다. 그래서 BERT 가지고 이미지 트랜스포머를 self-supervised 방법으로 pretraining하는 프레임워크를 만들기로 했다. 2. 기존 SSL 방법중에 이미지를 blockwise로 마스킹한 다음 뭔가를 하는 형태의 방법론들이 되게 유력했는데, 이 프레임워크는 크게 봤을때 이거랑 BERT랑 섞은 구조인 것 같다. 섞기 위해서 “이미지 토크나이저” 를 만들었다는 것이 핵심. 3. 나름 발군의 성능을 보여준다. Transformer 자체가 inductive bias가 적어서 그런지 되게..
2021.07.22 -
[3줄 RL] RL+Self-Supervised=Adaptation
https://openreview.net/pdf?id=o_V-MjyyGV_ 1. 강화학습에서 Generalization은 굉장히 큰 문제인데, 가령 Sim-to-real 문제처럼 태스크는 같지만 observation이 다른 텍스쳐로 들어오는 문제가 있다. 2. 그렇다면 이러한 문제를 해결하는 핵심은 새로 바뀐 observation에 잘 adaptation 되도록 뉴럴넷을 재학습시키는 것이다. Visual Representation을 배우는데 좋은 방법인 Self-Supervised Learning을 사용한다. SSL 태스크는 rotation prediction 등 다양하게 사용할 수 있다. 3. 로봇 매니퓰레이터 sim-to-real, 장애물 넣기나 백그라운드를 바꾼 Deepmind Control 태스크..
2021.07.15