딥러닝(20)
-
[3줄 Vision] BERT+DOGE=BEIT
https://arxiv.org/pdf/2106.08254.pdf 1. ViT 같은 모델이나, 이미지에 GPT를 활용하는 연구들이 정말 많아 나는 무적이고 Transformer는 신인거 같이 느껴지는 요즘인 것 같다. 그래서 BERT 가지고 이미지 트랜스포머를 self-supervised 방법으로 pretraining하는 프레임워크를 만들기로 했다. 2. 기존 SSL 방법중에 이미지를 blockwise로 마스킹한 다음 뭔가를 하는 형태의 방법론들이 되게 유력했는데, 이 프레임워크는 크게 봤을때 이거랑 BERT랑 섞은 구조인 것 같다. 섞기 위해서 “이미지 토크나이저” 를 만들었다는 것이 핵심. 3. 나름 발군의 성능을 보여준다. Transformer 자체가 inductive bias가 적어서 그런지 되게..
2021.07.22 -
[3줄 RL] 과학적 발견도 에이전트에게 맡겨둬!
https://openreview.net/pdf?id=S1g2skStPB 1. 과학적 발견, 그러니까 변수들 관의 causal structure를 찾아내는 것은 많은 과학 분야에서 핵심적인 이슈이다. causal structure를 찾는 문제는 주로 DAG(Directed Acyclic Graph)로 표현되며, 대부분의 문제가 많은 조합 수로 인해 NP-hard에 속한다. 2. 최근에 강화학습을 이용해 NP-Hard 수준의 Combinatorial Optimization을 푸는 접근이 매우 Promising 하므로, 본 논문에서는 Acyclicity와 Score Function을 모두 고려하여 DAG를 만드는프레임워크를 제안한다. 3. Synthetic Data와 Real Data에서 모두 Causal ..
2021.07.21 -
[3줄 RL] 리워드 없이도 배운다
https://arxiv.org/pdf/1802.06070.pdf 1. 대부분의 강화학습은 리워드에 기반해 있다. 근데 현실에선 리워드 엔지니어링 하기 애매하고 어려울 때가 많고 무엇보다 하기 싫은데, 리워드 엔지니어링 안 하고 RL 할 방법은 없나? 2. Maximum Entropy 개념과 Discriminator를 도입해서 최대한 diverse하게 skill들을 학습할 수 있도록 만들어 보자! 3. 리워드 없이 다양한 스킬을 학습할 수 있었고, 학습이 진행됨에 따라 스킬들이 분별가능해짐을 알 수 있다. 4. 이런 형태가 조금 더 AGI에 가까운지도 모르겠다는 생각이 들었고, practical 하게는 저 discriminator를 이용해서 exploration을 최대화하는 기존 Reward Based ..
2021.07.19 -
[3줄 RL] 운송수단도 RL로
https://openreview.net/pdf?id=SkyQShLaf 1. 현대의 교통 시스템은 많이 복잡해져서 최적화가 필요하며, 이것은 커다란 nonlinear combinatorial optimization으로 풀 수 있다. 2. 차원의 저주를 피하기 위해 오토인코더를 사용하여 현재 상태(origin-dest pairs) 를 축소하여 DQN 네트워크에 피드하고, 에이전트는 O-D 페어를 어떻게 추가할지를 결정하고 효율성 등을 리워드로 받는다. 3. 결론적으로는 최적화가 잘 되는 것을 보여주었으며, Neural Combinatorial Optimization+Deep RL 컨셉이 할수있는 일이 정말 많은 것 같다는 생각이 든다. 독자님들도 이런 어플리케이션 논문 재밌는거 있으면 추천해주시라.
2021.07.18 -
[3줄 RL] 재무부 대신 에이전트
https://arxiv.org/pdf/2004.13332.pdf 1. 세금정책은 공평하면서도 효율적인 방향으로 만들어져야 한다. 우리는 세금정책과 같은 것들을 Agent-Based Simulation이라는 물건으로 해결할 수 있는데, 간단하게 말하면 가상세계를 만들어 에이전트끼리 상호작용하는 것을 관찰하는 것이다. 2. 효율성이 각기 다른(생산성이 다른) 에이전트들을 집어넣고 세금정책을 결정하는 에이전트도 집어넣은 다음, 각각에 대해 강화학습을 수행한다. 생산성이 다른 에이전트들은 건설, 거래, 이동을 통해 생산성을 최대화하고, 세금정책을 결정하는 에이전트는 생산성과 공평성을 최대화한다. 기본적으로 두가지 에이전트들은 모두 그리드에 표현된 오픈 맵을 본다. 3. 미국의 세금정책과 베이스라인 세금정책에 ..
2021.07.13 -
[3줄 AutoML] AMC, 미국 작전주가 아니라 뉴럴넷 컴프레서!
https://arxiv.org/pdf/1802.03494v4.pdf 1. 뉴럴넷 경량화는 당연하게도 디플로이 시 매우 중요한 것 중 하나인데, 사람이 하면 그냥 쌩 노가다에 가까운 작업이다(해봐서 안다) 그래서 이것을 자동화할 수 있다면 정말 대박인데, 그래서 이 논문이 대박이다(?) 2. 뉴럴넷 레이어의 임베딩을 받고 적정한 압축률을 제시하는 강화학습 에이전트(DDPG)를 이용해 자동화된 뉴럴넷 압축을 수행하게 되는데, 모델의 특성상 RNN을 사용하지 않아도 되어서 가볍다. 또한 리워드는 압축률과 정확성을 모두 잘 고려한 형태로 정의된다. 3. Human Expert에 비해 높은 압축률과 정확도를 취할 수 있었으며, 오버피팅 또한 관찰되지 않았다.
2021.07.12