'2021/07 글 목록 (2 Page)

[3줄 RL] 큐러닝의 고질병을 해결하다

https://openreview.net/pdf?id=Bkg0u3Etwr 1. q-learning에서 underestimation 또는 overestimation bias는 q-learning에서 argmax Q(s,a)를 타겟으로 사용해 발생하는 고질적인 문제이다. 어떤 환경에서는 underestimation이, 어떤 환경에서는 overestimation이 나쁘다. 2. 이런 것을 보완하기 위해 double q-learning이 고안되기도 했지만 이것은 과도한 underestimation을 가져오기 때문에, 본 논문에서는 Q함수를 N개 사용하고 그중 가장 작은 것을 타겟으로 사용하는 maxmin q-learning을 제안한다. 3. 이것을 DQN에 적용하게 되면 여러개의 타겟 큐함수를 만들어놓고 매스텝..

2021.07.24

[3줄 Vision] BERT+DOGE=BEIT

https://arxiv.org/pdf/2106.08254.pdf 1. ViT 같은 모델이나, 이미지에 GPT를 활용하는 연구들이 정말 많아 나는 무적이고 Transformer는 신인거 같이 느껴지는 요즘인 것 같다. 그래서 BERT 가지고 이미지 트랜스포머를 self-supervised 방법으로 pretraining하는 프레임워크를 만들기로 했다. 2. 기존 SSL 방법중에 이미지를 blockwise로 마스킹한 다음 뭔가를 하는 형태의 방법론들이 되게 유력했는데, 이 프레임워크는 크게 봤을때 이거랑 BERT랑 섞은 구조인 것 같다. 섞기 위해서 “이미지 토크나이저” 를 만들었다는 것이 핵심. 3. 나름 발군의 성능을 보여준다. Transformer 자체가 inductive bias가 적어서 그런지 되게..

2021.07.22

[3줄 퀀트] 암호화폐 시장에는 어떤 리스크 팩터가 있을까

https://www.nber.org/system/files/working_papers/w25882/w25882.pdf 1. 주식에 FF3F 모델이 있듯이, 암호화폐에서도 그런 걸 만들어보고 싶었던 모양이다. 2. 시가총액, 모멘텀, 시장수익 팩터가 잘 먹힌다고 한다. 변동성과 거래량은 위의 팩터들에 비해서는 큰 감흥이… 3. 3가지 팩터를 가지고 FF3F 같은 걸 만들어서 테스트도 해보았는데 그럭저럭 괜찮았다고 한다. 4. 나중에 크립토 패시브 펀드가 생긴다면 유용하게 쓰일 자료 같다. 최근에 S&P인가 어디에서 절대수익형 비트 이더 인덱스 같은 걸 만들던데…

2021.07.21

[3줄 퀀트] 연구자들도 사기를 친다

http://theinvestmentcapm.com/HouXueZhang2019RFS.pdf 1. 정말 많은 시장 이상현상들이 발표되었다. 모멘텀, 가치, 성장, 심지어 무형자산까지! 그렇지만 분명 이 중에는 데이터마이닝을 해서 사실 의미없는 팩터인데 의미있는 것처럼 해서 논문낸 얌체 연구자들도 있을것! 2. 그럼 어떻게 저걸 검증하느냐 하면… 전구간에 다 돌려보고 t-value 찍어보는 쌩 노가다 방법 뿐. 447개 팩터를 직접 다 백테스트 돌려보았다. 3.놀랍게도 85%정도가 통계적으로 초과수익이 입증되지 않았다고 볼 수 있었다. 그렇지만 우리에겐 15%가 남았지! 그 15%에는 이런 것들이 있다. -12-1 모멘텀 -PCR(영업현금흐름/시가총액) -자산성장률 -ROE -R&D지출/시가총액 4. 안되..

2021.07.21

[3줄 RL] 과학적 발견도 에이전트에게 맡겨둬!

https://openreview.net/pdf?id=S1g2skStPB 1. 과학적 발견, 그러니까 변수들 관의 causal structure를 찾아내는 것은 많은 과학 분야에서 핵심적인 이슈이다. causal structure를 찾는 문제는 주로 DAG(Directed Acyclic Graph)로 표현되며, 대부분의 문제가 많은 조합 수로 인해 NP-hard에 속한다. 2. 최근에 강화학습을 이용해 NP-Hard 수준의 Combinatorial Optimization을 푸는 접근이 매우 Promising 하므로, 본 논문에서는 Acyclicity와 Score Function을 모두 고려하여 DAG를 만드는프레임워크를 제안한다. 3. Synthetic Data와 Real Data에서 모두 Causal ..

2021.07.21

[3줄 RL] 리워드 없이도 배운다

https://arxiv.org/pdf/1802.06070.pdf 1. 대부분의 강화학습은 리워드에 기반해 있다. 근데 현실에선 리워드 엔지니어링 하기 애매하고 어려울 때가 많고 무엇보다 하기 싫은데, 리워드 엔지니어링 안 하고 RL 할 방법은 없나? 2. Maximum Entropy 개념과 Discriminator를 도입해서 최대한 diverse하게 skill들을 학습할 수 있도록 만들어 보자! 3. 리워드 없이 다양한 스킬을 학습할 수 있었고, 학습이 진행됨에 따라 스킬들이 분별가능해짐을 알 수 있다. 4. 이런 형태가 조금 더 AGI에 가까운지도 모르겠다는 생각이 들었고, practical 하게는 저 discriminator를 이용해서 exploration을 최대화하는 기존 Reward Based ..

2021.07.19

Bellman

Bellman

태그

최근글

댓글

공지사항

아카이브

2021/07(30)

티스토리툴바