분류 전체보기(67)
-
[3줄 퀀트] 연구자들도 사기를 친다
http://theinvestmentcapm.com/HouXueZhang2019RFS.pdf 1. 정말 많은 시장 이상현상들이 발표되었다. 모멘텀, 가치, 성장, 심지어 무형자산까지! 그렇지만 분명 이 중에는 데이터마이닝을 해서 사실 의미없는 팩터인데 의미있는 것처럼 해서 논문낸 얌체 연구자들도 있을것! 2. 그럼 어떻게 저걸 검증하느냐 하면… 전구간에 다 돌려보고 t-value 찍어보는 쌩 노가다 방법 뿐. 447개 팩터를 직접 다 백테스트 돌려보았다. 3.놀랍게도 85%정도가 통계적으로 초과수익이 입증되지 않았다고 볼 수 있었다. 그렇지만 우리에겐 15%가 남았지! 그 15%에는 이런 것들이 있다. -12-1 모멘텀 -PCR(영업현금흐름/시가총액) -자산성장률 -ROE -R&D지출/시가총액 4. 안되..
2021.07.21 -
[3줄 RL] 과학적 발견도 에이전트에게 맡겨둬!
https://openreview.net/pdf?id=S1g2skStPB 1. 과학적 발견, 그러니까 변수들 관의 causal structure를 찾아내는 것은 많은 과학 분야에서 핵심적인 이슈이다. causal structure를 찾는 문제는 주로 DAG(Directed Acyclic Graph)로 표현되며, 대부분의 문제가 많은 조합 수로 인해 NP-hard에 속한다. 2. 최근에 강화학습을 이용해 NP-Hard 수준의 Combinatorial Optimization을 푸는 접근이 매우 Promising 하므로, 본 논문에서는 Acyclicity와 Score Function을 모두 고려하여 DAG를 만드는프레임워크를 제안한다. 3. Synthetic Data와 Real Data에서 모두 Causal ..
2021.07.21 -
[3줄 RL] 리워드 없이도 배운다
https://arxiv.org/pdf/1802.06070.pdf 1. 대부분의 강화학습은 리워드에 기반해 있다. 근데 현실에선 리워드 엔지니어링 하기 애매하고 어려울 때가 많고 무엇보다 하기 싫은데, 리워드 엔지니어링 안 하고 RL 할 방법은 없나? 2. Maximum Entropy 개념과 Discriminator를 도입해서 최대한 diverse하게 skill들을 학습할 수 있도록 만들어 보자! 3. 리워드 없이 다양한 스킬을 학습할 수 있었고, 학습이 진행됨에 따라 스킬들이 분별가능해짐을 알 수 있다. 4. 이런 형태가 조금 더 AGI에 가까운지도 모르겠다는 생각이 들었고, practical 하게는 저 discriminator를 이용해서 exploration을 최대화하는 기존 Reward Based ..
2021.07.19 -
[3줄 Survey] RL for CO
https://arxiv.org/pdf/2003.03600.pdf 1. Combinatorial Optimization(CO)는 일반적으로 TSP등 조합을 최적화하는 매우 어려운(NP-hard)에 대한 솔루션이다. 대표적인 어플리케이션으로는 칩 설계, 교통체계 최적화, 유전자 설계 등이 있다. 2. 강화학습으로 Combinatorial Optimization을 풀었을 때의 이점은, 기본적으로 강화학습을 Search Space Reduction의 관점에서 보았을 때에 의미가 있다. 강화학습은 단순히 어떤 조합을 시도하는 것을 넘어 Trial And Error를 통해 비선형적 패턴을 학습하고 조금 더 새로운 샘플을 찾아 나간다. 이것은 RL로 CO를 풀었을 때 결과물의 퀄리티가 매우 좋아지게 하고, 기존 알..
2021.07.18 -
[3줄 RL] 운송수단도 RL로
https://openreview.net/pdf?id=SkyQShLaf 1. 현대의 교통 시스템은 많이 복잡해져서 최적화가 필요하며, 이것은 커다란 nonlinear combinatorial optimization으로 풀 수 있다. 2. 차원의 저주를 피하기 위해 오토인코더를 사용하여 현재 상태(origin-dest pairs) 를 축소하여 DQN 네트워크에 피드하고, 에이전트는 O-D 페어를 어떻게 추가할지를 결정하고 효율성 등을 리워드로 받는다. 3. 결론적으로는 최적화가 잘 되는 것을 보여주었으며, Neural Combinatorial Optimization+Deep RL 컨셉이 할수있는 일이 정말 많은 것 같다는 생각이 든다. 독자님들도 이런 어플리케이션 논문 재밌는거 있으면 추천해주시라.
2021.07.18 -
[3줄 RL] RL+Self-Supervised=Adaptation
https://openreview.net/pdf?id=o_V-MjyyGV_ 1. 강화학습에서 Generalization은 굉장히 큰 문제인데, 가령 Sim-to-real 문제처럼 태스크는 같지만 observation이 다른 텍스쳐로 들어오는 문제가 있다. 2. 그렇다면 이러한 문제를 해결하는 핵심은 새로 바뀐 observation에 잘 adaptation 되도록 뉴럴넷을 재학습시키는 것이다. Visual Representation을 배우는데 좋은 방법인 Self-Supervised Learning을 사용한다. SSL 태스크는 rotation prediction 등 다양하게 사용할 수 있다. 3. 로봇 매니퓰레이터 sim-to-real, 장애물 넣기나 백그라운드를 바꾼 Deepmind Control 태스크..
2021.07.15