분류 전체보기(67)
-
[3줄 RL] 재무부 대신 에이전트
https://arxiv.org/pdf/2004.13332.pdf 1. 세금정책은 공평하면서도 효율적인 방향으로 만들어져야 한다. 우리는 세금정책과 같은 것들을 Agent-Based Simulation이라는 물건으로 해결할 수 있는데, 간단하게 말하면 가상세계를 만들어 에이전트끼리 상호작용하는 것을 관찰하는 것이다. 2. 효율성이 각기 다른(생산성이 다른) 에이전트들을 집어넣고 세금정책을 결정하는 에이전트도 집어넣은 다음, 각각에 대해 강화학습을 수행한다. 생산성이 다른 에이전트들은 건설, 거래, 이동을 통해 생산성을 최대화하고, 세금정책을 결정하는 에이전트는 생산성과 공평성을 최대화한다. 기본적으로 두가지 에이전트들은 모두 그리드에 표현된 오픈 맵을 본다. 3. 미국의 세금정책과 베이스라인 세금정책에 ..
2021.07.13 -
[3줄 AutoML] 도메인 전문가 게섯거라, 에이전트가 피쳐도 뽑아줄게
https://arxiv.org/pdf/1709.07150.pdf 1. Feature Extraction은 머신러닝에서 되게 큰 문제인데, 도메인 전문가를 고용해야 하기 때문이고 이분들의 몸값은 대개 많이 비싸기 때문이다. 이것을 자동화할 수는 없을까? 라는 질문이 떠오른다. 2. Feature Extraction은 되게 어려운 문제지만 사실 아웃풋은 그냥 로우 데이터에 어떤 연산을 적용해 무엇을 무엇과 조합하는지에 대한 계산, 즉 계산 그래프로써 표현될 수 있는데 또 이런거 잘 찾는 방법론이 강화학습 이라는 것을 우리는 NAS와 NOS 등에서 보았다. 그래서 이번에도 강화학습을 들고 왔다! 3. 로우데이터를 그대로 넣는 모델은 물론 기존 Automated FE 모델들까지 뛰어넘는 모습이다. 금융 데이터..
2021.07.13 -
[3줄 AutoML] AMC, 미국 작전주가 아니라 뉴럴넷 컴프레서!
https://arxiv.org/pdf/1802.03494v4.pdf 1. 뉴럴넷 경량화는 당연하게도 디플로이 시 매우 중요한 것 중 하나인데, 사람이 하면 그냥 쌩 노가다에 가까운 작업이다(해봐서 안다) 그래서 이것을 자동화할 수 있다면 정말 대박인데, 그래서 이 논문이 대박이다(?) 2. 뉴럴넷 레이어의 임베딩을 받고 적정한 압축률을 제시하는 강화학습 에이전트(DDPG)를 이용해 자동화된 뉴럴넷 압축을 수행하게 되는데, 모델의 특성상 RNN을 사용하지 않아도 되어서 가볍다. 또한 리워드는 압축률과 정확성을 모두 잘 고려한 형태로 정의된다. 3. Human Expert에 비해 높은 압축률과 정확도를 취할 수 있었으며, 오버피팅 또한 관찰되지 않았다.
2021.07.12 -
[3줄 AutoML] 모든 사람을 면접할 수 없고, 모든 모델을 학습할 수 없다.
1. 학교나 기업의 전통적인 채용 프로세스는 먼저 서류나 추천 등으로 사람을 거르고 면접을 보는 것인데, 이것은 시간이 너무나 오래 걸리기 때문이다. 만약 우리가 NAS를 하면서 모든 모델을 학습시켜 정확도를 찍어보고 있다면, 수천명의 지원자를 면접하는 것과 같은 비효율적인 행위를 하는 것에 가까운 것이다. 2. 그렇다면 NAS에도 서류 전형을 도입할 수 있을까? 라는 아이디어에서 나온 것이 Neural Predictor인데, 이것은 몇 개의 아키텍쳐만 학습한 다음 Graph CNN을 이용해 아키텍쳐와 정확도에 대한 회귀 모델을 만드는 것이다. 3. Neural Predictor를 이용해 좋지 않은 모델을 미리 걸러냄으로써 기존 방법 대비 Sample Efficiency를 크게 향상시켰다.
2021.07.12 -
[3줄 RL] Multi Objective RL에 대해 고민해본적 있나?
https://arxiv.org/pdf/1908.08342.pdf 1. Multi-Objective RL이란 강화학습을 하는데 있어서 몇가지 objective가 있는 것을 뜻하는데, 가령 무언가를 조종할 때 안정성에 대한 리워드와 효율성에 대한 리워드가 둘 다 존재할 수 있다. 2. 이것을 여러 가지 objective의 linear combination으로 푸는 방법도 있지만, 본 논문에서는 아예 vectorized reward에 대해 학습할 수 있는 MDP와 Q function을 사용하며, 추가로 안정적인 학습을 위해 각 리워드들에 대한 중요도를 랜덤하게 샘플링하는 방법인 Envelope Q-Learning을 제안한다. 3. 실제로 이 방법은 adaptation(새로운 중요도에 적응) 과 성공율(리워드..
2021.07.11 -
재미로 보는 메이저 코인들의 상관성
심심해서 가지고 있는 바이낸스 데이터로 메이저 코인들의 상관성을 구해 보았다. 코인은 기본적으로 "확률적 추세가 있는 불안정 시계열" 이다. 그러므로 차분해 상관관계를 계산하면 더욱 명확한 그림이 나온다. 결과는 놀랍지 않게도 배타적인 시계열에 도지코인이 들어가 있었고, 놀랍게도 이더리움 클래식이 들어가 있었다. 추가로 이오스나 비트코인캐시 등의 약간 뜬금없는 페어들이 상관성이 높은데 이것도 조사해 볼 만 한거 같다.
2021.07.10