분류 전체보기(67)
-
[3줄 AGI] 사실 AGI는 우리 옆에 있었다.
https://www.sciencedirect.com/science/article/pii/S0004370221000862?fbclid=IwAR00HAZ1VgULd647jwVdXSCG58RlcWsC9GpPUimy0JvEgGNLYeKNI-_UWWc Reward is enough In this article we hypothesise that intelligence, and its associated abilities, can be understood as subserving the maximisation of reward. Accordingl… www.sciencedirect.com 1. 근본적인 의문: 어떻게 자연에서의 에이전트(동물), 사람은 똑똑하게 행동하는가? 에 대답하기 위한 답변으로 “모든것이 g..
2021.07.04 -
[3줄 RL] 자가지도학습과 강화학습의 샘플 효율성
https://openreview.net/pdf?id=uCQfPZwRaUu 1.self-supervised representation learning은 data efficiency에 있어 큰 발전을 보였는데, 강화학습에서 sample efficiency는 매우 중요한 이슈이므로 이 두가지의 연결점을 찾고자 하였다. 2.state와 next state와 그 augmentation들에 대해 representation learning을 수행하여 self-predictive 한 형태로 학습한다. 3. 실험 결과는 실제로 다소 작은 step(100k)을 진행한 atari26 환경에서 기존 data-efficient RL 방법론을 아웃퍼폼했는데, 이것은 representation learning과 data-effi..
2021.07.03 -
[3줄 RL] SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environme
https://openreview.net/forum?id=cPZOyoDloxl 1. 강화학습을 이용해 문제를 풀 때 매우 불안정한 환경들에서는 엔트로피를 최대화하여 exploration을 최대화하는 것이 오히려 좋지 않은 것을 확인했고, 매우 불안정한 강화학습 환경에 대한 새로운 솔루션의 필요가 생기게 되었다. 2. 발상의 전환을 통해 오히려 엔트로피를 최소화, 행동의 novelty를 최소화해 exploration과 surprise를 오히려 감소 방법을 고안하여, 오히려 안정적인, "안전빵" 알고리즘을 만들고자 하였다. 3. 매우 불안정한 환경에서 SMiRL 프레임워크를 사용하였을 때 기존 알고리즘에 비해 좋은 성과를 내는 것을 관찰했는데, 필자가 생각하기에 이것은 너무 불안정한 상황에 놓여 있다면, 일..
2021.07.02 -
[3줄 퓨샷] Free Lunch For Few-Shot Learning: Distribution Calibration
https://openreview.net/forum?id=JWOiYxMG92s 1. 전통적인 퓨샷러닝 모델을 학습시키는 방법론, 정확히는 데이터셋을 레버리지시키는 방법론을 고안한 논문 2. 기존 퓨샷러닝은 몇개의 데이터 포인트에 과적합되는 문제가 있었으므로, 각 클래스별 feature distribution을 gaussian으로 가정해 샘플링하여 학습한다. 3. 기존 퓨샷러닝 모델을 아웃퍼폼 하였고 강건성 측면에서 좋을 것으로 예상되나, feature distribution을 가우시안으로 가정할 수 없는 경우 사용이 불가한 메서드이므로 다른 distribution을 가지는 데이터에 이와 같은 프레임워크를 적용하였을 때의 실험 결과도 있으면 좋을 것 같다.
2021.06.29 -
[3줄 NLP] How could Neural Networks understand Programs?
https://arxiv.org/pdf/2105.04297.pdf 1. 자연어처리에서 fundamental한 문제인 Programming Language Processing(PLP) 풀기 위해 고안된 pretrained Model 2. 트랜스포머 기반의 모델에 소스코드/바이너리를 그대로 넣는 것이 아닌 정적 코드 분석을 이용해 abstract environment로 바꿔 넣음, 벤치마크들 아웃퍼폼 3. 정적인 코드 분석만 가능하고 코드가 컴파일 가능함을 가정하고 있기 때문에 현대에 사용되는 IDE 환경이나 파이썬과 같은 스크립트 언어에서의 사용은 아직 한계임.
2021.06.29 -
시스템 트레이딩 전략을 위한 책과 자료
필자가 앞으로 하나하나 이 책과 논문에 나온 것들을 백테스트 해보면서 내용, 소감, 결과 정도를 올려보고자 한다. 독자님들도 한번씩 읽어보면 좋을 책과 저서인 것 같다. 한 블로그에서 남의 트레이딩 전략을 합법적으로 베끼는 방법이라는 자극적인(?) 문구를 보았다. (최근 필자는 돌리고있는 전략들이 불만족스러워 코인 전략을 한 단계 업그레이드하고자 인사이트를 찾아 헤메고 있다. ) 본 블로그에서는 당연하게도 책과 저서를 읽고 업그레이드하라고 말한다. 당연한 말로 들리지만 까먹기 쉽다. 인사이트 찾으려고 차트도 보고 이것저것 모델도 돌려보고 했는데, 블로그에서 트레이딩 전략을 바닥부터 만들 필요가 없다는 말을 보고 매우 삽질을 하고 있는 것을 깨달았다. 따라서 관련 독서량을 늘리고자 한다. (블로그 링크는 ..
2021.06.25