강화학습 #ReinforcementLearning #Deep Reinforcement Learning #Deep Learning #ICLR #ICML #NeurIPS #논문리뷰 #딥러닝 #딥러닝논문(5)
-
[3줄 RL] 암호학과 강화학습의 조합
https://ieeexplore.ieee.org/document/9446086 Generating Cryptographic S-Boxes Using the Reinforcement Learning Substitution boxes (S-boxes) are essential components of many cryptographic primitives. The Dijkstra algorithm, SAT solvers, and heuristic methods have been used to find bitsliced implementations of S-boxes. However, it is difficult to apply these methods ieeexplore.ieee.org 1. 부채널 공격(전..
2021.07.06 -
[3줄 RL] 이미지로 LQR하기
https://arxiv.org/pdf/1808.09105.pdf 1. 기존 Model-Free DRL은 이미지 observation같은 거로도 잘 학습하지만 sample efficiency가 다소 떨어지고, Model Based Method인 LQR 같은 건 sample efficiency가 좋지만 이미지 같은 건 쓸수 있을리가 없는데 이거 어떻게 두개 못 합칠까? 2. 그래! 이미지를 간단한 행렬로 만들어주는 Representation Learning을 사용해서 거기에 LQR을 적용하면 되겠구나. 3. 최종 성능은 막 좋지 않지만 2시간만에 image observation 만으로 complex manipulation 문제를 풀 정도로 sample efficient한 알고리즘이 나왔는데, 사실 필자는 ..
2021.07.04 -
[3줄 AGI] 사실 AGI는 우리 옆에 있었다.
https://www.sciencedirect.com/science/article/pii/S0004370221000862?fbclid=IwAR00HAZ1VgULd647jwVdXSCG58RlcWsC9GpPUimy0JvEgGNLYeKNI-_UWWc Reward is enough In this article we hypothesise that intelligence, and its associated abilities, can be understood as subserving the maximisation of reward. Accordingl… www.sciencedirect.com 1. 근본적인 의문: 어떻게 자연에서의 에이전트(동물), 사람은 똑똑하게 행동하는가? 에 대답하기 위한 답변으로 “모든것이 g..
2021.07.04 -
[3줄 RL] 자가지도학습과 강화학습의 샘플 효율성
https://openreview.net/pdf?id=uCQfPZwRaUu 1.self-supervised representation learning은 data efficiency에 있어 큰 발전을 보였는데, 강화학습에서 sample efficiency는 매우 중요한 이슈이므로 이 두가지의 연결점을 찾고자 하였다. 2.state와 next state와 그 augmentation들에 대해 representation learning을 수행하여 self-predictive 한 형태로 학습한다. 3. 실험 결과는 실제로 다소 작은 step(100k)을 진행한 atari26 환경에서 기존 data-efficient RL 방법론을 아웃퍼폼했는데, 이것은 representation learning과 data-effi..
2021.07.03 -
[3줄 RL] SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environme
https://openreview.net/forum?id=cPZOyoDloxl 1. 강화학습을 이용해 문제를 풀 때 매우 불안정한 환경들에서는 엔트로피를 최대화하여 exploration을 최대화하는 것이 오히려 좋지 않은 것을 확인했고, 매우 불안정한 강화학습 환경에 대한 새로운 솔루션의 필요가 생기게 되었다. 2. 발상의 전환을 통해 오히려 엔트로피를 최소화, 행동의 novelty를 최소화해 exploration과 surprise를 오히려 감소 방법을 고안하여, 오히려 안정적인, "안전빵" 알고리즘을 만들고자 하였다. 3. 매우 불안정한 환경에서 SMiRL 프레임워크를 사용하였을 때 기존 알고리즘에 비해 좋은 성과를 내는 것을 관찰했는데, 필자가 생각하기에 이것은 너무 불안정한 상황에 놓여 있다면, 일..
2021.07.02