[3줄 Survey] RL for CO
https://arxiv.org/pdf/2003.03600.pdf 1. Combinatorial Optimization(CO)는 일반적으로 TSP등 조합을 최적화하는 매우 어려운(NP-hard)에 대한 솔루션이다. 대표적인 어플리케이션으로는 칩 설계, 교통체계 최적화, 유전자 설계 등이 있다. 2. 강화학습으로 Combinatorial Optimization을 풀었을 때의 이점은, 기본적으로 강화학습을 Search Space Reduction의 관점에서 보았을 때에 의미가 있다. 강화학습은 단순히 어떤 조합을 시도하는 것을 넘어 Trial And Error를 통해 비선형적 패턴을 학습하고 조금 더 새로운 샘플을 찾아 나간다. 이것은 RL로 CO를 풀었을 때 결과물의 퀄리티가 매우 좋아지게 하고, 기존 알..
2021.07.18