[3줄 IC] Image Captioning+Curiosity=BAAAM
2021. 8. 8. 11:53ㆍAI Paper Review
<arxiv> https://arxiv.org/pdf/1908.00169.pdf
1. 기존 Image Captioning 방법론들은 아예 다른 이미지를 받았음에도 불구하고 비슷한 패턴, 비슷한 캡션을 달아주는 문제가 있었는데, 우리는 Curiosity 기반 RL로 이걸 해결해 보기로 했다.
![](https://blog.kakaocdn.net/dn/cxKu1b/btrbquEfgwZ/kRZ4HCcjDvpp7rz14CDOt1/img.jpg)
2. 일전에 소개했던 Self-Supervised 기반의 Intrinsic Reward와 기존에 존재하는 언어적 메져의 선형결합으로 정의되는 Extrinsic Reward의 합으로 최종 리워드가 정의된다. 추가로 Pretraining도 사용한다.
![](https://blog.kakaocdn.net/dn/u6Sja/btrbpOXgUo6/Vb6PpIjI8pQ7Hr9iknJnD0/img.jpg)
![](https://blog.kakaocdn.net/dn/b0skKT/btrbtoXOSsR/rMh0vKt7bbvQklq2piZiU0/img.jpg)
3. 1번에서 언급한 기존 방식의 문제점을 해결하는 아주 자연스러운 형태의 Visual Paragraph generation이 가능했고, RL, curiosity가 모두 성능을 올리는데 중요한 역할을 한 것 같다. curiosity는 앞으로 generative model의 새로운 패러다임이 될 수도 있을 것 같다.
![](https://blog.kakaocdn.net/dn/OAHxR/btrbwhwSquN/3InsRVDl1BdPpc6YKV18KK/img.jpg)
![](https://blog.kakaocdn.net/dn/lBneE/btrbtocs8p4/RcJobPkKIZVZxA8zOKGip0/img.jpg)
'AI Paper Review' 카테고리의 다른 글
[3줄 Control] 샘플링 대신 뉴럴넷 (0) | 2021.08.18 |
---|---|
[3줄 Vision] BERT+DOGE=BEIT (0) | 2021.07.22 |
[3줄 Survey] RL for CO (0) | 2021.07.18 |
[3줄 RL] 암호학과 강화학습의 조합 (0) | 2021.07.06 |
[3줄 RL] 이미지로 LQR하기 (0) | 2021.07.04 |