[3줄 AGI] 사실 AGI는 우리 옆에 있었다.

2021. 7. 4. 08:40카테고리 없음

<sciencedirect>
https://www.sciencedirect.com/science/article/pii/S0004370221000862?fbclid=IwAR00HAZ1VgULd647jwVdXSCG58RlcWsC9GpPUimy0JvEgGNLYeKNI-_UWWc

Reward is enough

In this article we hypothesise that intelligence, and its associated abilities, can be understood as subserving the maximisation of reward. Accordingl…

www.sciencedirect.com


1. 근본적인 의문: 어떻게 자연에서의 에이전트(동물), 사람은 똑똑하게 행동하는가? 에 대답하기 위한 답변으로 “모든것이 goal, 즉 리워드 덕분이다. 따라서 리워드는 AGI를 만들기 위해 enough” 라고 대답하는 것이 본 논문의 가설.

2. 제안하고자 하는 가설: 리워드 맥시마이제이션은 지식과 학습, 지각, 사회적 지능(MARL), 언어, 일반화, 모방, 최종적으로는 general intelligence까지 커버할 수 있다.

3. 필자가 생각할때 이 논문의 시사할 점은 리워드 그 자체를 다각도로 보게 해 준다는 것인데, 매우 많은 인사이트가 있지만 몇가지 동의하지 못하는 점 / 더 들어갔으면 좋을 것 같은 점도 있기에 오늘 리뷰는 5줄이다.

4. 동의하지 못하는 점은 offline batch learning이 그냥 닫힌 문제만 풀게 해준다고 논문에서 언급한 점인데, 나는 인간이 크게 발전하는 방식 중 하나가 배경지식에 의한 imagination에 의해, 즉, World Model과 같은 이미지 트레이닝이라고 보기 때문이다.

5. 더 추가되었으면 좋을 것 같은 점은 부분 문제에 대한 점인데, 이것은 필자가 생각하기에 사람이 어떤 목표를 갖고 성취해가는 과정에서 어떤 부분문제를 세우고 그에 따른 목표를 설정하는 것이 중요하다고 생각하기 때문이다. (이런 컨셉의 강화학습 논문을 알고 있다면 추천 좀)