[3줄 Vision] BERT+DOGE=BEIT

2021. 7. 22. 13:08AI Paper Review

<arxiv> https://arxiv.org/pdf/2106.08254.pdf
1. ViT 같은 모델이나, 이미지에 GPT를 활용하는 연구들이 정말 많아 나는 무적이고 Transformer는 신인거 같이 느껴지는 요즘인 것 같다. 그래서 BERT 가지고 이미지 트랜스포머를 self-supervised 방법으로 pretraining하는 프레임워크를 만들기로 했다.

2. 기존 SSL 방법중에 이미지를 blockwise로 마스킹한 다음 뭔가를 하는 형태의 방법론들이 되게 유력했는데, 이 프레임워크는 크게 봤을때 이거랑 BERT랑 섞은 구조인 것 같다. 섞기 위해서 “이미지 토크나이저” 를 만들었다는 것이 핵심.

저자가 도지를 들고있는 상태에서 썼나 보다.

3. 나름 발군의 성능을 보여준다. Transformer 자체가 inductive bias가 적어서 그런지 되게 무겁다고 알려져 있는데 이런 pretrained 모델 많이 나오면 기존 EfficientNet 이런거 쓰듯이 슉슉 쓸수있지 않을까.

Experimental Results