[3줄 Vision] BERT+DOGE=BEIT

AI Paper Review

[3줄 Vision] BERT+DOGE=BEIT

Bellman 2021. 7. 22. 13:08

<arxiv> https://arxiv.org/pdf/2106.08254.pdf
1. ViT 같은 모델이나, 이미지에 GPT를 활용하는 연구들이 정말 많아 나는 무적이고 Transformer는 신인거 같이 느껴지는 요즘인 것 같다. 그래서 BERT 가지고 이미지 트랜스포머를 self-supervised 방법으로 pretraining하는 프레임워크를 만들기로 했다.

2. 기존 SSL 방법중에 이미지를 blockwise로 마스킹한 다음 뭔가를 하는 형태의 방법론들이 되게 유력했는데, 이 프레임워크는 크게 봤을때 이거랑 BERT랑 섞은 구조인 것 같다. 섞기 위해서 “이미지 토크나이저” 를 만들었다는 것이 핵심.

3. 나름 발군의 성능을 보여준다. Transformer 자체가 inductive bias가 적어서 그런지 되게 무겁다고 알려져 있는데 이런 pretrained 모델 많이 나오면 기존 EfficientNet 이런거 쓰듯이 슉슉 쓸수있지 않을까.