[논문 리뷰] ViT-22B : Scaling Vision Transformers to 22 Billion Parameters
LLM(Large Language Model)의 크기가 10B~540B까지 넘어가는 동안, vison model에 대해서는 이 수준으로 scale을 키운 연구가 많지 않은 상황에서(당시 SOTA가 4B~15B 수준) Google Research에서 22B parameters를 가지는 ViT 모델을 효과적으로 학습하는…