[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] DINO: Emerging Properties in Self-Supervised Vision Transformers (ICCV 2021)
๐ก ๐ก ๋ณธ ๋ฌธ์๋ 'DINO: Emerging Properties in Self-Supervised Vision Transformers (ICCV 2021)' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ด๋ค.
ํด๋น ๋ ผ๋ฌธ์ DINO๋ผ๋ self-distillation ๊ตฌ์กฐ์ ์๊ธฐ์ง๋ํ์ต ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ฉฐ, ๋์์ self-supervised learning๊ณผ ViT๊ฐ ๊ฒฐํฉ๋๋ฉฐ ๋ฐ์ํ๋ ํน์ฑ๋ค์ ๋ํ ๋ถ์๊ณผ ํฅ๋ฏธ๋ก์ด ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ ผ๋ฌธ์์ ๋ฐํ๊ณ ์๋ค. ํนํ self-supervised ViT๊ฐ segmentation mask์ ๋ํ ์ ๋ณด๋ฅผ ๊ฐ๊ณ ์๋ค๋ ํน์ฑ์ด ๊ต์ฅํ ์ฌ๋ฏธ์์๊ณ , ๊ธฐ์กด์ supervised ViT ๊ฐ์ ๊ฒฝ์ฐ์๋ object boundary์ ๋ํ ์ ๋ณด๋ฅผ ์ง์ ์ ์ผ๋ก ์ป์ ์ ์๊ณ attention flow์ ๊ฐ์ ์ถ๊ฐ์ ์ธ ์กฐ์ ๋ฐฉ๋ฒ์ด ๋ค์ด๊ฐ์ผ ํ์ง๋ง self-supervised ViT๋ ๋ง์ง๋ง ๋ ์ด์ด์ attention head์์ ์ง์ ์ ์ผ๋ก ํด๋น ์ ๋ณด์ ์ ๊ทผ์ด ๊ฐ๋ฅํ๋ค๋ ์ (๋ค๋ง ์ด ๊ฒฝ์ฐ์๋ ์ ๊ทธ๋ ๊ฒ ๋๋์ง์ ๋ํ ๊ถ๊ธ์ฆ์ด ์กฐ๊ธ ๋จ์๋ ๊ฒ ๊ฐ์ต๋๋ค)๋ ์ฌ๋ฏธ์๊ฒ ์ฝ์ ๋ ผ๋ฌธ์ด๋ ์ฐธ๊ณ ํ๊ธฐ ๋ฐ๋๋ค.
- Project: https://arxiv.org/abs/2104.14294
- Paper: https://arxiv.org/abs/2303.09553
- Github: https://github.com/facebookresearch/dino
- Video: https://www.youtube.com/watch?v=h3ij3F3cPIk
Abstract
self-sup ๋ฐฉ๋ฒ๋ก ์ ViT์ ์ ์ฉํด์ ์ ๋์ค๋ ๊ฑธ ๋์ด์, ๋ค์๊ณผ ๊ฐ์ ๋ฐ๊ฒฌ์ ํ๋ค.
- self-supervised ViT features contain explicit information about the semantic segmentation of an image (supervised ViT๋ convolutional nertworks(convnets)์์๋ ๋ฐ์ํ์ง X)
- these features are also excellent -NN classifiers, reaching 78.3% top-1 on ImageNet with a small ViT.
- momentum encoder, multi-crop training, and the use of small patches with ViTs ์ญ์ ์ค์ํจ์ ๊ฐ์กฐํจ.
์์ finding์ DINO (self-distillation with no labels)๋ผ๋ simple self-supervised method๋ฅผ ํตํด implementํจ. ViT-Base ๊ตฌ์กฐ๋ก Top-1 linear probing accuracy๋ฅผ 80.1% ๋ฌ์ฑํ๋ฉด์ DINO์ ViT ๊ฐ ์๋์ง๋ฅผ ๋ณด์ฌ์ค.
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Introduction
์ต๊ทผ Transformer๋ ์ด๋ฏธ์ง ์ธ์ ๋ถ์ผ์์ convnet (convolutional neural network)์ ๋์์ผ๋ก ๋ ์ค๋ฅด๊ณ ์๋ค. NLP์์ ์๊ฐ์ ๋ฐ์ ๋ง์ ์์ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ ๋ค ๋ชฉํ ๋ฐ์ดํฐ์ ์ ๋ํ์ฌ finetuningํ๋ ํ์ต ์ ๋ต์ ์ฌ์ฉํ๋ค. ViT๋ ๊ฒฝ์๋ ฅ ์์ง๋ง convnet์ ๋ฐ์ด๋๋ ์ด์ ์ด ์์ง ์๋ค. ๊ณ์ฐ ๋น์ฉ์ด ๋ ์๊ตฌ๋๋ฉฐ ๋ ๋ง์ ํ์ต ๋ฐ์ดํฐ๊ณผ ํ์ํ๊ณ feature๋ค์ด ๊ณ ์ ํ ์์ฑ์ ๋ํ๋ด์ง ์๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ vision ๋ถ์ผ์์ Transformer์ ์กฐ์ฉํ ์ฑ๊ณต์ด ์ฌ์ ํ์ต์์ supervision์ ์ฌ์ฉํ์ฌ ์ค๋ช ๋ ์ ์๋์ง ์ง๋ฌธํ๋ค. ์ ์๋ค์ ๋๊ธฐ๋ NLP์์ Transformer์ ์ฑ๊ณต์ ์ํ ์ฃผ์ ์์ ์ค ํ๋๊ฐ BERT์ close procedure ๋๋ GPT์ ์ธ์ด ๋ชจ๋ธ๋ง ํํ๋ก self-supervised pretraining์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ self-supervised pretraining์ ๋ชฉ์ ํจ์๋ ๋ฌธ์ฅ์ ๋จ์ด๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ๋น ๋จ์ผ ๋ ์ด๋ธ์ ์์ธกํ๋ ์ง๋ ํ์ต์ ๋ชฉ์ ํจ์๋ณด๋ค ๋ ํ๋ถํ ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํ๋ pretext task๋ฅผ ์์ฑํ๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ์ด๋ฏธ์ง์์ supervision์ ์ข ์ข ์ด๋ฏธ์ง์ ํฌํจ๋ ํ๋ถํ ์๊ฐ์ ์ ๋ณด๋ฅผ ๋ฏธ๋ฆฌ ์ ์๋ ์์ฒ ๊ฐ์ ์นดํ ๊ณ ๋ฆฌ ์งํฉ์์ ์ ํ๋ ๋จ์ผ ๊ฐ๋ ์ผ๋ก ์ถ์ํ๋ค.
NLP์์ ์ฌ์ฉํ๋ self-supervised pretext task๊ฐ ํ ์คํธ์ ํ์ ๋์ง๋ง ๋ค์ํ self-supervised ๋ฐฉ๋ฒ๋ค์ ์ด๋ฏธ์ง์์ ์ ์ฌ๋ ฅ์ด ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ๊ณต์ ํ์ง๋ง ์๋ช ํด(collapse)๋ฅผ ํผํ๊ฑฐ๋ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ค๊ณ๋ ๋ค๋ฅธ ๊ตฌ์ฑ ์์๋ฅผ ์ฌ์ฉํ๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋ฐฉ๋ฒ์์ ์๊ฐ์ ๋ฐ์ ViT feature๋ค์์ self-supervised pretraining์ ์ํฅ์ ์ฐ๊ตฌํ์๋ค.
ํนํ ํฅ๋ฏธ๋กญ๊ฒ๋ ์ ์๋ค์ supervised ViT๋ convnet์์ ๋ํ๋์ง ์๋ ๋ช ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ์์ฑ์ ํ์ธํ๋ค.
- Self-supervised ViT feature๋ค์ ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ฅ๋ฉด ๋ ์ด์์, ํนํ ๊ฐ์ฒด ๊ฒฝ๊ณ๋ฅผ ๋ช ์์ ์ผ๋ก ํฌํจํ๋ค. ์ด ์ ๋ณด๋ ๋ง์ง๋ง ๋ธ๋ก์ Self-attention ๋ชจ๋์์ ์ง์ ์ ๊ทผํ ์ ์๋ค.
- Self-supervised ViT feature๋ค์ finetuning, linear classifier, data augmentation ์์ด ๊ธฐ๋ณธ k-NN์์ ํนํ ์ ์ํ๋์ด ImageNet์์ 78.3%์ top-1 accuracy๋ฅผ ๋ฌ์ฑํ์๋ค.
Self-supervised ๋ฐฉ๋ฒ์์๋ segmentation mask์ ์ถํ์ด ๊ณตํต ์์ฑ์ผ๋ก ๋ํ๋๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ k-NN์์ ์ฐ์ํ ์ฑ๋ฅ์ momentum encoder์ multi-crop augmentation๊ณผ ๊ฐ์ ํน์ ๊ตฌ์ฑ ์์๋ฅผ ๊ฒฐํฉํ ๋๋ง ๋ํ๋๋ค. ๋ ๋ค๋ฅธ ๋ฐ๊ฒฌ ์ค ํ๋๋ ViT์ ๊ฒฐ๊ณผ feature์ ํ์ง์ ๊ฐ์ ํ๊ธฐ ์ํด ์์ ํจ์น๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ค์ํ๋ค๋ ๊ฒ์ด๋ค.
์ด๋ฐ ๊ตฌ์ฑ ์์์ ์ค์์ฑ์ ๋ํ ๋ฐ๊ฒฌ์ ๋ผ๋ฒจ์ด ์๋ knowledge distillation (with no label)์ ํ ํํ๋ก ํด์๋ ์ ์๋ ๊ฐ๋จํ self-supervised ๋ฐฉ๋ฒ์ ์ค๊ณํ๋๋ก ์ด๋์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก ์ค๊ณ๋ ํ๋ ์์ํฌ์ธ DINO๋ ํ์ค cross-entropy loss๋ฅผ ์ฌ์ฉํ์ฌ momentum encoder๋ก ๊ตฌ์ถ๋ teacher network์ ์ถ๋ ฅ์ ์ง์ ์์ธกํจ์ผ๋ก์จ self-supervised training์ ๋จ์ํํ๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ์ด ๋ฐฉ๋ฒ์ collapse๋ฅผ ํผํ๊ธฐ ์ํด teacher output์ centering๊ณผ sharpening๋ง์ผ๋ก ์๋ํ ์ ์๋ค. ํนํ ์ค์ํ ์ ์ ํ๋ ์์ํฌ๊ฐ ์ ์ฐํ๊ณ ์ํคํ ์ฒ๋ฅผ ์์ ํ๊ฑฐ๋ ๋ด๋ถ ์ ๊ทํ๋ฅผ ์ ์ฉํ ํ์ ์์ด convnet๊ณผ ViT ๋ชจ๋์์ ์๋ํ๋ค๋ ๊ฒ์ด๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์์ ํจ์น๋ฅผ ์ฌ์ฉํ๋ ViT-Base๋ก 80.1%์ top-1 accuracy๋ก ImageNet linear classification ๋ฒค์น๋งํฌ์์ ์ด์ ์ self-supervised feature๋ค์ ๋ฅ๊ฐํจ์ผ๋ก์จ DINO์ ViT๊ฐ์ ์๋์ง ํจ๊ณผ๋ฅผ ์ถ๊ฐ๋ก ๊ฒ์ฆํ๋ค. ๋ํ DINO๋ฅผ state-of-the-art ResNet-50 ์ํคํ ์ฒ์ ์ฌ์ฉํ์ฌ DINO๊ฐ convnet๊ณผ ํจ๊ป ์๋ํจ์ ํ์ธํ๋ค. ๋ง์ง๋ง์ผ๋ก ๊ณ์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์ฉ๋์ด ์ ํ๋ ๊ฒฝ์ฐ ViT์ ํจ๊ป DINO๋ฅผ ์ฌ์ฉํ๋ ๋ค์ํ ์๋๋ฆฌ์ค์ ๋ํด ๋ ผ์ํ๋ค. ํนํ, ViT๋ก DINO๋ฅผ ๊ต์กํ๋ ๋ฐ 3์ผ ๋์ ๋จ 2๊ฐ์ 8-GPU ์๋ฒ๋ง ์์ผ๋ฉด ImageNet linear classification ๋ฒค์น๋งํฌ์์ 76.1%๋ฅผ ๋ฌ์ฑํ ์ ์๋ค๊ณ ํ๋ค.
Approach
1. SSL with Knowledge Distillation
DINO๋ ์ต๊ทผ self-supervised ๋ฐฉ๋ฒ๋ค๊ณผ ์ ์ฒด ๊ตฌ์กฐ๊ฐ ๊ฐ์ง๋ง knowledge distillation๊ณผ ์ ์ฌํ๋ฉฐ knowledge distillation ๊ด์ ์์ DINO๋ฅผ ์ ์ํ๋ค. DINO๋ ๋ค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
DINO์ ์๊ณ ๋ฆฌ์ฆ pseudo-code๋ ๋ค์๊ณผ ๊ฐ๋ค.
Knowledge distillation๋ student network ๋ฅผ ํ์ตํ ๋ ์ถ๋ ฅ์ ์ฃผ์ด์ง teacher network ์ ์ผ์น์ํค๋ ํ์ต ํจ๋ฌ๋ค์์ด๋ค. ์ด๋ฏธ์ง ๊ฐ ์ฃผ์ด์ก์ ๋ ๋ ์ ๊ฒฝ๋ง ๋ชจ๋ ์ฐจ์์ ํ๋ฅ ๋ถํฌ ์ Pt๋ฅผ ์ถ๋ ฅํ๋ค. ํ๋ฅ ๋ถํฌ ๋ ๋คํธ์ํฌ ์ ์ถ๋ ฅ์ softmax function์ผ๋ก ์ ๊ทํํ์ฌ ์ป๋๋ค.
์ ๋ temperature parameter์ด๋ฉฐ ์ถ๋ ฅ ๋ถํฌ์ ๋พฐ์กฑํ ์ ๋๋ฅผ ์กฐ์ ํ๋ค. ๊ณ ์ ๋ teacher network gθt๊ฐ ์ฃผ์ด์ก์ ๋ student network์ ํ๋ผ๋ฏธํฐ ์ ๋ํ cross-entropy loss๋ฅผ ์ต์ํํ์ฌ ๋ ์ ๊ฒฝ๋ง์ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์ผ์น์ํจ๋ค.
์ฌ๊ธฐ์ ์ด๋ค.
๋ค์์ ์ด๋ป๊ฒ ์ ์๋ค์ด ์ ๋ฐฉ๋ฒ์ self-supervised learning์ ์ ์ฉํ์๋ ์ง์ ๋ํ ๋ํ ์ผํ ๋ถ๋ถ์ด๋ค. ๋จผ์ , ์ ์๋ค์ multi-crop strategy๋ก ์ด๋ฏธ์ง์ ๋ค์ํ distorted view๋ crop์ ๊ตฌ์ฑํ์๋ค. ๋ณด๋ค ์ ํํ๊ฒ๋ ์ฃผ์ด์ง ์ด๋ฏธ์ง์์ ์๋ก ๋ค๋ฅธ view์ set ๋ฅผ ์์ฑํ๋ค. ์ด set์ ๋ global view V์ x1g์ ์์ ํด์๋์์์ ๋ช๋ช local view๋ฅผ ํฌํจํ๋ค. ๋ชจ๋ crop ์ด๋ฏธ์ง๊ฐ student๋ฅผ ํต๊ณผํ ์ ์์ง๋ง teacher๋ global view๋ง ํต๊ณผํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด “local-to-global” ๋์์ ์ฅ๋ คํ๋ค. ๋ฐ๋ผ์ ๋ค์ loss๋ฅผ ์ต์ํํ๋ค. x2g
์ด loss๋ ๋ฒ์ฉ์ ์ด๊ณ 2๊ฐ์ view๋ฟ๋ง ์๋๋ผ ์ฌ๋ฌ ๊ฐ์ view์ ๋ํ์ฌ ์ฌ์ฉํ ์ ์๋ค. ์ ์๋ค์ multi-crop ํ์ค ์ค์ ๋๋ก ์๋ณธ ์ด๋ฏธ์ง์ ๋์ ์์ญ์ ํฌํจํ๋ ํด์๋์ global view 2๊ฐ์ ์๋ณธ ์ด๋ฏธ์ง์ ์ข์ ์์ญ์ ํฌํจํ๋ ํด์๋์ local view ์ฌ๋ฌ๊ฐ๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ฅผ DINO์ ๊ธฐ๋ณธ ์ค์ ์ผ๋ก ํ๋ค.
๋ ์ ๊ฒฝ๋ง ๋ชจ๋ ๊ฐ์ ์ํคํ ์ฒ ๋ฅผ ์ฌ์ฉํ๋ฉฐ ์๋ก ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ ์ θt๋ฅผ ๊ฐ์ง๋ค. θs๋ ์ loss ์์ SGD๋ก ์ต์ํํ์ฌ ํ์ต์ํจ๋ค.
Teacher network
Knowledge distillation๊ณผ ๋ค๋ฅด๊ฒ ์ฌ์ ์ง์์ผ๋ก teacher network gθt๋ฅผ ๊ฐ์ง์ง ์์ผ๋ฏ๋ก, teacher network๋ฅผ student network์ ์ด์ iteration์ผ๋ก ๊ตฌ์ถํ๋ค. ์ ์๋ค์ ์ฌ๋ฌ ์ ๋ฐ์ดํธ ๊ท์น์ teacher์ ์คํํ์์ผ๋ฉฐ, teacher network๋ฅผ epoch ๋์ freezeํ๋ ๊ฒ์ด ์๋นํ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๊ณ student์ ๊ฐ์ค์น๋ฅผ teacher๋ก ๋ณต์ฌํ๋ ๊ฒ์ ์๋ ดํ์ง ๋ชปํ์๋ค๊ณ ํ๋ค. Student์ ๊ฐ์ค์น์ exponential moving average (EMA)๋ฅผ ์ฌ์ฉํ๋ momentum encoder๊ฐ ํนํ ํ๋ ์์ํฌ์ ์ ๋ง์๋ค๊ณ ํ๋ค.
์ ๋ฐ์ดํธ ๊ท์น์
์ด๋ฉฐ, ํ์ต ์ค์ ๋ 0.996์์ 1๋ก ์ฆ๊ฐํ๋ cosine schedule์ ๋ฐ๋ฅธ๋ค. ์๋ momentum encoder๊ฐ contrastive learning์ ํ์์ ์ฌ์ฉ๋์์ง๋ง, DINO์๋ ํ๋ contrastive loss๊ฐ ์์ผ๋ฏ๋ก ์ญํ ์ด ๋ค๋ฅด๊ณ self-training์ ์ฌ์ฉํ๋ mean teacher์ ์ญํ ์ ํ๋ค. ํ์ต ์ค์๋ teacher๊ฐ student๋ณด๋ค ๋ ์ฑ๋ฅ์ด ์ข์ผ๋ฉฐ, teacher๊ฐ target feature๋ค์ ๊ณ ํ์ง๋ก ์ ๊ณตํ์ฌ student์ ํ์ต์ guideํ๋ค.
Network architecture
์ ๊ฒฝ๋ง ๋ ViT๋ ResNet backbone g์ projection head f๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ( h) Projection head๋ layer 3๊ฐ์ MLP, g=hโf ์ ๊ทํ, ๊ฐ์ค์น๊ฐ ์ ๊ทํ๋ FC layer๋ก ๊ตฌ์ฑ๋๋ค. ์ ์๋ค์ ๋ค๋ฅธ projection head๋ค๋ ์คํํด๋ณด์์ง๋ง ์์ ์ค๋ช ํ ๋์์ธ์ด DINO์ ๊ฐ์ฅ ์ ํฉํ์๋ค. ํนํ ํฅ๋ฏธ๋ก์ด ์ ์ ํ์ค convnet๊ณผ ๋ฌ๋ฆฌ ViT ์ํคํ ์ฒ๋ ๊ธฐ๋ณธ์ ์ผ๋ก batch ์ ๊ทํ(BN)๋ฅผ ์ฌ์ฉํ์ง ์๋๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ViT์ DINO๋ฅผ ์ ์ฉํ ๋๋ projection head์์ BN์ ์ ๊ฑฐํ์ฌ ์ ์ฒด ์์คํ ์ BN์ด ์๋๋ก ํ์๋ค. l2
Avoiding collapse
์ฌ๋ฌ self-supervised ๋ฐฉ๋ฒ์ด contrastive loss, clustering constraints, predictor, BN ๋ฑ์ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก collapse๋ฅผ ํผํ๋ ค๊ณ ํ๋ค. DINO๋ ์ฌ๋ฌ ์ ๊ทํ๋ก ์์ ํ๋ ์ ์์ง๋ง collapse๋ฅผ ํผํ๊ธฐ ์ํด momentum teacher output์ centering ๋ฐ sharpening๋ง์ผ๋ก ์๋ํ ์๋ ์๋ค.
Centering์ ํ ์ฐจ์์ด ์ง๋ฐฐํ๋ ๊ฒ์ ๋ฐฉ์งํ์ง๋ง uniform ๋ถํฌ๋ก์ collapse๋ฅผ ์กฐ์ฅํ๋ ๋ฐ๋ฉด, sharpening์ ๋ฐ๋ ํจ๊ณผ๋ฅผ ๋ธ๋ค. ๋ ์ฐ์ฐ์ ๋ชจ๋ ์ ์ฉํ์ฌ collpase๋ฅผ ํผํ๊ธฐ์ ์ถฉ๋ถํ๋๋ก ๊ฐ ํจ๊ณผ์ ๊ท ํ์ ๋ง์ถ๋ค. Collapse๋ฅผ ํผํ๊ธฐ ์ํ์ฌ centering์ ์ฌ์ฉํ๋ฉด batch์ ๋ํ ์์กด๋๋ฅผ ๋ฎ์ถ๊ธฐ ์ํด ์์ ์ฑ์ ๋ฎ์์ง๋ค. ์ด๋ centering ์ฐ์ฐ์ด 1์ฐจ batch ํต๊ณ์๋ง ์์กดํ๋ฉฐ teacher์ bias ํญ์ ์ถ๊ฐํ๋ ๊ฒ์ผ๋ก ํด์ํ ์ ์๋ค.
์ค์ฌ ๋ EMA๋ก ์ ๋ฐ์ดํธ๋๋ฉฐ batch size๊ฐ ๋ค๋ฅด๋๋ผ๋ ์ ์ ์ฉ๋๋ค. c
์ฌ๊ธฐ์ ์ rate parameter์ด๊ณ ๋ batch size์ด๋ค. Sharpening์ teacher softmax normalization์ ๋ฅผ ๋ฎ์ ๊ฐ์ผ๋ก ๋๋ ๊ฒ์ผ๋ก ํ ์ ์๋ค.
2. Implementation and evaluation protocols
Vision Transformer
์ ์๋ค์ DeiT์ implementation์ ์ฌ์ฉํ์๋ค. ๋ณธ ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ๋ชจ๋ธ๋ค์ ์ค์ ์ ๋ค์ ํ์ ๊ฐ๋ค.
ViT ์ํคํ
์ฒ๋ ๊ฒน์น์น ์๋ ์ฐ์์ ์ธ ์ ์ด๋ฏธ์ง ํจ์น๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ์ผ๋ฐ์ ์ผ๋ก (“/16”)์ด๋ (“/8”)์ ์ฌ์ฉํ์๋ค. ์ด ํจ์น๋ค์ linear layer์ ํต๊ณผํ์ฌ ์๋ฒ ๋ฉ์ด ๋๋ค.
์ ์๋ค์ ์ถ๊ฐ ํ์ต๊ฐ๋ฅํ ํ ํฐ์ ์ํ์ค์ ๋ฃ์ด ์ ์ฒด ์ํ์ค์ ์ ๋ณด๋ฅผ ์ง๊ณํ๋๋ก ํ์์ผ๋ฉฐ, ์ถ๋ ฅ์ projection head ๋ฅผ ์ฐ๊ฒฐํ์๋ค. ์ด ํ ํฐ์ ์ด๋ ํ ๋ ์ด๋ธ์ด๋ supervision์ ์ฐ๊ฒฐ๋์ง๋ ์์ง๋ง ๊ธฐ์กด ์ฐ๊ตฌ๋ค๊ณผ์ ์ผ๊ด์ฑ์ ์ํด ํด๋์ค ํ ํฐ [CLS]์ด๋ผ ๋ถ๋ฅธ๋ค. ํจ์น ํ ํฐ๊ณผ [CLS] ํ ํฐ์ pre-norm layer normalization์ ๊ฐ์ง ํ์ค Transformer network์ ์ ๋ ฅ๋๋ค. h
Transformer๋ self-attention๊ณผ feed-forward layer์ ์ํ์ค์ด๋ฉฐ skip connection์ผ๋ก ๋ณ๋ ฌํ๋๋ค. Self-attention layer๋ attention mechanism์ผ๋ก ๋ค๋ฅธ ํ ํฐ ํํ์ ๋ณด๊ณ ๊ฐ ํ ํฐ ํํ๋ค์ ์ ๋ฐ์ดํธํ๋ค.
Implementation details
- ๋ฐ์ดํฐ์ : ImageNet ๋ฐ์ดํฐ์ ์ ๋ ์ด๋ธ ์์ด ์ฌ์ ํ์ต
- batch size 1024, adamw optimizer, 16 GPUs
- learning rate๋ ์ฒ์ 10 epoch๋ง 0.005batchsize/256๊น์ง warmup ํ cosine schedule๋ก decay ×
- weight decay: cosine schedule๋ก 0.04์์ 0.4
- , τs=0.1๋ 0.04์์ 0.07๋ก ์ด๋ฐ 30 epoch๋์ linear-warmup τt
- BYOL์ data augmentation (color jittering, Gaussian blur and solarization)๊ณผ multi-crop์ ์ฌ์ฉ
Evaluation protocols
Self-supervised learning์ ํ๊ฐํ๋ ํ์ค ํ๋กํ ์ฝ์ ๊ณ ์ ๋ feature๋ค์ linear classifer๋ก ํ์ต์ํค๊ฑฐ๋ feature์ downstream task์์ finetuneํ๋ ๊ฒ์ด๋ค.
Linear evaluation์ ์ํด์ random resize crop๊ณผ horizontal flips augmentation์ ํ์ต์ ์ฌ์ฉํ๊ณ central crop์ ๋ํ accuracy๋ฅผ ์ธก์ ํ์๋ค. Finetuning evaluation์ ์ํด์ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๋ก ์ ๊ฒฝ๋ง์ ์ด๊ธฐํํ๊ณ ํ์ต ๋จ๊ณ์์ ์ ์์์ผฐ๋ค.
ํํธ, ๋ evaluation ๋ชจ๋ hyperparameter์ ๋ฏผ๊ฐํ๋ฏ๋ก learning rate๋ฅผ ๋ฐ๊พธ๋ฉด ์คํํ ๋๋ง๋ค ์ ํ๋๊ฐ ํฌ๊ฒ ๋ณํ๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค๊ณ ํ๋ค. ๋ฐ๋ผ์ ์ ์๋ค์ feature๋ค์ ํ์ง์ ๊ฐ๋จํ ๊ฐ์ค์น k-NN classifer๋ก ์ธก์ ํ์๋ค. ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ณ ์ ์ํค๊ณ feature๋ฅผ ๊ณ์ฐํ ๋ค ์ ์ฅํ๋ค. ๊ทธ๋ฐ ๋ค์ k-NN classifer๋ ์ด๋ฏธ์ง์ feature์ ๋ ์ด๋ธ์ ํฌํํ๋ k๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ ์ฅ๋ feature๊ณผ ์ผ์น์ํจ๋ค.
์ ์๋ค์ ๋ค์ํ k์ ๋ํ์ฌ ์คํ์ ํ ๊ฒฐ๊ณผ 20์ผ๋ก ๋๋ ๊ฒ์ด ์ ์ฒด์ ์ผ๋ก ์ฑ๋ฅ์ด ์ ์ผ ์ข์๋ค๊ณ ํ๋ค. ์ด evaluation ๋ฐฉ๋ฒ์ ์ถ๊ฐ hyperparameter tuning์ด๋ data augmentation์ด ํ์ ์์ผ๋ฉฐ ํ์ ๋ฐ์ดํฐ์ ์ ๋ํ์ฌ 1๋ฒ๋ง ์คํํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ feautre evaluation์ ๊ต์ฅํ ๊ฐ๋จํ๊ฒ ๋ง๋ ๋ค.
Main Results
1. Comparing with SSL frameworks on ImageNet
๋ค์์ ๋ค์ํ self-supervised ๋ฐฉ๋ฒ์ ๋ํ ImageNet์์์ linear๊ณผ k-NN evaluation์ top-1 accuracy์ด๋ค. Throughput (im/s)์ NVIDIA V100 GPU์์ ํ ๋ฒ์ 128๊ฐ์ ์ํ์ ์ถ๋ ฅํ ๋ ์ธก์ ํ ๊ฐ์ด๋ค.
2. Properties of ViT trained with SSL
Nearest neighbor retrieval with DINO ViT
๋ค์์ ์ด๋ฏธ์ง retrieval์ ๋ํ ์ฑ๋ฅ ๋น๊ต์ด๋ค. Supervision(Sup.)์ด๋ DINO๋ก ImageNet์ด๋ Google Landmarks v2(GLDv2) ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ์ต๋ feature์ retrieval ์ฑ๋ฅ์ ๋น๊ตํ๋ค.
๋ค์์ copy detection task์ ๋ํ ์ฑ๋ฅ ๋น๊ต์ด๋ค. INRIA Copydays ๋ฐ์ดํฐ์
์ “๊ฐํ” ๋ถ๋ถ์งํฉ์ ๋ํ์ฌ mean average precision (mAP)๋ฅผ ์ธก์ ํ์๋ค. Copy detection task์ blur, insertions, print and scan ๋ฑ์ผ๋ก ์๊ณก๋ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ๋ task์ด๋ค.
Discovering the semantic layout of scenes
์๋ ํ๋ DAVIS-2017 video instance segmentation ๋ฒค์น๋งํฌ์์์ ์ถ๋ ฅ ํจ์น ํ ํฐ์ ํ๊ฐํ ๊ฒ์ด๋ค. ์ mean region similarity์ด๊ณ Jm์ mean contour-based accuracy์ด๋ค. ์ด๋ฏธ์ง ํด์๋๋ 480p์ด๋ค. Fm
๋ค์์ ์๋ก ๋ค๋ฅธ head๋ค์ด ๋ค๋ฅธ semantic region์ ์ฐธ์ฌํ๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ฆผ์ด๋ค.
๋ค์์ supervised์ DINO์ segmentation ๊ฒฐ๊ณผ์ด๋ค. Self-attention map์ ์๊ณ๊ฐ์ ์ฃผ์ด mask๋ฅผ ์ป์ด ์๊ฐํํ ๊ฒ์ด๋ค.
Transfer learning on downstream tasks
๋ค์์ ์ฌ๋ฌ ํ์ task์์ DINO๋ก ์ฌ์ ํ์ต๋ feature์ ํ์ง์ ํ๊ฐํ ํ์ด๋ค.
Ablation Study of DINO
1. Importance of the Different Components
๋ค์์ ์์๋ฅผ ์ถ๊ฐํ๊ฑฐ๋ ์ ๊ฑฐํ ๋ณํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒ์ด๋ค.
๋ค์์ ๋ค์ํ ํจ์น ํฌ๊ธฐ์์ ViT-S ๋ชจ๋ธ์ k-NN classification ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒ์ด๋ค.
2. Impact of the choice of Teacher Network
๋ค์์ ImageNet์ ๋ํ k-NN classifer๋ก ์ธก์ ํ top-1 accuracy์ด๋ค.
์ผ์ชฝ์ ํ์ต ์ค์ momentum teacher๊ณผ student์ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒ์ด๋ค. ์ค๋ฅธ์ชฝ์ ๋ค์ํ teacher network์ ๋ํ ์ฑ๋ฅ ๋น๊ต์ด๋ค.
3. Avoiding collapse
๋ค์์ centering๊ณผ sharpening์ด collapse๋ฅผ ํผํ๋ ๋ฐ ์ํํ๋ ์ญํ ์ ์ฐ๊ตฌํ ๊ฒ์ด๋ค.
Collapse์๋ ๋ ๊ฐ์ง ํํ๊ฐ ์๋ค. ํ๋๋ ์ ๋ ฅ์ ๋ฌด์ํ๊ณ ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ๋ชจ๋ ์ฐจ์์์ ๊ท ์ผํ ๊ฒ์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ํ ์ฐจ์์ด ์ง๋ฐฐ์ ์ธ ๊ฒ์ด๋ค. Centering์ ํ ์ฐจ์์ด ์ง๋ฐฐ์ ์ธ collapse๋ฅผ ํผํ์ง๋ง ๊ท ์ผํ ์ถ๋ ฅ์ ์ ๋ํ๋ฉฐ, sharpening์ ๋ฐ๋ ํจ๊ณผ๊ฐ ๋ํ๋๋ค. ์ด๋ฌํ ํน์ฑ์ cross-entropy ๋ฅผ entropy H์ KL divergence h๋ก ๋๋์ด ๋ณด๋ฉด ์ ์ ์๋ค. DKL
H(Pt,Ps)=h(Pt)+DKL(Pt|Ps)
KL divergence๊ฐ 0์ด๋ผ๋ ๊ฒ์ ์ถ๋ ฅ์ด ์์๋ผ๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ ์ด๋ collapse์ด๋ค. ๋ค์ ํ๋ centering๊ณผ sharpening์ ํ์ต์ ์ฌ์ฉํ ๋์ ์ฌ์ฉํ์ง ์์ ๋์ entropy์ KL divergence๋ฅผ ์ธก์ ํ ๊ฒ์ด๋ค.
4. Compute requirements
๋ค์ ํ๋ 2๊ฐ์ 8-GPU machine์์ ViT-S/16 DINO์ ์คํํ๋ ๋ฐ ํ์ํ ์ด ์๊ฐ๊ณผ GPU๋น ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ณด์ฌ์ค๋ค.
Multi-crop์ด ์ ํ๋์ ์คํ์๊ฐ tradeoff๋ฅผ ๊ฐ์ ํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
5. Training with small batches
๋ค์์ batch size์ ๋ํ ํจ๊ณผ๋ฅผ ๋ํ๋ธ ํ์ด๋ค.