[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] CLIP: Vision Language Multimodal dataset - CLIP: Learning transferable visual models from natural language supervision
๐ก ๋ณธ ๋ฌธ์๋ 'CLIP: Learning transferable visual models from natural language supervision' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ ๋๋ค.
ํด๋น ๋ ผ๋ฌธ์ CLIP ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ language embedding์ NeRF ์์ ์ง์ด๋ฃ์ด NeRF๋ฅผ Multi Modal๋ก ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ๋ ผ๋ฌธ์ด๋ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.
- Project: https://www.lerf.io/
- Paper: https://arxiv.org/abs/2303.09553
- Github: https://github.com/kerrj/lerf
- Dataset: https://drive.google.com/drive/folders/1vh0mSl7v29yaGsxleadcj-LCZOE_WEWB
Abstract
์ต์ Computer Vision System์ ๋ฏธ๋ฆฌ ์ ํด์ง ๊ฐ์ฒด์ ์งํฉ์ ์์ธกํ๋๋ก ํ๋ จํ๋ค. ์ด๋ ๋ค๋ฅธ ๊ฐ์ฒด๋ฅผ ์ถ๊ฐํ๋ ค๋ฉด ์ถ๊ฐ๋ฐ์ดํฐ์ ๋ ์ด๋ธ๋ง์ด ํ์ํ๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ ์ ํ๋ ํํ์ supervision์ ์ผ๋ฐ์ฑ๊ณผ ์ฌ์ฉ์ฑ์ ์ ํํ๋ค. ๋ฐ๋ผ์ ์ด๋ฏธ์ง์ ๋ํ Raw Text ์์ ์ง์ ํ์ตํ๋ ๊ฒ์ด ํจ์ฌ ๋ ๊ด๋ฒ์ํ supervision์ ํ ์ ์๋ ๋์์ด๋ค.
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค
- Text model์์ ์ฌ์ฉ๋๋ ๋์ฉ๋ dataset(400M Text Image pair)์ ๊ตฌ์ถํ์ฌ image model์ ํจ์จ์ ์ผ๋ก ํ์ตํ์๋ค.
- Contrastive Learning์ ์ด์ฉํ์ฌ ์ ์๋ฏธํ text to image ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์๋ค. ์ฆ, multimodal์ ๊ฐ๋ฅ์ผ ํ๋ค.
- Downstream Task์ ๋ํด Zero-shot transfer learning์ ์ฑ๋ฅ์ ๋น์ฝ์ ์ผ๋ก ํฅ์์์ผฐ๋ค.
๊ทธ๋ฆฌ๊ณ ์คํ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ธํ ์ถ๊ฐ contribution์ ๋ค์๊ณผ ๊ฐ๋ค. ์ด ๋ถ๋ถ์ ์ฌ์ค main contribution์ด ์๋ sub contribution์ ํด๋น๋๋ค.
- Linear probe๋ logistic regression์ ์ฑ๋ฅ์ ๋ณด์, representation learning์ด ์ด๋ ์ ๋ ์ ์งํ๋จ์ ์ ์ ์๋ค.
- Domain shift์ robustํ ๋ชจ๋ธ์ ํ์ตํ์๋ค.
- ๋จ์ํ ๋ฌด์์ dataset์ ๋ชจ์ ๊ฒ์ด ์๋๋ผ, dataset์ overlapping ๋ฌธ์ ๋ ๋ถ์ํ์๊ณ , ์ด๋ฅผ ํตํด ์ฑ๋ฅ ํฅ์์ด overfitting์ ์ํ ๊ฒฐ๊ณผ๊ฐ ์๋์ ์ฆ๋ช ํ์๋ค.
0. What is modality?
๋ ผ๋ฌธ ์๊ฐ์ ์์ multimodal์ด๋ผ๋ ์๋ฏธ์ ๋ํด ์ง๊ณ ๋์ด๊ฐ๊ธฐ ์ํด ๋จผ์ ‘modality’์ ์๋ฏธ์ ๋ํด ํ์ธํด๋ณด์. ์ผ๋ฐ์ ์ผ๋ก modality๊ฐ ๊ฐ์ง๋ ์๋ฏธ๋ ํฌ๊ฑฐ๋ ์๊ฒ ๊ตฌ๋ถ์ด ๊ฐ๋ฅํ๋ค. ๋ง์ฝ ํ๋ฅ ๋ถํฌ์ ๋ํด์ ์๊ฐํด๋ณด๋ฉด, modality๋ ํ๋์ probability density function๋ฅผ ๋ํ๋ด๋ฉฐ, ์ด๋ multimodal์ ์๋ก ๋ค๋ฅธ peak(local maxima)๋ฅผ ๊ฐ์ง๋ ๋ ๊ฐ ์ด์์ mode๋ฅผ ์๋ฏธํ๋ค.
ํ์ง๋ง ์์ ๋ด์ฉ์ ๋จ์ํ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ์ ํ ์ํ์ ์ ๊ทผ(ํด์)์ ๋ํ ์ด์ผ๊ธฐ์ด๊ณ , ์ค์ ๋ก ์ฐ๋ฆฌ๊ฐ ๋ฅ๋ฌ๋์์ ์ด์ผ๊ธฐํ๊ณ ์ ํ๋ ๋ถ๋ถ์ sensory(๊ฐ๊ฐ)๊ณผ ๋ง๋ฟ์ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
์ธ๊ฐ์๊ฒ ์์ด ๊ฐ๊ฐ์๋ ์ฌ๋ฌ modality(ํฌ๊ฒ ํด์ํด์, ํํ๋ ๋ชจ์์ด๋ผ๊ณ ๋ณด๋ฉด ๋๋ค)์ธ ์ฒญ๊ฐ, ์ด๊ฐ, ์๊ฐ ๋ฑ๋ฑ์ด ์์ผ๋ฉฐ ์ด๋ฌํ ๋ค์ํ ๊ฐ๊ฐ๋ค์ด ์ํธ์์ฉํ์ฌ ๋ง๋ฟ์์๋ ์ค๊ฐ ๋ถ๋ถ์ด ์ฌ๋์ผ๋ก ํ์ฌ๊ธ ์ถ๋ก ์ ๊ทผ๊ฑฐ๋ก ์ฌ์ฉ๋๋ค. ์ฆ multimodal์ด๋ ์ํต์ ๋ฐฉ์์ด ๋ ์๋ ์๊ณ , ์งํ์ฌ๋ฆฌํ์ ๋ฐ๋ฅธ ํน์ ํ๋์์์ ๊ธฐ์ค์ด ๋๊ธฐ๋ ํ๋ค.
์๋ฅผ ๋ค์ด, Verbal(์ธ์ด)์ ์์ด์๋ ๋จ์ด ๊ฐ๊ฐ์ ์๋ฏธ๋ฅผ ์์ ํ๋ Lexicon์ด ์๊ณ , Speech์ ํ ๋ถ๋ถ์ ๋ด๋นํ๋ฉฐ ๊ฐ ๋จ์ด์ ์ ๊ธฐ์ ์ธ ๊ด๊ณ๋ฅผ ํํํ๋ Syntax(๋ฌธ๋ฒ)์ด ์๊ธฐ๋ ํ๋ฉฐ ์ด๋ ํ context๊ฐ ์งํ๋๋ ์ฌ๋ ๊ฐ์ ๊ด๊ณ, ์๊ฐ๊ณผ ์ฅ์ ๋ฑ ์ธ์ด์ ์๋ฏธ ๋ถ์์ ๋ํด ๋ค์ํ ์์๋ฅผ ๊ณ ๋ คํ๋ Pragmatics(ํ์ฉ๋ก )๋ ์๋ค.
์ด์ฒ๋ผ ์ธ์ด ์ด์ธ์๋ Visual(์๊ฐ) ์์์๋ gesture, body posture๋ proxemics(์ธ๊ฐ์ ์ฌํ์ ์ด๋ ๋ฌธํ์ ์ธ ํ๊ฒฝ ๋ฐ ๊ณต๊ฐ๊ณผ์ ๊ด๊ณ๋ฅผ ํตํด ์ ์๋ ์ ์ฒด ์ธ์ด) ๋ฑ์ด ์๋ค. ๋๋ถ์ด ์ฌ๋๊ณผ ์ฌ๋ ๊ฐ์ eye contact, facial expression๋ ์ด๋ฌํ modality์ ํ ํํ๋ก ๋ณผ ์ ์๋ค.
์์ ์ค๋ช ํ ๋ด์ฉ์ ๋ด๋ถ๋ถ ์ ๋ณด๋ฅผ ์์งํ๋ ๊ฐ๊ฐ์ ์ ์ฒด ๊ธฐ๊ด ๋ฐ ์ ๋ณด ์ ๋ฌ์ ์๋จ๊ณผ ๊ด๋ จ๋ ๊ตฌ์ฑ ์์๋ค์ ์ดํด๋ณด์๊ณ , ์ด์ ์กฐ๊ธ ๋ ์ข์ ์๋ฏธ์ modality์ ๋ํด ์ ์ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Modality in computational environment
Modality๋ ๋ฌด์ธ๊ฐ๊ฐ ๊ฒฝํ๋๊ฑฐ๋ ๋ฐ์ํ๋ ๋ฐฉ์ ๋ฐ ์๋จ์ด๋ค. ๋ฐ๋ผ์ ์ปดํจํ ํ๊ฒฝ์์ ์ดํดํ๋ modality๋ ํน์ ํํ์ ์ ๋ณด๋ฅผ ์๋ฏธํ๊ธฐ๋ ํ๋ฉฐ, ์ ๋ณด๊ฐ ์ ์ฅ๋๋ ๋ํ์ ํํ๋ก ์ดํดํ ์ ์๋ค. ์๋ฅผ ๋ค์ด ์ปดํจํฐ์ ์ด๋ค ์ด๋ฏธ์ง๊ฐ ์ ์ฅ๋๋ค๊ณ ํ์ ๋, ‘Image’ ์์ฒด๋ฅผ modality๋ก ๋ณผ ์๋ ์๊ณ ๋ณด๋ค ์์ธํ๊ฒ ๋ถ๋ฅํด์ ‘jpeg’, ‘bmp’, ‘png’ ๋ฑ ์ด๋ฏธ์ง ์ ์ฅ ๋ฐ ์์ถ ๋ฐฉ์์ ๋ฐ๋ผ modality๋ฅผ ๊ตฌ๋ถํ ์๋ ์๋ค.
์์ ๋ณธ ์ธ๊ฐ์ ๊ฐ๊ฐ๊ณผ ๊ด๋ จ๋ sensory modality๋ ์ํ์ ํ๋ฅ ๋ถํฌ์ ๊ทผ๊ฑฐํ probability modality์ ๊ทธ ๊ฒฐ์ ํจ๊ปํ์ฌ, modality(ํน์ medium, media)๋ ์ด๋ค ๋ฐฉ๋ฒ์ด๋ ๊ธฐ๊ตฌ๋ฅผ ํตํด ์ ๋ณด๋ฅผ ์ ์ฅํ๊ณ ์ํตํ๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ฆ ํต์ฐ ๋ฐ ์์ฌ ์ํต์ ์์คํ ์ผ๋ก ์ดํดํ ์ ์๋ค.
์ธ์์๋ ์ฌ๋ฌ ์ข ๋ฅ์ communities(๋จ์ฒด)๋ก ์ธ์๋ ์ฌํ/๋ฌธํ ์์ ํ๋ซํผ๋ค์ด ์๊ณ , modality๋ ๊ทธ ์์์ ๋ค์ํ ๋ฐฉ์์ ํตํด ์ ์๋๋ ์ ๋ณด๋ ์ํต ๋ฐฉ์์ ๋ํ ๋ถ๋ฅ์ด๋ค. deep learning๊ณผ ํฌ๊ฒ ๊ด๋ จ์ด ์๋ Natural language(spoken or written), Visual(images, videos) ๊ทธ๋ฆฌ๊ณ Auditory(voice, sounds and music)๊ฐ ๊ทธ๋ฌํ ๋ถ๋ฅ ์ค ํ๋์ ์ํ๋ฉฐ, ์ด๋์ multimodal์ด๋ ๋ ๊ฐ ์ด์์ modality๋ฅผ ํจ๊ป ํ์ฉํ์ฌ ์ด๋ ํ task๋ฅผ ํ์ด๋๊ฐ๋ ๊ฒ์ ์๋ฏธํ๋ค. ๋จ์ํ ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ text์ image๋ฅผ ํจ๊ป ์ฌ์ฉํ๋(์์ ํ ๊ฒฐ์ด ๋ค๋ฅธ modality) task๋ฟ๋ง ์๋๋ผ, modality๋ง ๊ตฌ๋ถ๋๋ค๋ฉด(ex. ์ฌ๋์ ๋ชฉ์๋ฆฌ + ์ ๊ธฐ ์ฐ์ฃผ) ๋ชจ๋ multimodal๋ก ๊ฐ์ฃผํ ์ ์๋ค.
1.Learning Transferable Visual Models From Natural Language Supervision
์์ multimodal ์ค๋ช
์ ๊ตณ์ด ๊ธธ๊ฒ ํ๊ณ ์ด์ ์ผ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ์์ํ๋ ์ด์ ๋ ์ด paper์ main contribution ์ค ํ๋๊ฐ ‘text์ image ๊ฐ์ ์ ์๋ฏธํ ๊ด๊ณ‘๋ฅผ ์ฐพ๋ ๊ฒ์ ์ง์คํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฌด๋ ค 48์ชฝ์ด๋ ๋๋ ๋ถ๋์ ์ก์๋จน๋ ์ด ๋
ผ๋ฌธ์ ์๋ ์ ๋ช
ํ๊ธฐ ๋๋ฌธ์ ๋ค์ํ ๋ธ๋ก๊ทธ์์ ๋ฆฌ๋ทฐ๋ฅผ ํ๊ณ , ์ ํ๋ธ๋ฅผ ์ฐพ์๋ด๋ ๊ฐ์ ์์์ด ์ ๋ง ๋ง์ ๊ฒ์ ์ ์ ์๋ค. ๋ณธ์ธ์ด ์ด ๊ธ์์ ์ง์คํ๊ณ ์ ํ๋ ๊ฒ์ ์ด ๋
ผ๋ฌธ์ด ๊ฐ์ง๋ paper๋ ๋ฐฉ๋ฒ๋ก ์์์ ์ฅ๋จ์ , ๊ทธ๋ฆฌ๊ณ contribution์ด๋ค.
NLP task์ ๋ฐ์ ๊ณผ CV task์ ํ๊ณ์
Computer vision task์ Natural language processing(NLP) deep learning์ ๋ฐ์ ๋ฐฉํฅ์ ์์ด ์ฐจ์ด๊ฐ ์์๋ค. ์ฒ์์ ๊ทธ ์์์ CNN(Convolutional Neural Network)๋ฅผ baseline์ผ๋ก recurrent neural network์ด ๊ฐ๋ฐ๋์์ง๋ง, attention mechanism ๋ฐ transformer๊ฐ ์๊ฐ๋๋ฉฐ ๊ธฐ๊ณ ๋ฒ์ญ๊ณผ ๊ด๋ จ๋ task์ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์๊ณ , transformer์ encoder ๋ฐ decoder ๊ตฌ์กฐ๋ฅผ ํ์ฉํ GPT๋ BERT model์ด ๋ฐ์ ํ๋ฉฐ ๋ง์ downstream task์ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋ ์ ์์๋ค.
์ปดํจํฐ ๋น์ ๊ณผ๋ ๋ค๋ฅด๊ฒ ์ด๋ฌํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ๋ฐ์ ํ ์ ์์๋ ๊ฐ์ฅ ํฐ ์ด์ ์ค ํ๋๋ ๋ฐ์ดํฐ์ ์์ง์ ์ฉ์ด์ฑ์ด์๋ค. ๋ณดํต ์์(image)๊ณผ ๊ด๋ จ๋ task๋ฅผ ํด๊ฒฐํ๋ ค๋ฉด ์ด์ ๋ง๋ domain์ ์ ์ํ๊ณ , ๊ฐ domain์ ๋ง๋ distribution์ ํ์ ํ์ฌ ์ด์ ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์์ง ๋ฐ ๋ผ๋ฒจ๋งํ๋ ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์์ง๋ฅผ ๋ถ๋ฅํ๋ task๋ฅผ ์ํํ๊ณ ์ ํ๋ค๋ฉด, ๋ถ๋ฅํ๊ณ ์ ํ๋ ๊ฐ์์ง์ ์ฌ์ง๊ณผ ๊ฐ ์ฌ์ง์ ๋ํด ๊ฐ์์ง ํ์ข ์ ๋งค์นญํ๋ ๊ณผ์ ์ ๊ฑฐ์น๋ค.
ํ์ง๋ง ์ฌ๊ธฐ์ image dataset ์์ง์ ํ๊ณ๊ฐ ๋๋ฌ๋๋ค. ๋ง์ฝ ๋ถ๋ฅํ๊ณ ์ ํ๋ ๊ฐ์์ง ํ์ข ์ด ์์ฒ/์๋ง ๊ฐ์ง๊ฐ ๋๋ค๋ฉด ์ด์ ๋ง๋ index labeling์ด ๋์ด์ผํ๊ณ , ๋ฌด์๋ณด๋ค ๋ง์ฝ ์ฌ์ง์ ๊ฐ์์ง๋ณด๋ค background ๋น์ค์ด ๋๋ค๊ฑฐ๋(์ฌ์ง๋ง๋ค object์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ), ๊ฐ์์ง ์ฌ๋ฌ ๋ง๋ฆฌ๊ฐ ํฌํจ๋ ์ฌ์ง ๋ฑ๋ฑ ๋ฐ์ดํฐ์ ๋ถํฌ์ ์ผ๊ด์ฑ ๋ฐ ํ๋ฆฌํฐ๋ฅผ ๋ณด์ฅํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ ์์ ๊ทธ๋ฆผ์ฒ๋ผ ์ด์ฌํ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์์ distribution์ ๋ง์ถ dataset์ ๊ตฌ์ฑํ๋๋ฐ, ์ถ๊ฐ์ ์ผ๋ก ‘์๋ฐ๊ฒฌ’์ ๊ตฌ๋ถํด์ผํ๋ค๋ฉด ํด๋น class์ ๋ํ ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ ์ฒ์๋ถํฐ ํด์ผํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด๋ ๋จ์ํ ์น ์์์ ๋ค๋์ ๋ฐ์ดํฐ์
์ ํ๋ํ๊ณ , ํ๋ํ ๋ค์ํ text prompt๋ฅผ token ๋จ์๋ก supervision์ ํ์ฉํ ์ ์๋ NLP ๋ชจ๋ธ๊ณผ ํฐ ์ฐจ์ด๊ฐ ์๋ค. ์ด๋ ๋ฏ computer vision์์ ํ๋ฆฌํฐ, ๋ถํฌ๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ ์ ์๋ฏธํ ๋ฐ์ดํฐ์
๊ตฌ์ถ ๊ณผ์ ์ ‘gold labeling‘์ด๋ผ ๋ถ๋ฅด๋ฉฐ, ์ด๋ฌํ gold label ์์ด๋ computer vision task์์ deep learning์ ์ข์ ์ฑ๋ฅ์ ๊ธฐ๋ํ๊ธฐ ํ๋ค๋ค.
๋ํ NLP์ CV์์ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ ๊ฒ์ด new task์ ๋ํ zero-shot ๋ฐ few-shot ์ฑ๋ฅ์ ๋ํ ๋ถ๋ถ์ด๋ค. ์์ ์ค๋ช
ํ๋ ๊ฒ๊ณผ ๊ฐ์ด ์์ฐ์ด ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์น ์์์ ๋ค๋์ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถ ๊ฐ๋ฅํ๋ฉฐ ๋ถํฌ๊ฐ ๋ฌดํ์ ๊ฐ๊น์ด(continous signal) ์ด๋ฏธ์ง์๋ ๋ค๋ฅด๊ฒ ์ธ์ด๋ ์ธ๊ฐ์ด ์ฌ์ฉํ๋ vocabulary๋ ๋ฌธ์ฅ ๋ด์์ ๋๋ถ๋ถ์ ํํ๋ variation์ด ์๊ธฐ(discrete signal) ๋๋ฌธ์ ๋์ฉ๋์ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ต๋ ๋์ฉ๋ ๋คํธ์ํฌ๋ ๋ค๋ฅธ task์๋ ์ฝ๊ฒ ์ ์์ด ๊ฐ๋ฅํ๋ค.
Restricted form of supervision
์ด๋ฌํ SOTA computer vision system์ ํ๊ณ์ (๋ฏธ๋ฆฌ ์ ์ํ object category์ ๋ฐ๋ฅธ ๋ฐ์ดํฐ๋ง์ ํ์ตํ ์ ์๊ณ , ์ค์ ๋ก ๋ฐ์ดํฐ ์์ง ๋จ๊ณ์์ ์ด๋ฌํ ๋ฐฉ๋ฒ ์ด์ธ์๋ ์ฌ์ฉํ ์ ์๋ค๋ ๊ฒ)์ ์ด ๋
ผ๋ฌธ์์๋ ํด๊ฒฐํด์ผํ ๋ฌธ์ ๋ก ์ ์ํ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ์ง ๋ชปํ๋ค๋ฉด NLP ๋ชจ๋ธ์ด ๊ฐ์ง๋ generality(์ผ๋ฐํ ์ฑ๋ฅ), usability(๋ค์ํ downstream task์ ํ์ฉํ ์ ์์)์ CV์์๋ ์์ํ ๊ฐ์ ธ๊ฐ ์ ์๋ค๋ ๊ฒ์ด๋ค.
๋ฐ๋ผ์ CLIP ๋
ผ๋ฌธ์์๋ image ํ์ต์ raw text๋ฅผ ํจ๊ป ํ์ฉํ์ฌ, image supervision ์์ฒด๋ฅผ ํ์ตํ๋ ๊ฒ๋ณด๋ค๋ text prompt์์ ๊ด๊ณ์ฑ์ ํตํด text representation๊ณผ image representation์ ์ฐ๊ฒฐํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
์ด๋ ๋ฐ์ดํฐ ์์ง ๋จ๊ณ์์๋ ํ๊ณ๊ฐ ์์๋ ๊ธฐ์กด computer vision ์ ๊ทผ ๋ฐฉ์์๋ ์ ์ฉ๋ ์ ์๋๋ฐ, ์น์์ ์ด๋ฏธ์ง๋ฅผ ์์งํ๊ณ ์ด์ ๋ง๋ class categorize๋ฅผ ์งํํ๋ ๊ฒ๋ณด๋ค๋, ์น ์์์ ์์ฃผ ๊ฒ์๋๊ฑฐ๋ ๋ฐ๋ณต๋๋ text prompt๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฅผ ๋ฌ์ฌํ๋ ์ด๋ฏธ์ง๋ฅผ ๊ฒ์ํ๊ฒ ๋๋ฉด ๊ตณ์ด domain distribution์ ๊ณ ๋ คํ dataset ๊ตฌ์ถ ์์ด๋ ํ์ต์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฅผ ๋ค์ด ์ํคํผ๋์ ์์์ ๋ง์ด ์ธ๊ธ๋ ๋จ์ด๋ค ์ค ํ๋๊ฐ ‘๊ท์ฌ์ด ๊ณ ์์ด‘๋ผ๋ฉด, ํด๋น text๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฌ๋กค๋งํ image๋ฅผ ‘๊ท์ฌ์ด ๊ณ ์์ด’๋ผ๋ text์ ์ฐ๊ด์ง๋ ํ์ต๋ง ์งํํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ด๋ค.
๊ธฐ์กด ๋ฐฉ์๊ณผ ๋น๊ตํ ํํ๋ ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค. ๋ฐ์ดํฐ์ ๊ตฌ์ถ ๋จ๊ณ์์ task๋ฅผ ์ ์ํ๋ ๋ถ๋ถ์ด ๋น ์ง๊ณ , image/text์ ์ ๊ธฐ์ ํ์ต์ ์ํ text prompt๋ฅผ ์ค์ ํ๊ณ ์ด๋ฅผ ํ ๋๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ณผ์ ์ด ์ถ๊ฐ๋์๋ค. Text prompt์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ๋๋ฌธ์ ๊ธฐ์กด์ task based dataset ์์ง๊ณผ๋ ๋ค๋ฅด๊ฒ ๋ผ๋ฒจ๋ง์ ์ถ๊ฐ ๊ณผ์ ์ด ๋ค์ด๊ฐ์ง ์๋๋ค.
Task-robust representation learning with CLIP
์ฌ์ค ์ด๋ฏธ์ง์ ํ
์คํธ ์ฌ์ด์ ์ ๊ธฐ์ ์ธ ๊ด๊ณ๋ฅผ ํ์ตํ๊ณ ์ ํ ์ฐ๊ตฌ๋ CLIP ์ด์ ์๋ ์กด์ฌํ์๋ค. ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ์ผ๋ก ์ ๊ทผํ๋ ๋ฐฉ์์ผ๋ก๋ content based image retrieval(ํน์ ๋ฌธ์์ ํจ๊ป ์ฃผ์ด์ง ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก nouns, adjectives๋ฅผ ์์ธกํ๋ task), caption prediction with manifold learning ๊ทธ๋ฆฌ๊ณ multimodal deep Boltzmann machine์ ํ์ฉํ low level image์ text tag feature์ ํ์ต์ด ์๋ค. ์ดํ์๋ CNN based approach๋ Transformer based approach๋ก ์ ๊ทผํ deep learning ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ๋ค์ด ์ ์๋์์ง๋ง, ์ฌ์ ํ ‘image representation learning‘์ด๋ผ๋ ๊ด์ ์์ natural language ๋ฐฉ์๋ค์ zero-shot learning ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ์ง ๋ชปํ๊ณ ์์๋ค. ์ด๋ ๋ฏ CLIP ์ด์ ์ deep learning ๋ฐฉ์๋ค์ ๋๋ถ๋ถ JFT-300M dataset๊ณผ ๊ฐ์ด ๋์ฉ๋ ๋ฐ์ดํฐ์
์ ํ์ฉํ๋ ๋ฐฉ์์ด๋ผ๋์ง, ๊ด๋ จ๋ prompt๋ฅผ instagram hashtag๋ก ์ฌ์ฉํ์ฌ ๋์ฉ๋์ dataset์ผ๋ก ํ์ตํ๋ ๋ฑ ์์ ์ค๋ช
ํ๋ ๊ธฐ์กด computer vision ๋ฐฉ์์ gold-label๊ณผ unlimited amounts of text prompt ๊ธฐ๋ฐ์ผ๋ก ์์งํ ๋ฐ์ดํฐ์
์ค๊ฐ ๊ณผ์ ์ ๋์ธ ์ฐ๊ตฌ๋ค์ด๋ค. ์ฌ์ ํ ํ์ ๋ supervision์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๊ณ ์ ์ ์ธ softmax classifier์ ์์กดํ ํ์ต ๋๋ฌธ์ representation์ ์ ์ฐํ ํ์ต๊ณผ zero-shot ์ฑ๋ฅ์ ์ ํํ๋ ์์๊ฐ ๋์๋ค.
์ด๋ฌํ weakly-supervised method์๋ ๋ค๋ฅด๊ฒ VirTex, ICMLM ๊ทธ๋ฆฌ๊ณ CLIP ๋
ผ๋ฌธ์ด ๊ฐ์ฅ ํฐ insight๋ฅผ ์ป์๋ ConVIRT์ ๊ฒฝ์ฐ์๋ ์ด ๋
ผ๋ฌธ์ ๋ฐฉํฅ์ฑ๊ณผ ๋น์ทํ๊ฒ language ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ image representation์ ํ์ตํ๋ค. ํ์ง๋ง ์ด๋ฌํ ์ฐ๊ตฌ๋ค์์๋ ๋์ฉ๋์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด๋ณด์ง ์์๋ค๋ ์ ์์ CLIP ์ ์๋ค์ด ConVIRT(์ฐธ๊ณ ๋ก ConVIRT๋ medical diagnosis์ ๊ด๋ จ๋ task๋ผ ๋ฐ์ดํฐ์
์ด ํ์ ์ ์ด๋ค)์ ์ปจ์
์ ๊ทธ๋๋ก ์ด์ฉํ๋, ๋๋์ WebImageText dataset์ ํ์ฉํ์ฌ() scratch๋ถํฐ contrastive representation learning์ ์งํํ ๊ฒ์ด๋ค.
ํ์ต ๊ณผ์ ์์ ์ ์๋ค์ ๊ฐ์ฅ ํจ์จ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ ๋ฐฉ๋ฒ๋ก ์ ํ์ํ์ผ๋ฉฐ, ๊ฒฐ๋ก ์ ์ผ๋ก๋ ์์ฐ์ด ๋ชจ๋ธ์ธ GPT ์๋ฆฌ์ฆ์ ๊ฐ์ด ๋ค์ํ task์ ์ ์ฉ ๊ฐ๋ฅํ ๋คํธ์ํฌ๋ฅผ ํ์ต์ํฌ ์ ์์๋ค.
Image-captioning baseline์ธ transformer language ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒ๋ณด๋ค bag of words prediction(BoW)์ ํ์ตํ๋ ๊ฒ์ด ๋ ํจ์จ์ ์ด๊ณ , bag of words prediction๊ณผ CLIP(constrastive learning)์ ํจ๊ป ํ์ฉํ ๊ฒ์ด zero-shot ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ์ ์์ด ์ฝ ๋ฐฐ์ ํ์ต ํจ์จ์ด ๋ํ๋ฌ๋ค๊ณ ํ๋ค. 12
Several approaches
์์ ๊ธธ๊ฒ ์ค๋ช ํ๊ณ ๋์ด์ค๊ธด ํ์ง๋ง, ํด๋น ๋ ผ๋ฌธ์์ approach๋ฅผ ๋ถ๋ฅํ์ฌ ์ค๋ช ํ ๋ถ๋ถ์ด ์ฌ์ค์ main contribution์ ์์๋ณด๊ธฐ์ ๊ฐ์ฅ ์ ํฉํ ๊ตฌ๊ฐ์ด๋ผ๊ณ ์๊ฐ๋์ด ๊ฐ ์์๋ง๋ค ๊ฐ๋จํ๊ฒ ์์ฝํ๊ณ ๋์ด๊ฐ๋๋ก ํ๊ฒ ๋ค.
NLP supervision
๊ธฐ์กด์ text์ image pair๋ฅผ ํ์ตํ๋ ์ฐ๊ตฌ๋ค์ ๋๋ถ๋ถ unsupervised, self-supervised, weakly-supervised ๋ฑ์ ๋ฐฉ๋ฒ์ ํ ๋๋ก natural language supervision์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ image representation ํ์ต์ text ์ ๋ณด๋ฅผ ์ง์ ์ฐ๊ด์ง์ ์ ์์์ผ๋ NLP๊ฐ ๊ฐ์ง๋ ์ ๋ณด๋ฅผ ์ ๋๋ก ํ์ฉํ์ง ๋ชปํ๋ค. ํ์ง๋ง NLP๋ training ๊ณผ์ ์์ to mapping์ด ํ์์์ผ๋ฉฐ, categorized๋ labeling์ ๋นํด ํ์ฉํ ์ ์๋ ์ ๋ณด๊ฐ ๋ง๋ค๋ ์ฅ์ ์ด ์๋ค. ๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์ ์ง์คํ๊ณ ์ ํ ๋ด์ฉ์ NLP๋ฅผ supervision์ผ๋ก ํ์ฉํด์ image๋ฅผ ํตํด text๋ฅผ ์์ธกํ๋ ํํ๋ก image/text multimodal learning์ ์งํํ์๋ ๊ธฐ์กด concept์์ ๋ฒ์ด๋, NLP representation์ image representation์ ์ฐ๊ฒฐ๋ง ์์ผ์ฃผ์๋ concept์ ์ฌ์ฉํ์๋ค.
Dataset ์์ง
MS-COCO, Visual Genome ๊ทธ๋ฆฌ๊ณ YFCC100M๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์
์ ์๊ฐ ํ์ ํ ์ ๊ฑฐ๋, ๋์ฉ๋์ ๋ฐ์ดํฐ์
์ด๋ผ ํ๋๋ผ๋ image์ metadata(ex. image filename)์ ์ด์ฉํ ์ ๋ณด ์ถ์ถ์ด ์ด๋ ค์ ๊ธฐ ๋๋ฌธ์ ๋์ฉ๋ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ด ํ๋ค์๋ค.
๋ฐ๋ผ์ NLP supervision์์ ์์งํ๋ web based ๋ฐฉ์์์ motivation์ ์ป์ด, ์ธํฐ๋ท ์์์ ๋ง์ด ์ฌ์ฉ(Wikipedia ์์ ์ต์ํ 100๋ฒ์ ๋ฑ์ฅ ํ๋ ๋จ์ด)๋๋ query(text prompt)๋ฅผ augmentationํ์ฌ ๋งํผ ์ค๋นํ์ผ๋ฉฐ, ๊ฐ query์ ๋ง๋ (image, text) pair๋ฅผ ์ต๋ ์ฉ ๊ตฌ์ถํ์๋ค. ๊ฒฐ๊ตญ ๋ชฉํ๋ก ํ๋ GPT-2 training dataset์ธ ‘WebText‘์ ์ด ๊ฐฏ์์ ํ์ ํ๋ ๋์ฉ๋ ๋ฐ์ดํฐ์
์ธ ‘WebImageText‘๋ฅผ ๊ตฌํ ์ ์์๋ค.
Selecting an efficient pre-training method
๊ทธ๋ฌ๋ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ์ปค์ง๋งํผ ํ์ต์ ๊ฑธ๋ฆฌ๋ ์๊ฐ ๋ํ ๊ธธ์ด์ก๊ธฐ ๋๋ฌธ์, ๋น ๋ฅธ ์๋ ด์ ์ํ ํจ์จ์ ์ธ pre-training method๋ฅผ ์ฐพ๋ ๊ฒ์ด ์ค์ํ๋ค. ์ ์๋ค์ ์ด ๋ถ๋ถ์์ ์ํ์ฐฉ์ค๋ฅผ ๊ฒช์ ์ฌ๋ฌ ๋ฐฉ๋ฒ๋ค์ ๋ํด ์ธ๊ธํ๋ค.
1) Jointly trained an image CNN and text transformer from scratch
VirTex ๋ ผ๋ฌธ์์์ ๊ฐ์ด ์ ๊ทผํ ๊ฒฝ์ฐ๊ฐ ๋๋ค. ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ฒ ๋๋ฉด ์์์ ๋ดค๋ ๊ทธ๋ํ(transformer based learning)์ ๊ฐ์ด ๊ฐ๋จํ baseline์ธ ResNet๊ณผ BoW encoder๋ฅผ ์ฌ์ฉํ์ ๊ฒฝ์ฐ๋ณด๋ค ์๋ ด ์ฑ๋ฅ์ด ๋ฎ์ ๊ฒ(์ฝ ๋ฐฐ)์ ํ์ธํ ์ ์๋ค. 3
2) Bag of Words with simpler baseline
ํ์ง๋ง BoW ๋ฐฉ์๊ณผ transformer ๋ฐฉ์์ ์ฐจ์ด๋ ๊ตฌ์กฐ(parameter ๊ฐ์, CNN and transformer)์ ์์ ๋ฟ ๊ฒฐ๋ก ์ ์ผ๋ก ๋ ๋ฐฉ์ ๋ชจ๋ ๊ณตํต์ ์ผ๋ก ๊ฐ ์ด๋ฏธ์ง์ ๋ํด exact words๋ฅผ ์ฐพ๊ณ ์ ํ๋ NLP supervision concept์์ ๋ฒ์ด๋์ง ๋ชปํ๋ค.
์ด๋ ๋จ์ํ ์ด๋ฏธ์ง๋ฅผ ํํํ๋ ๋ฐฉ์์ ๋จ์ผ์ description์ ํ์ ์ง์๊ธฐ ๋๋ฌธ์ธ๋ฐ, ์๋ฅผ ๋ค์ด ๋ค์๊ณผ ๊ฐ์ ์ด๋ฏธ์ง๊ฐ ์๋ค๊ณ ์๊ฐํด๋ณด์.
์ด ์ฌ์ง์ ๋ฌ์ฌํ๋ text prompt๋ ๋จ์ํ ‘๊ณ ์์ด ๋๋ง๋ฆฌ๊ฐ ์๋ ์ด๋ฏธ์ง’๋ง ์๋ ๊ฒ์ด ์๋๋ผ, ‘์๋ก ์ข์ํ๋ ๋ ๊ณ ์์ด’, ‘์ด์์ ์ ์๋ ๋ ๊ณ ์์ด’ ๋ฑ ๊ด๋ จ๋ text embedding space์์ ์ ์ฌํ ์์ญ์ ๋์ผ ์ ์๋ ๋ชจ๋ representation์ ์ด์ฒด๊ฐ ๋ ์ ์๋ค. ๊ฒฐ๊ตญ contrastive learning(๊ด๋ จ์ด ์๋ text embedding๊ณผ์ ์ ์ฌ์ฑ์ ์ฌ๋ฆฌ๊ณ , ๊ด๋ จ์ด ์๋ text embedding๊ณผ์ ์ ์ฌ์ฑ์ ๋ฎ์ถ๋) ๋ฐฉ์์ด ๋ ํจ์จ์ ์ธ ํ์ต ํจ๊ณผ๋ฅผ ๋ถ๋ฌ์์ผ๋ฉฐ ๋ฐ๋ก ์ด ๋ฐฉ๋ฒ์ด CLIP์์ ์ฌ์ฉํ ํ์ต๋ฒ์ด๋ค.
Contrastive learning
๋ง์ฝ ๊ฐ์ (image, text) pair์ batch๊ฐ ์๋ค๊ณ ํด๋ณด์. CLIP์ ์ ๊ฐ๋ฅํ (image, text) pair์ ๋ํ prediction์ ์งํํ๋ค. ์ ๋ต์ด ๋๋ text prompt๋ batch ๋ด์ image๋น ํ๋์ฉ ์ด ๊ฐ ์๊ธฐ ๋๋ฌธ์, prediction์์ ์ positive pair๊ฐ ๋๊ณ ๋๋จธ์ง ์ negative pair๊ฐ ๋๋ค.
์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๊ฐ sample embedding์ ๋ํ symmetric cosine similarity๋ฅผ matrix๋ก ํํ ๊ฐ๋ฅํ๋ฐ, ์ด๋ฅผ normalizeํ cross-entropy loss๋ฅผ ์ต์ ํํ๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค. Batch ๋จ์์์ similarity๋ฅผ ๊ธฐ๋ฐ์ผ๋ก cross-entropy loss๋ฅผ ์ฌ์ฉํ๋ ํํ๋ multi-class -pair loss, InfoNCE loss ๋ฑ์ ์ฐ๊ตฌ๋ก๋ถํฐ ์๊ฐ๋์๊ณ , ์ด ๋ ผ๋ฌธ์์๋ ๊ฐ์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์๋ค.
์ด๋ฌํ InfoNCE loss (contrastive loss)๋ ์๋์ ๊ฐ์ด ๊ตฌ์ฑ๋๋ฉฐ, InfoNCE loss๋ฅผ ์ฌ์ฉํ ๋ํ์ ์ธ ๋ ผ๋ฌธ์ SimCLR ํน์ MOCO ์ด๋ค.
์ loss ์ ํํ๋ฅผ ๋ณด๋ฉด ์ค์ cross entropy with softmax activation ์ loss ํํ์ ๋งค์ฐ ํก์ฌํจ์ ๋ณผ ์ ์๋ค.
Training from scratch
๋ฐ์ดํฐ์ ๊ฐ์๊ฐ ์ด๋ฏ๋ก overfitting์ ๊ฑฑ์ ํ ํ์๊ฐ ์๋ค. ๋ฐ๋ผ์ ๋คํธ์ํฌ๋ฅผ pre-trainingํ๋ ๊ณผ์ ์์ ๋ฐ๋ก representation๊ณผ ๊ด๋ จ๋ initializing ์์ด ๋ฐ๋ก scratch๋ถํฐ ํ์ต์ ์งํํ์์ผ๋ฉฐ crop ์ด์ธ์๋ data augmentation์ ์งํํ์ง ์์๋ค. ๋ํ multi-modal embedding space๋ก mappingํ๋ ๊ณผ์ ์์ non-linear projection์ ์งํํ์ง ์์๋๋ฐ, ์ด๋ self-supervised learning์์ ์ฌ์ฉ๋๋ ๋ฐฉ์๊ณผ๋ ๋ค๋ฅด๊ฒ ์ฌ๊ธฐ์์๋ ํด๋น training efficiency์ ๊ด๋ จ๋ method๋ฅผ ์ฌ์ฉํ ํ์๊ฐ ์์๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ๋์ ์ค์ธ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ๊ทธ๋ฆฌ๊ณ entropy ์กฐ์ ์ ์ฌ์ฉ๋๋ temperature normalizing hyperparameter ๋ ์ง์ ์ค์ ํ๊ฒ ๋๋ฉด ablation ์งํ์ด ์ด๋ ค์ ๊ธฐ ๋๋ฌธ์ ํ์ต ๊ฐ๋ฅํ parameter๋ก ์ค์ ํ์๋ค.
Network selection
BoW baseline์ผ๋ก ์ฌ์ฉ๋ ResNet-50์ CLIP์์๋ ์ฌ์ฉํ์ผ๋ฉฐ, ์ด์ ResNet-D ๋
ผ๋ฌธ์ ํตํด ์ ์๋ ๋ค์ํ improvement ๋ํ encoder๋ก ์ฌ์ฉํ์๋ค. ๋ํ image embedding์ dimension์ ๋ง์ถ๊ธฐ ์ํด feature extraction์ global average pooling์ attention pooling layer๋ก ๋์ฒดํ์๋ค.
ResNet ๊ตฌ์กฐ ์ด์ธ์๋ ViT(Vision Transformer)์์ ์กฐํฉ๋ patch์ position embedding์ ์ถ๊ฐ layer normalization์ ๋ํ ๊ฒ ์ด์ธ์๋ ๋์ผํ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์๋ค.
Text encoder๋ก๋ GPT-2๋ฅผ ์ฌ์ฉํ์๊ณ , base size๋ก๋ ๊ฐ์ layers์ ์ channel dimension width๋ฅผ ๊ฐ์ง๋ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์๋ค(attention head๋ ๊ฐ). 8
Results
์ฌ์ค ์ด ๋ ผ๋ฌธ์ด ๋ฐฉ๋ํ๊ฒ ๊ธธ์ด์ง ์ด์ 3๊ฐ์ง๋ ๋ค์๊ณผ ๊ฐ๋ค
- Related works๊ฐ ๋๋ฌด ๋ง๋ค.
- ์ ์๋ค์ด ์ฃผ์ฅํ๋ contribution์ด ๋ฐฉ๋ํ๋ค.
- ์ปจ์ ํ๋์ ๋ํด ์ค๋ช ํ๋ ๊ณผ์ (๋น๋์ )์ด ๋๋ฌด ํฌ๋ค.
๊ทธ๋ฌ๋ค๋ณด๋ ์คํ ๊ฒฐ๊ณผ๋ ์์ฐ์ค๋ฝ๊ฒ ๊ธธ์ด์ง๊ฒ ๋์๊ณ , ๋ ผ๋ฌธ์ ๋ชจ๋ ์ฝ์ผ๋ฉด์ ํ์ ํ๊ธฐ์๋ ๋ค์ ๋ฌด๋ฆฌ๊ฐ ์์ง ์๋ ์ถ๋ค. ๋ฐ๋ผ์ ๋น๊ต์ ์ฃผ์ํ ๋ด์ฉ๋ค๋ง ์์ฃผ๋ก figure๋ฅผ ์ฐธ๊ณ ํด์ ์์ฑํด๋ณด์๋ค.
Zero-shot with prompt engineering
์ฐ์ CLIP์ด ์ฃผ๋ก ๋ค๋ฃฌ ๋ด์ฉ์, ์์ฐ์ด ๋ชจ๋ธ๊ณผ ๊ฐ์ด ์ด๋ฏธ์ง ๋ชจ๋ธ ๋ํ ์ถฉ๋ถํ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก representation learning์ด ์งํ๋๋ค๋ฉด, ์ด์ ๋ฐ๋ผ ์๋ก์ด task์ ๋ํ performance๋ zero-shot์ผ๋ก ์งํ๋ ์ ์์์ ์ฆ๋ช ํ๋ ๊ฒ์ด์๋ค. ์๋ก์ด task(classification)์ ๋ํด downstream task๋ฅผ ์งํํ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ ์ ์๋ค์ ๋จ์ํ class ์ด๋ฆ์ prompt๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ์๋, ‘A photo of a {object}’ ์์ prompt engineering์ ๊ฐ dataset ํน์ฑ์ ๋ง๊ฒ ์งํํ์ฌ ์ฑ๋ฅ์ ์ฌ๋ฆด ์ ์์๋ค๊ณ ํ๋ค. ํ์ต์ ์ฌ์ฉ๋๋ (image, text) pair ์์ฒด๊ฐ object๋ฅผ ํํํ๋ ๋จ์ด๋ก ๊ตฌ์ฑ๋ ๊ฒ์ด ์๋๋ผ, image scene์ ์ค๋ช ํ๋ description์ด๊ธฐ ๋๋ฌธ์ ํ์ต๋ domain distribution๊ณผ class name distribution์ ์ฐจ์ด๊ฐ ์๋ค๋ ๊ฒ์ด ์ฃผ๋ ๋ถ์์ด์๋ค.
๊ฐ์ class์ ๋ํ text prompt ๊ฐ ์์ similarity๋ฅผ ๊ตฌํ ์ ์๊ณ , ์ด ์ค ๊ฐ์ฅ ๋์ ์ ์ฌ๋์ index๊ฐ ํด๋น image์ prediction์ด ๋๋ ๊ตฌ์กฐ๋ค. ์ค์ ๋ก prompt engineering์ ํตํด classification ์ฑ๋ฅ(average)์ด ์ฌ๋ผ๊ฐ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
Zero-shot vs fully-supervised baseline
ResNet-50์ baseline study์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ linear probe์์ ์ฑ๋ฅ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ฐ, ์์ ํ์ ์๋ ์ด ๊ฐ์ dataset์ fully-supervision์ ์ฌ์ฉํ ๊ฒฐ๊ณผ๋ณด๋ค ๊ฐ์ dataset์์ ๋ ์ข์ ์ฑ๋ฅ(positive )๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
์ด๋, Linear probe๋ pre train๋ ๋ชจ๋ธ์ down stream task ์ฑ๋ฅ์ ์ธก์ ํด์ฃผ๋ ์งํ์ด๋ค. ๊ทธ๋์ CLIP์ด pre train์์ ์ผ๋ฐํ๋ ํน์ง์ ์ผ๋ง๋ ์ ์ถ์ถํ๋์ง ๋ํ๋ด์ค๋ค.
Zero-shot vs Few-shot
๋ง์ฐฌ๊ฐ์ง๋ก ์ฌ๋ฌ few-shot methods์ ๋ํด ์ผ์ ์์ ์ํ์ ์ ๊ณตํ์ ๋ ์ค์์ ๊ฐ์ฅ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ธ ๊ทธ๋ํ๋ผ๋ฆฌ ๋น๊ตํ๋ฉด zero-shot CLIP์ด 4-shot method์ ํ์ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , ์ฌ์ง์ด BiT-M, SimCLRv2 ๋ฑ ๊ธฐ์กด ๋ฐฉ์์ 16-shot์ ์งํํ์์๋ Zero-shot CLIP์ด ํ๋ํ ์ ํ๋๋ฅผ ๋๊ธฐ๊ธฐ ์ด๋ ค์ด ๊ฒ์ ํ์ธํ ์ ์๋ค.
CLIP์ zero-shot ์ฑ๋ฅ์ ํ์ ํ ๋งํ ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ ์ํ few-shot sample์ ์๋ฅผ ๋ํ๋ธ ํ๋ฅผ ๋ณด๋ฉด ๋๋ถ๋ถ์ dataset์ ๋ํด์ ํ๊ท ์ sample์ด ํ์ํ ๊ฒ์ ์ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํ ๋๋ก CLIP method๊ฐ ๊ฐ์ง data efficiency ๋ฐ task robustness์ ๋ํด ํ์ธํ ์ ์๋ค. 20.8
Zero shot performance & Linear probe
๋ํ ๋ ผ๋ฌธ์์๋ ๋จ์ํ CLIP์ด ‘ํ ์คํธ์ ์ด๋ฏธ์ง๋ง ๋์ถฉ ์ ์ฌํ๊ฒ connection’ํ ๊ฒ์ด ์๋๋ผ, classifier ๊ธฐ๋ฐ์ linear probe system์์ ํ์ต ๊ฐ๋ฅํ image representation์ image encoder๊ฐ ๋์ผํ๊ฒ ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ ์์ ๊ทธ๋ํ๋ฅผ ํตํด ๋ณด์ฌ์ค๋ค. Zero-shot ์ฑ๋ฅ์ด ์ข์ง ์๋ค๋ฉด ๋ง์ฐฌ๊ฐ์ง๋ก Linear probe ์ฑ๋ฅ๋ ์ข์ง ์๋ค๋ ๊ฒฝํฅ์ฑ์ ๋ณด์ฌ์ค์ผ๋ก์จ, classification ํ์ต์ด ์ด๋ ค์ด task์ ๋ํด CLIP๋ ์ฑ๋ฅ์ด ๋ฎ์์ง๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
Zero shot performance with network scale
๋ํ ๊ธฐ์กด ๋ฐฉ์๋ค(ex. EfficientNet)์์ ์ฃผ์ฅํ๋ ๊ฒฝํฅ์ฑ๊ณผ ๋์ผํ๊ฒ image encoder์ representation power๊ฐ ๋์ด๋ ์๋ก(network์ scale์ด ์ปค์ง์๋ก) ์ด์ ๋ฐ๋ฅธ ํ์ต๋ CLIP์ zero-shot ์ฑ๋ฅ์ด ๋์์ง๋ ๊ฒ์ ์ ์ ์๋ค.
CLIP is also a good representation learner
ํ์ต ๊ณผ์ ์์์ GFLOPS/Image์ ๋ฐ๋ฅธ Average score ๋น๊ต๋ ์์ ๊ทธ๋ํ์ ๊ฐ๋ค. ์์ ๊ฒฐ๊ณผ ๊ทธ๋ํ๋ zero-shot์ ๋น๊ตํ ๊ฒ์ ์๋๊ณ ์ค์ ๋ก CLIP์ด pre-trained ๊ณผ์ ์์ ํ์ตํ representation์ด Linear probe ์ฑ๋ฅ์ ์ผ๋ง๋ ๋์์ด ๋๋์ง ํ์ธํ ์ ์ฐจ์ด๋ค. ์ค์ ๋ก ๊ทธ๋ํ์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ CLIP network์, ํจ๊ป ๋น๊ตํ network ์ค ๊ฐ์ฅ ๋์ representation learning ์ฑ๋ฅ์ ๋ณด์ธ EfficientNet-NoisyStudent์ ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ๋ํด ์ฑ๋ฅ ๋น๊ต๋ฅผ ํ์๋ค.
๋ฌผ๋ก ViT(L/14) ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ CLIP์ด๊ธฐ ๋๋ฌธ์ ๋น์ฐํ ๋ ์ข๊ฒ ๋ค๊ณ ์์ํ๊ธด ํ์ง๋ง ์๋ฌดํผ ์ dataset ์ค์์ 27 ๋งํผ์ ๋ฐ์ดํฐ์ ์ ๋ํด ๋ ์ข์ ์ฑ๋ฅ(positive 21)๋ฅผ ๋ณด์ฌ์ฃผ์๋ค. Δ
Robustness to natural domain shift
๋ฌผ๋ก supervision์ ํ์ฉํ deep learning network๋ค์ ์ฑ๋ฅ์ด ์ถฉ๋ถํ ์ข์์ง๊ธด ํ์ผ๋, ์ฌ์ ํ distribution shift์ ๊ฐ์ ๋ฌธ์ ์ ์ทจ์ฝํ ๋ฉด์ด ์๋ค. ์๋ฅผ ๋ค์ด ๋จ์ํ ImageNet dataset์ ๋ํด ํ์ต๋ ๋คํธ์ํฌ๋ ๊ฐ class์ object์ ํน์ง์ ๋ํด ์ ์๋ฏธํ feature๋ฅผ ํ์ต ๋ฐ ์ธ์ํ๊ธฐ๋ณด๋ค๋, training dataset์ in-distribution์ neural network์ fittingํ๋ ํํ๋ก ํ์ต์ด ์งํ๋๋ค๋ ๊ฒ์ด๋ค. ImageNet dataset์ ๋ํด ๊ฐ์ง์ natural distribution shift๊ฐ ์ผ์ด๋ dataset์ธ 7ImageNetV2, ImageNet Sketch, Youtube-BB and ImageNet-Vid, ObjectNet, ImageNet Adversarial ๊ทธ๋ฆฌ๊ณ ImageNet Rendition์ ๋ํด validation์ ์งํํ์๋ค.
์ฌ์ค ์ด figure์ ๋ํ ์ค๋ช ์ด ๋ ผ๋ฌธ์ ์๋ ๋ถ๋ถ์ด ์ ์ดํด๊ฐ ๊ฐ์ง ์์ง๋ง ์ผ๋จ ์ด ๋ถ๋ถ์ ์๊ธฐ ๋๋ฌธ์ ํด์ํ๋ ๋ฐ๋ก๋ CLIP์ zero-shot ๋ชจ๋ธ๋ค์ด linear probe๋ฅผ ํตํด domain transfer๋ฅผ ์งํํ์๋, ๋ณด๋ค ImageNet์ ์ฑ๋ฅ์ ์ ์ ์งํ๋ ๊ฒ์ผ๋ก ๋ณด์ domain shift ํ์์ ์ ๋์ฒํ๋ค๊ณ ๋ณผ ์ ์๋ค. ํ์ง๋ง ์์ figure๊ฐ main์ ์๋๊ณ , ๋ค์ figure๋ฅผ ๋ณด๋ฉด ์ CLIP model์ด zero-shot ๋ฐ domain shift task์์ game changer๋ก ๋ฑ์ฅํ ์ ์์๋์ง ์คํ์ ์ฆ๊ฑฐ๋ฅผ ํ์ธํ ์ ์๋ค.
์ด์์ ์ธ ์ํฉ์์๋ domain shift๊ฐ ์ผ์ด๋๋๋ผ๋ ImageNet dataset์ ๋ํ ์ฑ๋ฅ๊ณผ domain shifted dataset์์์ ์ฑ๋ฅ์ด ๋์ผํด์ผํ๋ค(). ๋จ์ํ ImageNet์ ๋ํด์ ํ์ตํ ๊ฒฝ์ฐ ๊ทธ ์ฑ๋ฅ์ด ๏ฟฝ=๏ฟฝ ๊ฐ์ํ๋ ๊ฒ์ ํ์ธํ ์ ์์ง๋ง, zero-shot CLIP ๋ชจ๋ธ์ ๊ฒฝ์ฐ 2∼30%๊ฐ์ natural domain shifted dataset์ ์ฑ๋ฅ ํ๊ท ์ด ์ต๋ ์ฝ 7๋ ์์นํ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค. 75%
์ฌ๊ธฐ์ ์๋ฌธ์ด ๋ค ์๋ ์๋ ์ ์, ๋จ์ํ zero-shot์ ๊ธฐ๋ฐ์ผ๋ก ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ฒ๊ณผ dataset์ specificํ๊ฒ fine-tuningํ logistic regression classifier์ ์ ์๋ฏธํ ์ฐจ์ด๊ฐ ์๊ธธ ์ ์์ง ์์๊น์ ๋ํ ๋ถ๋ถ์ด๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ฒ ๋๋ฉด ImageNet์ ๋ํด fine-tuningํ ๊ฒฝ์ฐ original dataset์ ๋ํด์๋ ์ ๊ด๋ชฉํ ๋งํ ์ ํ๋์ ํฅ์์ด, ImageNet์ ๋ฐ์ดํฐ์
์์ง ๋ฐฉ์๊ณผ ์ ์ฌํ๋ ImageNetV2์ ๋ํด์๋ ๊ทธ์ ๋นํด ์ ๋ฐ ์ ๋์ ์ ํ๋์ ํฅ์์ด ์ด๋ฃจ์ด์ก๊ณ , Video dataset์ธ Youtube-BB์ ImageNet-Vid๋ฅผ ์ ์ธํ ๋ฐ์ดํฐ์
์ ๋ํด์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ฌ๋ค. 9.2%
์ฌ์ค ๊ทธ๋ฅ text encoder๋ฅผ ํฌํจํ CLIP model๋ก zero-shot classification์ ์งํํ๋ค๋ฉด, ์์์ ์ด์ฌํ ์คํํ๋ ๋ด์ฉ์ ๊ธฐ๋ฐํ์ฌ ‘text๊ฐ guidance๋ฅผ ์ฃผ๊ธฐ ๋๋ฌธ์ domain์ robustํ ์์ธก์ ํ ์ ์๋ค’๋ผ๊ณ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์ง๋ง, ๋๋ผ์ด ์ ์ classifier๋ฅผ ํตํด downstream task๋ฅผ fine-tuningํ์ ๋๋ domain shift์ ๋ํ ์ ํ๋๊ฐ ์ ์ง๋ ์ ์๋ค๋ ์ ์ด๋ค. ์ด ๋ถ๋ถ์ ๋ํด์๋ ์ ์๋ค์ด ๋ช
ํํ๊ฒ ๊ทธ ๊ทผ๊ฑฐ๋ฅผ ์ค๋ช
ํ์ง ๋ชปํ ์ฑ ๋์ด๊ฐ๋ค.
์ ์๋ค์ด ์ถ๊ฐ๋ก ํ์ธํ ์คํ ์ค ํ๋๋ transfer dataset์ class๋ค์ ํญ์ -way classifier๊ฐ ์ ์ฉ๋๋ ImageNet๊ณผ ์ผ์นํ์ง ์๋๋ค๋ ์ ๋๋ฌธ์ ๋ฌธ์ ๊ฐ ์๊ธด ์ ์ด์๋๋ฐ, ์ด์ ๊ณผ์ ์์๋ ์ด๋ฅผ ImageNet class์ ํ์ ํญ๋ชฉ์ ํด๋น๋๋ prediction์ ๋ํ max-pooling์ผ๋ก ์งํํ์๋ค. ์ด๋ฌํ ๋ฐฉ์์ ์ ํํ์ง ์์์ผ๋ฉฐ, ์ ์๋ ์ด๋ฌํ ๋ฐฉ์ ๋์ CLIP์์ ์ฌ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ์ธ ‘class name์ promptํ ์ํจ text embedding’์ ์ฌ์ฉํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ Video based dataset์ธ Youtube-BB, ImageNet-Vid์ ์ฑ๋ฅ ํฅ์์ด ์์์ผ๋ฉฐ ObjectNet์ ์ฝ๊ฐ์ ์ฑ๋ฅ ํฅ์๋ง์ด ์์๋ค. 1000
์์ ๊ทธ๋ฆผ์ ํตํด Zero-shot CLIP์ Few-shot ๋งํผ์ supervision์ด ๋ํด์ง์๋ก, fully-supervised learning์ ๋นํด ๊ฐ์ง๋ robustness๊ฐ ์ค์ด๋๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ฆ ํ์ต์ ์ฌ์ฉ๋๋ dataset sample์ด ๋ง์์ง์๋ก in-distribution์ fitting๋์ด ๊ธฐ์กด์ zero-shot CLIP model์ ๋นํด ๊ฐ์ ImageNet performance์ ๋ํ robustness๊ฐ ๊ฐ์ํ๋ค๊ณ ํ ์ ์๋ค.
Comparison to Human Performance
์ฌ๋์ผ๋ก ํ์ฌ๊ธ zero-shot ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ๋ ๊ต์ฅํ ์ด๋ ต๋ค. ํ์ง๋ง ์ด๋ฐ ์ํฉ์์๋ zero-shot ํน์ few-shot task performance๋ฅผ ๋น๊ตํ ์ ์๋ ๋ฐฉ๋ฒ์ด ์๋๋ฐ, ๋ฐ๋ก Oxford-IIT Pets dataset(๊ฐ์ ๊ฐ์์ง ํน์ ๊ณ ์์ด ์ข ๋ฅ ๋ง์ถ๊ธฐ)์ ๋ํ ๊ฒ์ด๋ค. ์๋ฌด๋ฆฌ ์ฌ๋์ด๋ผ๋ ๊ฐ์์ง๋ ๊ณ ์์ด์ ๋ชจ๋ ์ข ์ ๋ํด ์๊ณ ์์ง๋ ์์ ๊ฒ์ด๋ค. ํน์ ์ด๋ฏธ์ง๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , ํด๋น ์ข ์ ๋ํด์ ์๊ณ ์๋ค๋ฉด ์ข ๋ฅ๋ฅผ ๋๋ตํ๋ฉด ๋๊ณ ๊ทธ๋ ์ง ์๋ค๋ฉด ‘I don’t know’๋ฅผ ๋๋ตํ๋ฉด ๋๋ค. 37
์ด๋ ์ ๋ ์ง๊ด์ผ๋ก ์ดํดํ ์ ์์ง๋ง, ์ฌ๋์ ๋ณดํต ๊ฐ์ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋ฉด(one-shot) ํด๋น ์ข ์ ๋ํ ๋ถ๋ฅ ์ ํ๋๊ฐ ์ฌ๋ผ๊ฐ์ง๋ง, ์ถ๊ฐ๋ก 1๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋๋ผ๋ ํด๋น ์ข ์ ๋ํ ๋ถ๋ฅ ์ ํ๋๊ฐ ์ฌ๋ผ๊ฐ์ง๋ ์๋๋ค. ์ด๋ฅผ ํํํ๋ ๋ฌธ์ฅ์ผ๋ก๋ ‘humans know what they don’t know’์ธ๋ฐ, ๋ณธ์ธ์ด ๋ชจ๋ฅด๋ ๊ฒ์ ๋ํด์๋ ๋ช ํํ๊ธฐ ๋๋ฌธ์ ํ ๋ฒ ํด๋น ๋ด์ฉ์ ํ์ตํ๋ ๊ฒ์ผ๋ก ์ถฉ๋ถํ๋ค๋ ๋ป์ด๋ค.
๋ฐ๋ผ์ ๋ฅ๋ฌ๋ ๋คํธ์ํฌ๋ก ํ์ฌ๊ธ ์ฌ๋๊ณผ ๊ฐ์ด few-shot ์ฑ๋ฅ์ด prior knowledge๋ฅผ ํ์ฉํ์ฌ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ์ด๋์ด๋ด์ง ๋ชปํ๋ ์ ์ด ์ ์ฌํ๊ณ , ์ด๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ด CLIP์ ์ค์ํ ๋ฐ์ ์ด ๋ ๊ฒ์ด๋ผ๊ณ ์ธ๊ธํ๋ค. ๋ํ ์์ ๊ทธ๋ํ์์ ๋ณผ ์ ์๋ฏ, ๊ฐ ์ข ์ ๋ํ zero-shot ์ฑ๋ฅ์ ์ธ๊ฐ๊ณผ ๋น๊ตํ์ ๋, ์๋ก ์ด๋ ต๊ฒ ๋๋ผ๋ breed์ ๋ํ ๊ฒฝํฅ์ฑ์ด ์ด๋ ์ ๋ ์ ์ฌํ ๊ฒ์ ํ์ธํ ์ ์๋ค.
Data overlap analysis
์์ WebImageText ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ ๊ณผ์ ์์ ๋๋์ ์น ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ ธ์ ํ์ตํ๋ค๊ณ ํ๋๋ฐ, ์ฌ๊ธฐ์ ๋ฐ์ํ ์ ์๋ ๋ฌธ์ ๋ validation์์ ์ฌ์ฉํ ์ผ๋ถ dataset ๋ํ web ์์์ ํ๋ํ ์ ์๋ sample์ ํด๋น๋๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ validation set์ด pre-training dataset์ ๋ค์ด๊ฐ๊ฒ ๋๋ค๋ฉด(leak into) ๋ฌธ์ ๊ฐ ๋ ์ ์๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๋ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋คํธ์ํฌ๋ฅผ ํ์ต์ํค๊ธฐ ์ ์ ์ฌ์ ์ duplicated image(validation set๊ณผ ๋์ผํ ์ํ)์ ๋ชจ๋ ์ ๊ฑฐํ๋ ์์
์ด ํ์ํ์ง๋ง, ๊ฒฐ๊ตญ ๋ชจ๋ dataset์ ๋ํด ๊ฒ์ฆ์ ๊ฑฐ์ณ์ผํ๋ค๋ ์ ์ด time-consumingํ๋ค.
์ด๋ฌํ brute-force ๋ฐฉ์ ๋์ , ์ ์๋ค์ overlap์ด ๋ฐ์ํ๋ ๋ฐฉ์์ ์ ์ํ๊ณ ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ์ ํตํด overlap์ ํ์ธํ์๋ค.
- ๊ฐ validation dataset์ ๋ํด duplicate detector(๋ ผ๋ฌธ์ appendix์ ์๋ค๊ณ ํ๋ค)๋ฅผ ๊ฐ example์ ๋ํด ์ํํ๋ค. ๊ทธ๋ฐ ๋ค nearest neighbor๋ฅผ ์ง์ ์กฐ์ฌํ ๋ค, ํน์ threshold(sample๊ฐ ๊ฑฐ๋ฆฌ metric)๋ฅผ ์ค์ ํ์ฌ Overlap(threshold๋ณด๋ค ํฐ ์ ์ฌ์ฑ์ ๊ฐ์ง๋ ์ํ)๊ณผ Clean(threshold๋ณด๋ค ๋ฎ์ ์ ์ฌ์ฑ์ ๊ฐ์ง๋ ์ํ)๋ก subset์ ๊ตฌ์ฑํ๋ค. Data์ cleanํ ์ ๋(๊ฒน์น๋ ๋ฐ์ดํฐ์ ์ด ์์์ ์๋ฏธํ๋ค)๋ฅผ ํ์ธํ๊ธฐ ์ํด All(Overlap + Clean)์ ๋ํ Overlap์ ๋น์จ์ ๊ตฌํ๋ค.
- ๊ทธ๋ฐ ๋ค All, Overlap, Clean์ ๋ํด CLIP RN50x64์ ๋ํ zero-shot accuracy๋ฅผ ๊ณ์ฐํ๋ค. (All accuracy) - (Clean accuracy)๊ฐ ์๋ฏธํ๋ ๋ฐ๊ฐ contamination์ ์ํ accuracy ์ฐจ์ด๊ฐ ๋๋ฏ๋ก, ์ด ๊ฐ์ด ์์๋ผ๋ฉด ์ผ๋ง๋ overlapping data์ ์ํด over-fitting ๋์๋์ง์ ๋ํ ์ ๋ณด๋ฅผ ๋ฐ์ํ๋ค.
- Overlap์ ์์ด ์ ์ ๊ฒฝ์ฐ๊ฐ ์๊ธฐ ๋๋ฌธ์ binomial significance test๋ฅผ ์ถ๊ฐ๋ก ์งํํ๋ค. Clean accuracy๋ฅผ null hypothesis๋ก ์ก๊ณ Overlap subset์ ๋ํ one-tailed -value(greater)๋ฅผ ์ป๋๋ค. ์ถ๊ฐ๋ก ์ Clopper-Pearson confidence intervals ๊ณ์ฐ์ Dirty subset์ ์งํํ๋ค. 99.5%
Binomial distribution test
์คํ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํด๋ณด๊ธฐ ์ ์ Binomial distribution test์ ๋ํด์ ์์์ ํตํด ์ดํดํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ์ฐ์ ๋ผ๋ test hypothesis๊ฐ ์๊ณ , ์ด๋ฅผ null hypothesis๋ผ๊ณ ๋ถ๋ฅด๋๋ก ํ์. ์ฐ๋ฆฌ๊ฐ ์งํํ test์์ null hypothesis๋ clean accuracy์ด๋ฏ๋ก, ์ ์ ์์ overlapping dataset์ ์ ์ธํ๊ณ ์งํํ zero-shot validation ์ฑ๋ฅ์ ์๋ฏธํ๋ค.
์ ํ๋๋ ์ ๊ฐ์ ๊ฐ์ง๊ฒ ๋๋ฏ๋ก, ์ด๋ฅผ CLIP model์ด overlapping๋์ง ์์ ๋ฐ์ดํฐ์
์ ๊ธฐ์ค์ผ๋ก ํน์ ์ํ์ ๋ํด ‘์ ํํ๊ฒ ๋ถ๋ฅํ ํ๋ฅ ’์ด๋ผ๊ณ ํ์. 0∼1
Overlap dataset์ด ๊ฐ ์๊ณ , ๊ทธ ์ค ์ํ ๋งํผ์ด CLIP model์ ๋ํด ์ ํํ๊ฒ ๋ถ๋ฅ๋ ํ๋ฅ ์ด๋ผ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์๋ค.
์ฐ๋ฆฌ๋ Overlap dataset ๋ด๋ถ์ ํ๋ฅ ๋ก ํ์ฌ๊ธ ์ด ๊ฐ๋ณด๋ค ์ปค์ง -value๋ฅผ ๊ตฌํ๊ณ ์ถ๋ค. ์๋ํ๋ฉด ๊ทธ๋์ผ๋ง overfitting์ ๊ฐ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
ํด๋น ๋ฅผ ๊ตฌํ๋ one-tail test๋ ์์ ๊ฐ๋ค. Sucess์ ๊ฐ์๊ฐ ๊ฐ ๋๋ ๊ฒ์ด ๊ธฐ์ค์ ์ด ๋๊ธฐ ๋๋ฌธ์ด๋ค.
๊ฒฐ๊ณผ ๊ทธ๋ํ๋ ์์ ๊ฐ๋ค. ์ด ๊ฐ์ dataset์ ๋ํด ์คํ์ ์งํํ ๊ฒฐ๊ณผ, Overlapping๋ณด๋ค Clean subset์ accuracy๊ฐ ๋์ 35๊ฐ์ dataset์ ๋ํด์๋ overlap์ด ์๋ค๊ณ ๊ฒฐ๋ก ์ ๋ด๋ ธ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก๋ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์ ๋ํด์ overlap์ด ์ฌํ์ง ์์๊ณ , overall accuracy๊ฐ ํฌ๊ฒ shifted๋ ๋ถ๋ถ์ 9์ threhold ๊ธฐ์ค์ผ๋ก 0.1%๊ฐ์ dataset์ด ์์๋ค. ์ด ์ค Bonferroni correction์ ๊ธฐ์ค์ผ๋ก 7๊ฐ์ dataset์ด ๊ฐ์ฅ ํฐ ๊ฒ์ผ๋ก ํ๋ณ๋์๋ค(Birdsnap, Country211). 2
๊ฒฐ๋ก
๋
ผ๋ฌธ์์๋ ๋ค์ ์ถ๊ฐ๋ก ๋
ผ๋ฌธ์ด ๊ฐ์ง๋ ํ๊ณ์ ์ด๋ appendix๋ฅผ ํตํด ์ค๋ช
ํ์ง ๋ชปํ ๋ํ
์ผํ ๊ตฌํ ๋ฐฉ๋ฒ์ ๋ํด์ ์๊ฐํ๋ค. ์ฌ์ค ์์์ ์ ๋ฆฌํ ๋ด์ฉ๋ง ํด๋ ๊ฑฐ์ 20 page์ ๊ฐ๊น๊ธฐ ๋๋ฌธ์ ์ด ๋
ผ๋ฌธ์ด ์ง๋์น๊ฒ ๊ธธ๋ค๋ ์ฌ์ค์ด ๋ ์๋ฟ๋๋ค.
์๋ฌดํผ ๊ธธ๊ฒ ๋ณด์ ์ด ๋
ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- Text model์์ ์ฌ์ฉ๋๋ ๋์ฉ๋ dataset์ ๊ตฌ์ถํ์ฌ image model์ ํจ์จ์ ์ผ๋ก ํ์ตํ์๋ค.
- ์ ์๋ฏธํ text to image ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์๋ค. ์ฆ, multimodal์ ๊ฐ๋ฅ์ผ ํ๋ค.
- Zero-shot transfer learning์ ์ฑ๋ฅ์ ๋น์ฝ์ ์ผ๋ก ํฅ์์์ผฐ๋ค.
๊ทธ๋ฆฌ๊ณ ์คํ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ธํ ์ถ๊ฐ contribution์ ๋ค์๊ณผ ๊ฐ๋ค. ์ด ๋ถ๋ถ์ ์ฌ์ค main contribution์ด ์๋ sub contribution์ ํด๋น๋๋ค.
- Linear probe๋ logistic regression์ ์ฑ๋ฅ์ ๋ณด์, representation learning์ด ์ด๋ ์ ๋ ์ ์งํ๋จ์ ์ ์ ์๋ค.
- Domain shift์ robustํ ๋ชจ๋ธ์ ํ์ตํ์๋ค.
- ๋จ์ํ ๋ฌด์์ dataset์ ๋ชจ์ ๊ฒ์ด ์๋๋ผ, dataset์ overlapping ๋ฌธ์ ๋ ๋ถ์ํ์๊ณ , ์ด๋ฅผ ํตํด ์ฑ๋ฅ ํฅ์์ด overfitting์ ์ํ ๊ฒฐ๊ณผ๊ฐ ์๋์ ์ฆ๋ช ํ์๋ค.
๋ค๋ง ๋ค์ ํ๋ฒ ๋งํ์ง๋ง ๋ ผ๋ฌธ์ด ๋๋ฌด ๊ธธ๊ณ , ์์งํ ๋ช๋ช ๋ถ์์ ์ด paper ์ดํ ์ฐ๊ตฌ๋ก ๋๊ฒผ์ด๋ ์ถฉ๋ถํ์ง ์์๋ ์ถ๋ค..