๐ก ๋ณธ ๋ฌธ์๋ 'InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ ๋๋ค.
ํด๋น ๋ ผ๋ฌธ์ ๋๊ท๋ชจ vision foundation model์ ์ฐ๊ตฌ์ ๋ง์ด ์ฌ์ฉ๋๋ ViT ๋ชจ๋ธ๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํ Foundation ๋ชจ๋ธ์ ์ํ CNN Architecture์ธ InternImage์ ๋ํด ์ค๋ช ํ ๋ ผ๋ฌธ์ด๋ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.
- Paper: https://arxiv.org/abs/2211.05778
- Github: https://github.com/OpenGVLab/InternImage
Introduction
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์์ transformer์ ๋๋ผ์ด ์ฑ๊ณต์ผ๋ก vision transformer (ViT)๋ ์ปดํจํฐ ๋น์ ๋ถ์ผ๋ฅผ ํฉ์ธ์๊ณ ๋๊ท๋ชจ vision foundation model์ ์ฐ๊ตฌ ๋ฐ ์คํ์ ์ํ ์ฃผ์ ์ ํ์ด ๋๊ณ ์๋ค. ์ผ๋ถ ์ ๊ตฌ์๋ค์ ViT๋ฅผ 10์ต ๊ฐ ์ด์์ ํ๋ผ๋ฏธํฐ๊ฐ ์๋ ๋งค์ฐ ํฐ ๋ชจ๋ธ๋ก ํ์ฅํ์ฌ CNN์ ๋ฅ๊ฐํ๊ณ ๊ธฐ๋ณธ ๋ถ๋ฅ, ๊ฐ์ง, ๋ถํ ์ ํฌํจํ ๊ด๋ฒ์ํ ์ปดํจํฐ ๋น์ task์ ๋ํ ์ฑ๋ฅ ํ๊ณ๋ฅผ ํฌ๊ฒ ๋์ด์ฌ๋ฆฌ๋ ค๋ ์๋๋ฅผ ํ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋๊ท๋ชจ ํ๋ผ๋ฏธํฐ ๋ฐ ๋ฐ์ดํฐ ์๋์ CNN์ด ViT๋ณด๋ค ์ด๋ฑํจ์ ์์ฌํ์ง๋ง, CNN ๊ธฐ๋ฐ foundation model๋ ์ ์ฌํ ์ฐ์ฐ์/์ํคํ ์ฒ ๋ ๋ฒจ ์ค๊ณ, scaling-up ํ๋ผ๋ฏธํฐ, ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ถ๊ณ ์์ ๋ ViT์ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ค.
CNN๊ณผ ViT ์ฌ์ด์ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด ๋จผ์ ๋ ๊ฐ์ง ์ธก๋ฉด์์ ์ฐจ์ด์ ์ ์์ฝํ๋ค.
- ์ฐ์ฐ์ ๋ ๋ฒจ์์ ViT์ Multi-Head Self-Attention (MHSA)์๋ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ (long-range dependency)๊ณผ ์ ์ํ ๊ณต๊ฐ ์ง๊ณ๊ฐ ์๋ค. ์ ์ฐํ MHSA์ ์ด์ ์ ํ์ฉํ์ฌ ViT๋ ๋ฐฉ๋ํ ๋ฐ์ดํฐ์์ CNN๋ณด๋ค ๋ ๊ฐ๋ ฅํ๊ณ robustํ ํํ์ ํ์ตํ ์ ์๋ค.
- ์ํคํ ์ฒ ๊ด์ ์์ ๋ณผ ๋ ViT๋ MHSA ์ธ์๋ Layer Normalization (LN), Feed-Forward Network (FFN), GELU ๋ฑ ํ์ค CNN์ ํฌํจ๋์ง ์๋ ์ผ๋ จ์ ๊ณ ๊ธ ๊ตฌ์ฑ ์์๋ฅผ ํฌํจํ๋ค.
์ต๊ทผ ์ฐ๊ตฌ๋ค์์ ์๋ฏธ ์๋ ์๋๊ฐ ์์์ง๋ง ๋งค์ฐ ํฐ ์ปค๋ (ex. 3131)์ด ์๋ dense convolution์ ์ฌ์ฉํ์ฌ CNN์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ๋์ ํ๊ธฐ ์ํด์๋ ์ฑ๋ฅ ๋ฐ ๋ชจ๋ธ ๊ท๋ชจ ์ธก๋ฉด์์ ์ต์ ๋๊ท๋ชจ ViT์ ์๋นํ ์ฐจ์ด๊ฐ ์๋ค. ×
๋ณธ ๋ ผ๋ฌธ์์๋ ๋๊ท๋ชจ ํ๋ผ๋ฏธํฐ์ ๋ฐ์ดํฐ๋ก ํจ์จ์ ์ผ๋ก ํ์ฅํ ์ ์๋ CNN ๊ธฐ๋ฐ foundation model์ ์ค๊ณํ๋ ๋ฐ ์ง์คํ์๋ค. ํนํ ์ ์ฐํ convolution ๋ณํ์ธ deformable convolution (DCN)์ผ๋ก ์์ํ๋ค. Transformer์ ์ ์ฌํ ์ผ๋ จ์ ๋ง์ถคํ ๋ธ๋ก ๋ ๋ฒจ ๋ฐ ์ํคํ ์ฒ ๋ ๋ฒจ ๋์์ธ๊ณผ ๊ฒฐํฉํ์ฌ InternImage๋ผ๋ ์๋ก์ด convolution backbone ๋คํธ์ํฌ๋ฅผ ์ค๊ณํ๋ค.
์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด 3131๊ณผ ๊ฐ์ ๋งค์ฐ ํฐ ์ปค๋์ ๊ฐ์ง ์ต๊ทผ ๊ฐ์ ๋ CNN๊ณผ ๋ฌ๋ฆฌ InternImage์ ํต์ฌ ์ฐ์ฐ์๋ 3 ×3์ ๊ณตํต window ํฌ๊ธฐ๋ฅผ ๊ฐ์ง dynamic sparse convolution์ด๋ค. Dynamic sparse convolution์ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค. ×
- ์ํ๋ง ์คํ์ ์ด ์ ์ฐํ๋ค. ์ฃผ์ด์ง ๋ฐ์ดํฐ์์ ์ ์ ํ receptive field (์ฅ๊ฑฐ๋ฆฌ ๋๋ ๋จ๊ฑฐ๋ฆฌ)๋ฅผ ๋์ ์ผ๋ก ํ์ตํ๋ค.
- ์ํ๋ง ์คํ์ ๊ณผ modulation ์ค์นผ๋ผ๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์ ์์ ์ผ๋ก ์กฐ์ ๋์ด ViT์ ๊ฐ์ ์ ์ํ ๊ณต๊ฐ ์ง๊ณ๋ฅผ ๋ฌ์ฑํ ์ ์์ด ์ผ๋ฐ convolution์ ๊ณผ๋ํ inductive bias๋ฅผ ์ค์ธ๋ค.
- Convolutional window๋ ์ผ๋ฐ์ ์ธ 33์ผ๋ก, ํฌ๊ณ ๋ฐ์ง๋ ์ปค๋๋ก ์ธํด ๋ฐ์ํ๋ ์ต์ ํ ๋ฌธ์ ์ ๊ณ ๊ฐ์ ๋น์ฉ์ ๋ฐฉ์งํ๋ค.
์์ ์ธ๊ธํ ์ค๊ณ๋ฅผ ํตํด ์ ์๋ InternImage๋ ํฐ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ๋ก ํจ์จ์ ์ผ๋ก ํ์ฅํ๊ณ ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ์์ ๋ ๊ฐ๋ ฅํ ํํ์ ํ์ตํ์ฌ ๊ด๋ฒ์ํ ๋น์ task์์ ๋๊ท๋ชจ ViT์ ํ์ ํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ค.
Proposed Method
๋๊ท๋ชจ CNN ๊ธฐ๋ฐ foundation ๋ชจ๋ธ์ ์ค๊ณํ๊ธฐ ์ํด deformable convolution v2 (DCNv2)๋ผ๋ ์ ์ฐํ convolution ๋ณํ์ผ๋ก ์์ํ์ฌ ๋๊ท๋ชจ foundation model์ ์๊ตฌ ์ฌํญ์ ๋ ์ ๋ง๋๋ก ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฝ๊ฐ์ ์กฐ์ ์ ํ๋ค. ๊ทธ๋ฐ ๋ค์ ์ต์ backbone์์ ์ฌ์ฉ๋๋ ๊ณ ๊ธ ๋ธ๋ก ์ค๊ณ์ ํ๋๋ convolution ์ฐ์ฐ์๋ฅผ ๊ฒฐํฉํ์ฌ ๊ธฐ๋ณธ ๋ธ๋ก์ ๊ตฌ์ถํ๋ค. ๋ง์ง๋ง์ผ๋ก ๋ฐฉ๋ํ ๋ฐ์ดํฐ์์ ๊ฐ๋ ฅํ ํํ์ ํ์ตํ ์ ์๋ ๋๊ท๋ชจ convolution ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ธฐ ์ํด DCN ๊ธฐ๋ฐ ๋ธ๋ก์ ์คํํน ๋ฐ ์ค์ผ์ผ๋ง ๊ท์น์ ํ์ํ๋ค.
1. Deformable Convolution v3
Convolution vs. MHSA
์ด์ ์ฐ๊ตฌ๋ค์์๋ CNN๊ณผ ViT์ ์ฐจ์ด์ ์ ๋ํด ๊ด๋ฒ์ํ๊ฒ ๋ ผ์ํ๋ค. InternImage์ ํต์ฌ ์ฐ์ฐ์๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ ์ ๋จผ์ ์ผ๋ฐ์ ์ธ convolution๊ณผ MHSA์ ์ฃผ์ ์ฐจ์ด์ ์ ์์ฝํ๋ค.
- ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ (long-range dependencies): ํฐ ์ ํจ receptive field (์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ)๊ฐ ์๋ ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ผ๋ก ๋ค์ด์คํธ๋ฆผ ๋น์ task์์ ๋ ์ ์ํ๋๋ค๋ ๊ฒ์ด ์ค๋ซ๋์ ์ธ์๋์ด ์์ง๋ง ์ผ๋ฐ์ ์ธ 33 convolution์ด ์์ธ CNN์ ์ฌ์ค์์ ์ ํจ receptive field๋ ์๋์ ์ผ๋ก ์๋ค. ๋งค์ฐ ์ฌ์ธต์ ์ธ ๋ชจ๋ธ์ ์ฌ์ฉํ๋๋ผ๋ CNN ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฌ์ ํ ์ฑ๋ฅ์ ์ ํํ๋ ViT์ ๊ฐ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํ๋ํ ์ ์๋ค.
- ์ ์ํ ๊ณต๊ฐ ์ง๊ณ (adaptive spatial aggregation): ๊ฐ์ค์น๊ฐ ์ ๋ ฅ์ ์ํด ๋์ ์ผ๋ก ์กฐ์ ๋๋ MHSA์ ๋น๊ตํ ๋ ์ผ๋ฐ convolution์ ์ ์ ๊ฐ์ค์น์ 2D locality, ์ด์ ๊ตฌ์กฐ, translation equivalence ๋ฑ๊ณผ ๊ฐ์ ๊ฐํ inductive bias๋ฅผ ๊ฐ์ง ์ฐ์ฐ์์ด๋ค. ViT๋ณด๋ค ๋น ๋ฅด๊ฒ ์๋ ดํ๊ณ ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ ํ์ํ์ง๋ง CNN์ด ์น ๊ท๋ชจ ๋ฐ์ดํฐ์์ ๋ ์ผ๋ฐ์ ์ด๊ณ ๊ฐ๋ ฅํ ํจํด์ ํ์ตํ๋ ๊ฒ์ ์ ํํ๋ค.
Revisiting DCNv2
Convolution๊ณผ MHSA ์ฌ์ด์ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๋ ์ง์ ์ ์ธ ๋ฐฉ๋ฒ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ๊ณผ ์ ์ํ ๊ณต๊ฐ ์ง๊ณ๋ฅผ ์ผ๋ฐ convolution์ ๋์ ํ๋ ๊ฒ์ด๋ค. ์ผ๋ฐ convolution์ ์ผ๋ฐ์ ์ธ ๋ณํ์ธ DCNv2๋ถํฐ ์์ํ๋ค. ์ ๋ ฅ ์ ํ์ฌ ํฝ์ ๐ฅ∈๐ ๐ถ×๐ป×๐๊ฐ ์ฃผ์ด์ง๋ฉด DCNv2๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณต์ํ๋ ์ ์๋ค. ๐0
์ฌ๊ธฐ์ ๋ ์ด ์ํ๋ง ํฌ์ธํธ ์๋ฅผ ๋ํ๋ด๊ณ ๋ ์ํ๋ง ํฌ์ธํธ๋ฅผ ์ด๊ฑฐํ๋ค. ๋ ๋ฒ์งธ ์ํ๋ง ํฌ์ธํธ์ projection ๊ฐ์ค์น๋ฅผ ๋ํ๋ด๊ณ , ์ ๋ฒ์งธ ์ํ๋ง ํฌ์ธํธ์ modulation ์ค์นผ๋ผ๋ฅผ ๋ํ๋ด๋ฉฐ ์๊ทธ๋ชจ์ด๋ ํจ์์ ์ํด ์ ๊ทํ๋๋ค. ๋ ์ผ๋ฐ convolution๊ณผ ๋์ผํ๊ฒ ๋ฏธ๋ฆฌ ์ ์๋ ๊ทธ๋ฆฌ๋ ์ํ๋ง ์ ๋ฒ์งธ ์์น์ด๊ณ , ๋ ๋ฒ์งธ ๊ทธ๋ฆฌ๋ ์ํ๋ง ์์น์ ํด๋นํ๋ ์คํ์ ์ด๋ค.
์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ๊ฒฝ์ฐ ์ํ๋ง ์คํ์ ๊ฐ ์ ์ฐํ๊ณ ๋จ๊ฑฐ๋ฆฌ ๋๋ ์ฅ๊ฑฐ๋ฆฌ feature์ ์ํธ ์์ฉํ ์ ์์์ ์ ์ ์๋ค. ์ ์ํ ๊ณต๊ฐ ์ง๊ณ์ ๊ฒฝ์ฐ ์ํ๋ง ์คํ์ ์ modulation ์ค์นผ๋ผ ๋ชจ๋ ํ์ต ๊ฐ๋ฅํ๋ฉฐ ์ ๋ ฅ ๋ก ์ปจ๋์ ๋๋๋ค. ๋ฐ๋ผ์ DCNv2๋ MHSA์ ์ ์ฌํ ์ ๋ฆฌํ ์์ฑ์ ๊ณต์ ํ๊ณ ์์ผ๋ฉฐ, ์ด๋ ์ ์๋ค์ด ์ด ์ฐ์ฐ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋๊ท๋ชจ CNN ๊ธฐ๋ฐ foundation model์ ๊ฐ๋ฐํ๋๋ก ๋๊ธฐ๋ฅผ ๋ถ์ฌํ๋ค.
Extending DCNv2 for Vision Foundation Models
์ผ๋ฐ์ ์ผ๋ก DCNv2๋ ์ผ๋ฐ convolution์ ํ์ฅ์ผ๋ก ์ฌ์ฉ๋๋ฉฐ, ์ผ๋ฐ convolution์ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๋ฅผ ๋ก๋ํ๊ณ ๋ ๋์ ์ฑ๋ฅ์ ์ํด fine-tuningํ๋ค. ์ด๋ ์ฒ์๋ถํฐ ํ์ตํด์ผ ํ๋ ๋๊ท๋ชจ vision foundation model์ ์ ํํ ์ ํฉํ์ง ์๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ์ธก๋ฉด์์ DCNv2๋ฅผ ํ์ฅํ๋ค.
- Convolution ๋ด๋ฐ ๊ฐ์ ๊ฐ์ค์น ๊ณต์ : ์ผ๋ฐ convolution๊ณผ ์ ์ฌํ๊ฒ ์๋ DCNv2์ ์๋ก ๋ค๋ฅธ convolution ๋ด๋ฐ์ ๋ ๋ฆฝ์ ์ธ linear projection ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๋ฏ๋ก ํด๋น ํ๋ผ๋ฏธํฐ์ ๋ฉ๋ชจ๋ฆฌ ๋ณต์ก๋๋ ์ด ์ํ๋ง ํฌ์ธํธ ์์ ์ ํ์ด๋ฏ๋ก ํนํ ๋๊ท๋ชจ ๋ชจ๋ธ์์ ๋ชจ๋ธ์ ํจ์จ์ฑ์ ํฌ๊ฒ ์ ํํ๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด separable convolution์์ ์์ด๋์ด๋ฅผ ์ฐจ์ฉํ๊ณ ์๋ convolution ๊ฐ์ค์น ๋ฅผ ๊น์ด ๋ถ๋ถ๊ณผ ํฌ์ธํธ ๋ถ๋ถ์ผ๋ก ๋ถ๋ฆฌํ๋ค. ์ฌ๊ธฐ์ ๊น์ด ๋ถ๋ถ์ ์๋ modulation ์ค์นผ๋ผ ๐ค๐๊ฐ ๋ด๋นํ๊ณ ํฌ์ธํธ ๋ถ๋ถ์ ์ํ๋ง ํฌ์ธํธ ๊ฐ์ ๊ณต์ ๋ projection ๊ฐ์ค์น ๐๐์ด๋ค. ๐ค
- Multi-group ๋ฉ์ปค๋์ฆ ๋์ : Multi-group (head) ๋์์ธ์ group convolution์์ ์ฒ์ ๋ฑ์ฅํ์ผ๋ฉฐ trasnformer์ MHSA์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ฉฐ ์ ์ํ ๊ณต๊ฐ ์ง๊ณ์ ํจ๊ป ์๋ํ๊ณ ์๋ก ๋ค๋ฅธ ์์น์ ์๋ก ๋ค๋ฅธ ํํ subspace์์ ๋ ํ๋ถํ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋ค. ์ด์ ์๊ฐ์ ๋ฐ์ ๊ณต๊ฐ ์ง๊ณ ํ๋ก์ธ์ค๋ฅผ ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋๋์๋ค. ๊ฐ ๊ทธ๋ฃน์๋ ๊ฐ๋ณ ์ํ๋ง ์คํ์ ๐บ์ modulation ์ค์ผ์ผ Δ๐๐๐๊ฐ ์์ผ๋ฏ๋ก ๋จ์ผ convolution ๋ ์ด์ด์ ์๋ก ๋ค๋ฅธ ๊ทธ๋ฃน์ ์๋ก ๋ค๋ฅธ ๊ณต๊ฐ ์ง๊ณ ํจํด์ ๊ฐ์ง ์ ์๊ณ ๋ค์ด์คํธ๋ฆผ task์ ๋ํด ๋ ๊ฐ๋ ฅํ feature๋ฅผ ์ ๊ณตํ๋ค. ๐๐๐
- ์ํ๋ง ํฌ์ธํธ์ ๋ฐ๋ฅธ modulation ์ค์นผ๋ผ ์ ๊ทํ: ์๋ณธ DCNv2์ modulation ์ค์นผ๋ผ๋ ์๊ทธ๋ชจ์ด๋ ํจ์์ ์ํด element-wise๋ก ์ ๊ทํ๋๋ค. ๋ฐ๋ผ์ ๊ฐ modulation ์ค์นผ๋ผ๋ ๋ฒ์ ์ ์๊ณ ๋ชจ๋ ์ํ ํฌ์ธํธ์ modulation ์ค์นผ๋ผ ํฉ๊ณ๋ ์์ ์ ์ด์ง ์๊ณ 0์์ [0,1]๊น์ง ๋ค์ํ๋ค. ์ด๋ก ์ธํด ๋๊ท๋ชจ ํ๋ผ๋ฏธํฐ์ ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ DCNv2 ๋ ์ด์ด์์ ๋ถ์์ ํ ๊ธฐ์ธ๊ธฐ๊ฐ ๋ฐ์ํ๋ค. ๋ถ์์ ์ฑ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด ์ํ ํฌ์ธํธ๋ฅผ ๋ฐ๋ผ element-wise ์๊ทธ๋ชจ์ด๋ ์ ๊ทํ๋ฅผ softmax ์ ๊ทํ๋ก ๋ณ๊ฒฝํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก modulation ์ค์นผ๋ผ์ ํฉ์ 1๋ก ์ ํ๋์ด ๋ค์ํ ๊ท๋ชจ์ ๋ชจ๋ธ ํ์ต ํ๋ก์ธ์ค๋ฅผ ๋ณด๋ค ์์ ์ ์ผ๋ก ๋ง๋ ๋ค. ๐พ
์์ ์ธ๊ธํ ์์ ์ฌํญ์ ๊ฒฐํฉํ์ฌ ํ์ฅ๋ DCNv2์ธ DCNv3๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณต์ํํ ์ ์๋ค.
์ฌ๊ธฐ์ ๋ ์ง๊ณ ๊ทธ๋ฃน์ ์ด ๊ฐ์๋ฅผ ๋ํ๋ธ๋ค. ๐บ๋ฒ์งธ ๊ทธ๋ฃน์ ๋ํด ๐๋ ๊ทธ๋ฃน์ ์์น์ ๋ฌด๊ดํ projection ๊ฐ์ค์น๋ฅผ ๋ํ๋ด๋ฉฐ ๐ค๐∈๐ ๐ถ×๐ถ′๋ ๊ทธ๋ฃน ์ฐจ์์ ๋ํ๋ธ๋ค. ๐ถ′=๐ถ/๐บ์ ์ฐจ์ ๐๐๐∈๐ ๋ฅผ ๋ฐ๋ผ softmax ํจ์๋ก ์ ๊ทํ๋ ๐พ๋ฒ์งธ ๊ทธ๋ฃน์ ๐๋ฒ์งธ ์ํ๋ง ํฌ์ธํธ์ modulation ์ค์นผ๋ผ๋ฅผ ๋ํ๋ธ๋ค. ๐๋ ์ฌ๋ผ์ด์ค๋ ์ ๋ ฅ feature map์ ๋ํ๋ธ๋ค. ๐ฅ๐∈๐ ๐ถ′×๐ป×๐๋ Δ๐๐๐๋ฒ์งธ ๊ทธ๋ฃน์ ๊ทธ๋ฆฌ๋ ์ํ๋ง ์์น ๐์ ํด๋นํ๋ ์คํ์ ์ด๋ค. ๐๐
์ผ๋ฐ์ ์ผ๋ก DCN ์๋ฆฌ์ฆ์ ํ์ฅ์ธ DCNv3๋ ๋ค์๊ณผ ๊ฐ์ ์ธ ๊ฐ์ง ์ฅ์ ์ด ์๋ค.
- ์ด ์ฐ์ฐ์๋ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ๊ณผ ์ ์ํ ๊ณต๊ฐ ์ง๊ณ ์ธก๋ฉด์์ ์ผ๋ฐ convolution์ ๊ฒฐํจ์ ๋ณด์ํ๋ค.
- ์ผ๋ฐ์ ์ธ MHSA์ ๋ฐ์ ํ๊ฒ ๊ด๋ จ๋ deformable attention๊ณผ ๊ฐ์ attention ๊ธฐ๋ฐ ์ฐ์ฐ์์ ๋น๊ตํ์ฌ ์ด ์ฐ์ฐ์๋ convolution์ inductive bias๋ฅผ ์์ํ๋ฏ๋ก ๋ ์ ์ ํ์ต ๋ฐ์ดํฐ์ ๋ ์งง์ ํ์ต ์๊ฐ์ผ๋ก ๋ชจ๋ธ์ ๋ ํจ์จ์ ์ผ๋ก ๋ง๋ ๋ค.
- ์ด ์ฐ์ฐ์๋ sparse sampling์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ด๋ MHSA์ ๋ํ ์ปค๋ reparameterizing๊ณผ ๊ฐ์ ์ด์ ๋ฐฉ๋ฒ๋ณด๋ค ๋ ๊ณ์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ด๋ค. ๋ํ sparse sampling์ผ๋ก ์ธํด DCNv3์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํ์ตํ๋ ๋ฐ 33 ์ปค๋๋ง ํ์ํ๋ฏ๋ก ์ต์ ํ๊ฐ ๋ ์ฝ๊ณ ๋ํ ์ปค๋์์ ์ฌ์ฉ๋๋ reparameterizing๊ณผ ๊ฐ์ ์ถ๊ฐ ๋ณด์กฐ ๊ธฐ์ ์ ํผํ ์ ์๋ค. ×
2. InternImage Model
DCNv3๋ฅผ ํต์ฌ ์ฐ์ฐ์๋ก ์ฌ์ฉํ๋ฉด ์๋ก์ด ์ง๋ฌธ์ ํ ์ ์๋ค.
DCNv3๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ธ๊ฐ?
๋จผ์ ๋ชจ๋ธ์ ๊ธฐ๋ณธ ๋ธ๋ก๊ณผ ๊ธฐํ ํ์ ๋ ์ด์ด์ ๋ํ ๋ํ ์ผ์ ์ ์ํ ๋ค์ ์ด๋ฌํ ๊ธฐ๋ณธ ๋ธ๋ก์ ๋ํ ๋ง์ถคํ ์คํํน ์ ๋ต์ ํ์ํ์ฌ InternImage๋ผ๋ ์๋ก์ด CNN ๊ธฐ๋ฐ foundation model์ ๊ตฌ์ฑํ๋ค. ๋ง์ง๋ง์ผ๋ก ์ ์๋ ๋ชจ๋ธ์ ๋ํ scaling-up ๊ท์น์ ์ฐ๊ตฌํ์ฌ ์ฆ๊ฐํ๋ ํ๋ผ๋ฏธํฐ๋ก๋ถํฐ ์ด๋์ ์ป๋๋ค.
Basic block
๊ธฐ์กด CNN์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ bottleneck๊ณผ ๋ฌ๋ฆฌ ๊ธฐ๋ณธ ๋ธ๋ก์ ์ค๊ณ๋ LN, ํผ๋ํฌ์๋ ๋คํธ์ํฌ (FFN), GELU๋ฅผ ๋น๋กฏํ ๊ณ ๊ธ ๊ตฌ์ฑ ์์๊ฐ ์ฅ์ฐฉ๋ ViT์ ๋ ๊ฐ๊น๋ค. ์ด ๋์์ธ์ ๋ค์ํ ๋น์ task์์ ํจ์จ์ ์ธ ๊ฒ์ผ๋ก ์ ์ฆ๋์๋ค. ์ฌ๊ธฐ์ ํต์ฌ ์ฐ์ฐ์๋ DCNv3์ด๊ณ ์ํ๋ง ์คํ์ ๊ณผ modulation ์ค์ผ์ผ์ separable convolution (33 depth-wise convolution ํ linear projection)์ ํตํด ์ ๋ ฅ feature ×๋ฅผ ์ ๋ฌํ์ฌ ์์ธก๋๋ค. ๋ค๋ฅธ ๊ตฌ์ฑ ์์์ ๊ฒฝ์ฐ ๊ธฐ๋ณธ์ ์ผ๋ก post-normalization ์ค์ ์ ์ฌ์ฉํ๊ณ ์ผ๋ฐ trasnformer์ ๋์ผํ ์ค๊ณ๋ฅผ ๋ฐ๋ฅธ๋ค. ๐ฅ
Stem & downsampling layers
๊ณ์ธต์ feature map์ ์ป๊ธฐ ์ํด convolution stem๊ณผ ๋ค์ด์ํ๋ง ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ feature map์ ํฌ๊ธฐ๋ฅผ ๋ค๋ฅธ ์ค์ผ์ผ๋ก resizeํ๋ค. Stem ๋ ์ด์ด๋ ์ ๋ ฅ ํด์๋๋ฅผ 4๋ฐฐ๋ก ์ค์ด๊ธฐ ์ํด ์ฒซ ๋ฒ์งธ stage ์์ ๋ฐฐ์น๋๋ค. 2๊ฐ์ convolution, 2๊ฐ์ LN ๋ ์ด์ด, 1๊ฐ์ GELU ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋ convolution์ ์ปค๋ ํฌ๊ธฐ๋ 3, stride๋ 2, padding์ 1์ด๋ฉฐ ์ฒซ ๋ฒ์งธ convolution์ ์ถ๋ ฅ ์ฑ๋์ ๋ ๋ฒ์งธ์ ์ ๋ฐ์ด๋ค. ์ ์ฌํ๊ฒ, ๋ค์ด์ํ๋ง ๋ ์ด์ด๋ stride๊ฐ 2์ด๊ณ padding์ด 1์ธ 33 convolution์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ทธ ๋ค์์๋ ํ๋์ LN ๋ ์ด์ด๊ฐ ์๋ค. ๋ stage ์ฌ์ด์ ์์ผ๋ฉฐ ์ ๋ ฅ feature map์ 2๋ฐฐ๋ก ๋ค์ด์ํ๋งํ๋ ๋ฐ ์ฌ์ฉ๋๋ค. ×
Stacking rules
InternImage์ ํ์ hyperparameter๋ ๋ค์๊ณผ ๊ฐ๋ค.
- : ๐ถ๐๋ฒ์งธ stage์ ์ฑ๋ ์ ๐
- : ๐บ๐๋ฒ์งธ stage์์ DCNv3์ ๊ทธ๋ฃน ์ ๐
- : ๐ฟ๐๋ฒ์งธ stage์์ basic block์ ์ ๐
๋ณธ ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ 4-stage์ด๊ธฐ ๋๋ฌธ์ 12๊ฐ์ hyperparameter์ ์ํด ๋ณํ์ด ๊ฒฐ์ ๋๋๋ฐ, ๊ฒ์ ๊ณต๊ฐ์ด ๋๋ฌด ์ปค์ ์๋ฒฝํ๊ฒ ์ด๊ฑฐํ๊ณ ์ต์ ์ ๋ณํ์ ์ฐพ์ ์ ์๋ค. ๊ฒ์ ๊ณต๊ฐ์ ์ค์ด๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ 4๊ฐ์ ๊ท์น์ ๋๋ค.
- ๐ถ๐=2๐−1๐ถ1
- ๐บ๐=๐ถ๐/๐ถ′
- ๐ฟ1=๐ฟ2=๐ฟ4
- ๐ฟ1≤๐ฟ3
์ฒซ ๋ฒ์งธ ๊ท์น์ stage 1์ ์ฑ๋ ์ ์ ์ํด ๊ฒฐ์ ๋๋ ๋ง์ง๋ง ์ธ stage์ ์ฑ๋ ์๋ฅผ ๋ง๋ค๊ณ , ๋ ๋ฒ์งธ ๊ท์น์ stage๋ค์ ์ฑ๋ ์์ ๋ฐ๋ฅธ ๊ทธ๋ฃน ์๋ฅผ ์ง์ ํ๋ค. ์ธ ๋ฒ์งธ ๊ท์น๊ณผ ๋ค ๋ฒ์งธ ๊ท์น์ ์คํํน ํจํด์ “AABA”๋ก ๋จ์ํํ๋ฉฐ, stage 1, 2, 4์ ๋ธ๋ก ์๊ฐ ๋์ผํ๊ณ stage 3๋ณด๋ค ์๋๋ก ํ๋ค. ์ด๋ฌํ ๊ท์น์ ์ฌ์ฉํ๋ฉด 4๊ฐ์ hyperparameter ๐ถ1๋ง ์ฌ์ฉํ์ฌ InternImage ๋ณํ์ ์ ์ํ ์ ์๋ค. (๐ถ1,๐ถ′,๐ฟ1,๐ฟ3)
3์ฒ๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ์๋ ๋ชจ๋ธ์ origin์ผ๋ก ์ ํํ๊ณ ์ ๐ถ1๋ก, {48,64,80}์ ๐ฟ1๋ก, {1,2,3,4,5}์ ๐ถ′๋ก discretizeํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์๋์ ๊ฑฐ๋ํ ๊ฒ์ ๊ณต๊ฐ์ด 30๊ฐ๋ก ์ค์ด๋ค๊ณ ImageNet์์ ํ์ต ๋ฐ ํ๊ฐํ์ฌ 30๊ฐ์ ๋ณํ ์ค์์ ์ต์์ ๋ชจ๋ธ์ ์ฐพ์ ์ ์๋ค. ์ค์ ๋ก๋ ์ต์์ hyperparameter ์ค์ {16,32}์ ์ฌ์ฉํ์ฌ origin model์ ์ ์ํ๊ณ ์ด๋ฅผ ๋ค๋ฅธ ์ค์ผ์ผ๋ก ํ์ฅํ๋ค. (64,16,4,18)
Scaling rules
์์ ์ธ๊ธํ ์ ์ฝ ์กฐ๊ฑด์์ ์ต์ ์ origin model์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ผ๋ฏธํฐ ์ค์ผ์ผ๋ง ๊ท์น์ ์ถ๊ฐ๋ก ํ์ํ๋ค. ํนํ ๊น์ด ์ ๋๋น ๐ท=3๐ฟ1+๐ฟ3์ ๋ ๊ฐ์ง ์ค์ผ์ผ๋ง ์ฐจ์์ ๊ณ ๋ คํ๊ณ ๐ถ1, ๐ผ, composite factor ๐ฝ๋ฅผ ์ฌ์ฉํ์ฌ ๋ ์ฐจ์์ ์ค์ผ์ผ๋งํ๋ค. ์ค์ผ์ผ๋ง ๊ท์น์ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค. ๐
๐ท′=๐ผ๐๐ท,๐ถ1′=๐ฝ๐๐ถ1where๐ผ≥1,๐ฝ≥1,๐ผ๐ฝ1.99≈2
์ฌ๊ธฐ์ 1.99๋ InternImage์ ๊ณ ์ ํ๋ฉฐ ๊น์ด๋ฅผ ์ผ์ ํ๊ฒ ์ ์งํ๊ณ ๋ชจ๋ธ ๋๋น๋ฅผ ๋ ๋ฐฐ๋ก ๋๋ ค ๊ณ์ฐํ๋ค. ์ ์๋ค์ ์คํ์ผ๋ก ์ต์์ ์ค์ผ์ผ๋ง ์ค์ ์ด , ๐ผ=1.09์ด๋ผ๋ ๊ฒ์ ์์๋์ผ๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ ์ค์ผ์ผ์ ConvNeXt์ ๋ณต์ก๋๊ฐ ์ ์ฌํ๊ฒ ๊ตฌ์ฑํ์ฌ InternImage-T/S/B/L/XL๋ก InternImage ๋ณํ์ ๊ตฌ์ฑํ์๋ค. ์ ์๋ค์ ๋ฅ๋ ฅ์ ์ถ๊ฐ๋ก ํ ์คํธํ๊ธฐ ์ํด 10์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ์๋ ๋ ํฐ InternImage-H๋ฅผ ๊ตฌ์ถํ์ผ๋ฉฐ ๋งค์ฐ ํฐ ๋ชจ๋ธ ๋๋น๋ฅผ ์์ฉํ๊ธฐ ์ํด ๊ทธ๋ฃน ์ฐจ์ ๐ฝ=1.36์ 32๋ก ๋ณ๊ฒฝํ๋ค. ๊ตฌ์ฑ์ ํ 1์ ์์ฝ๋์ด ์๋ค. ๐ถ′
Experiment
1. Image Classification
๋ค์์ ImageNet validation set์์์ ์ด๋ฏธ์ง ๋ถ๋ฅ ์ฑ๋ฅ์ ๋ํ๋ธ ํ์ด๋ค.
2. Object Detection
๋ค์์ COCO val2017์์์ object detection๊ณผ instance segmentation ์ฑ๋ฅ์ ๋ํ๋ธ ํ์ด๋ค.
๋ค์์ COCO val2017๊ณผ test-dev์์ SOTA detector์ ์ฑ๋ฅ์ ๋น๊ตํ ํ์ด๋ค.
3. Semantic Segmentation
๋ค์์ ADE20K validation set์์์ semantic segmentation ์ฑ๋ฅ์ ๋ํ๋ธ ํ์ด๋ค.
4. Ablation Study
๋ค์์ convolution ๋ด๋ฐ ๊ฐ์ ๊ณต์ ๊ฐ์ค์น์ ๋น๊ณต์ ๊ฐ์ค์น์ ๋ํํ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๋น๊ตํ ๊ทธ๋ํ์ด๋ค.
๋ค์์ DCNv3์ 3๊ฐ์ง ์์ ์ฌํญ์ ๋ํ ablation ๊ฒฐ๊ณผ์ด๋ค.
๋ค์์ ์ฌ๋ฌ stage์ ์ฌ๋ฌ ๊ทธ๋ฃน์ ๋ํ ์ํ๋ง ์์น๋ฅผ ์๊ฐํ ํ ๊ฒ์ด๋ค.