Study: Artificial Intelligence(AI)/AI: 2D Vision(Det, Seg, Trac)

[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] InternImage: DCN + Vision Foundation Models - Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

DrawingProcess 2024. 7. 25. 03:18
๋ฐ˜์‘ํ˜•
๐Ÿ’ก ๋ณธ ๋ฌธ์„œ๋Š” 'InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions' ๋…ผ๋ฌธ์„ ์ •๋ฆฌํ•ด๋†“์€ ๊ธ€์ž…๋‹ˆ๋‹ค.
ํ•ด๋‹น ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ vision foundation model์˜ ์—ฐ๊ตฌ์— ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ViT ๋ชจ๋ธ๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ธฐ ์œ„ํ•œ Foundation ๋ชจ๋ธ์„ ์œ„ํ•œ CNN Architecture์ธ InternImage์— ๋Œ€ํ•ด ์„ค๋ช…ํ•œ ๋…ผ๋ฌธ์ด๋‹ˆ ์ฐธ๊ณ ํ•˜์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.
 - Paper: https://arxiv.org/abs/2211.05778
 - Github: https://github.com/OpenGVLab/InternImage

Introduction

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์—์„œ transformer์˜ ๋†€๋ผ์šด ์„ฑ๊ณต์œผ๋กœ vision transformer (ViT)๋„ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ๋ฅผ ํœฉ์“ธ์—ˆ๊ณ  ๋Œ€๊ทœ๋ชจ vision foundation model์˜ ์—ฐ๊ตฌ ๋ฐ ์‹คํ–‰์„ ์œ„ํ•œ ์ฃผ์š” ์„ ํƒ์ด ๋˜๊ณ  ์žˆ๋‹ค. ์ผ๋ถ€ ์„ ๊ตฌ์ž๋“ค์€ ViT๋ฅผ 10์–ต ๊ฐœ ์ด์ƒ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์žˆ๋Š” ๋งค์šฐ ํฐ ๋ชจ๋ธ๋กœ ํ™•์žฅํ•˜์—ฌ CNN์„ ๋Šฅ๊ฐ€ํ•˜๊ณ  ๊ธฐ๋ณธ ๋ถ„๋ฅ˜, ๊ฐ์ง€, ๋ถ„ํ• ์„ ํฌํ•จํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์ปดํ“จํ„ฐ ๋น„์ „ task์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ํฌ๊ฒŒ ๋Œ์–ด์˜ฌ๋ฆฌ๋ ค๋Š” ์‹œ๋„๋ฅผ ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๋Œ€๊ทœ๋ชจ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฐ ๋ฐ์ดํ„ฐ ์‹œ๋Œ€์— CNN์ด ViT๋ณด๋‹ค ์—ด๋“ฑํ•จ์„ ์‹œ์‚ฌํ•˜์ง€๋งŒ, CNN ๊ธฐ๋ฐ˜ foundation model๋„ ์œ ์‚ฌํ•œ ์—ฐ์‚ฐ์ž/์•„ํ‚คํ…์ฒ˜ ๋ ˆ๋ฒจ ์„ค๊ณ„, scaling-up ํŒŒ๋ผ๋ฏธํ„ฐ, ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ–์ถ”๊ณ  ์žˆ์„ ๋•Œ ViT์™€ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

CNN๊ณผ ViT ์‚ฌ์ด์˜ ๊ฒฉ์ฐจ๋ฅผ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•ด ๋จผ์ € ๋‘ ๊ฐ€์ง€ ์ธก๋ฉด์—์„œ ์ฐจ์ด์ ์„ ์š”์•ฝํ•œ๋‹ค.

  1. ์—ฐ์‚ฐ์ž ๋ ˆ๋ฒจ์—์„œ ViT์˜ Multi-Head Self-Attention (MHSA)์—๋Š” ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ (long-range dependency)๊ณผ ์ ์‘ํ˜• ๊ณต๊ฐ„ ์ง‘๊ณ„๊ฐ€ ์žˆ๋‹ค. ์œ ์—ฐํ•œ MHSA์˜ ์ด์ ์„ ํ™œ์šฉํ•˜์—ฌ ViT๋Š” ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์—์„œ CNN๋ณด๋‹ค ๋” ๊ฐ•๋ ฅํ•˜๊ณ  robustํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.
  2. ์•„ํ‚คํ…์ฒ˜ ๊ด€์ ์—์„œ ๋ณผ ๋•Œ ViT๋Š” MHSA ์™ธ์—๋„ Layer Normalization (LN), Feed-Forward Network (FFN), GELU ๋“ฑ ํ‘œ์ค€ CNN์— ํฌํ•จ๋˜์ง€ ์•Š๋Š” ์ผ๋ จ์˜ ๊ณ ๊ธ‰ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํฌํ•จํ•œ๋‹ค.

์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์—์„œ ์˜๋ฏธ ์žˆ๋Š” ์‹œ๋„๊ฐ€ ์žˆ์—ˆ์ง€๋งŒ ๋งค์šฐ ํฐ ์ปค๋„ (ex. 31×31)์ด ์žˆ๋Š” dense convolution์„ ์‚ฌ์šฉํ•˜์—ฌ CNN์— ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์„ ๋„์ž…ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์„ฑ๋Šฅ ๋ฐ ๋ชจ๋ธ ๊ทœ๋ชจ ์ธก๋ฉด์—์„œ ์ตœ์‹  ๋Œ€๊ทœ๋ชจ ViT์™€ ์ƒ๋‹นํ•œ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋Œ€๊ทœ๋ชจ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๋ฐ์ดํ„ฐ๋กœ ํšจ์œจ์ ์œผ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” CNN ๊ธฐ๋ฐ˜ foundation model์„ ์„ค๊ณ„ํ•˜๋Š” ๋ฐ ์ง‘์ค‘ํ•˜์˜€๋‹ค. ํŠนํžˆ ์œ ์—ฐํ•œ convolution ๋ณ€ํ˜•์ธ deformable convolution (DCN)์œผ๋กœ ์‹œ์ž‘ํ•œ๋‹ค. Transformer์™€ ์œ ์‚ฌํ•œ ์ผ๋ จ์˜ ๋งž์ถคํ˜• ๋ธ”๋ก ๋ ˆ๋ฒจ ๋ฐ ์•„ํ‚คํ…์ฒ˜ ๋ ˆ๋ฒจ ๋””์ž์ธ๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ InternImage๋ผ๋Š” ์ƒˆ๋กœ์šด convolution backbone ๋„คํŠธ์›Œํฌ๋ฅผ ์„ค๊ณ„ํ•œ๋‹ค.


์œ„ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด 31×31๊ณผ ๊ฐ™์€ ๋งค์šฐ ํฐ ์ปค๋„์„ ๊ฐ€์ง„ ์ตœ๊ทผ ๊ฐœ์„ ๋œ CNN๊ณผ ๋‹ฌ๋ฆฌ InternImage์˜ ํ•ต์‹ฌ ์—ฐ์‚ฐ์ž๋Š” 3×3์˜ ๊ณตํ†ต window ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง„ dynamic sparse convolution์ด๋‹ค. Dynamic sparse convolution์˜ ํŠน์ง•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  1. ์ƒ˜ํ”Œ๋ง ์˜คํ”„์…‹์ด ์œ ์—ฐํ•˜๋‹ค. ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์—์„œ ์ ์ ˆํ•œ receptive field (์žฅ๊ฑฐ๋ฆฌ ๋˜๋Š” ๋‹จ๊ฑฐ๋ฆฌ)๋ฅผ ๋™์ ์œผ๋กœ ํ•™์Šตํ•œ๋‹ค.
  2. ์ƒ˜ํ”Œ๋ง ์˜คํ”„์…‹๊ณผ modulation ์Šค์นผ๋ผ๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ์ ์‘์ ์œผ๋กœ ์กฐ์ •๋˜์–ด ViT์™€ ๊ฐ™์€ ์ ์‘ํ˜• ๊ณต๊ฐ„ ์ง‘๊ณ„๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์–ด ์ผ๋ฐ˜ convolution์˜ ๊ณผ๋„ํ•œ inductive bias๋ฅผ ์ค„์ธ๋‹ค.
  3. Convolutional window๋Š” ์ผ๋ฐ˜์ ์ธ 33์œผ๋กœ, ํฌ๊ณ  ๋ฐ€์ง‘๋œ ์ปค๋„๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ์ตœ์ ํ™” ๋ฌธ์ œ์™€ ๊ณ ๊ฐ€์˜ ๋น„์šฉ์„ ๋ฐฉ์ง€ํ•œ๋‹ค.

์•ž์„œ ์–ธ๊ธ‰ํ•œ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ์ œ์•ˆ๋œ InternImage๋Š” ํฐ ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ๋กœ ํšจ์œจ์ ์œผ๋กœ ํ™•์žฅํ•˜๊ณ  ๋Œ€๊ทœ๋ชจ ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ๋” ๊ฐ•๋ ฅํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•˜์—ฌ ๊ด‘๋ฒ”์œ„ํ•œ ๋น„์ „ task์—์„œ ๋Œ€๊ทœ๋ชจ ViT์— ํ•„์ ํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

Proposed Method

๋Œ€๊ทœ๋ชจ CNN ๊ธฐ๋ฐ˜ foundation ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•˜๊ธฐ ์œ„ํ•ด deformable convolution v2 (DCNv2)๋ผ๋Š” ์œ ์—ฐํ•œ convolution ๋ณ€ํ˜•์œผ๋กœ ์‹œ์ž‘ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ foundation model์˜ ์š”๊ตฌ ์‚ฌํ•ญ์— ๋” ์ž˜ ๋งž๋„๋ก ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์•ฝ๊ฐ„์˜ ์กฐ์ •์„ ํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ตœ์‹  backbone์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ณ ๊ธ‰ ๋ธ”๋ก ์„ค๊ณ„์™€ ํŠœ๋‹๋œ convolution ์—ฐ์‚ฐ์ž๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ธฐ๋ณธ ๋ธ”๋ก์„ ๊ตฌ์ถ•ํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์—์„œ ๊ฐ•๋ ฅํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€๊ทœ๋ชจ convolution ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•ด DCN ๊ธฐ๋ฐ˜ ๋ธ”๋ก์˜ ์Šคํƒœํ‚น ๋ฐ ์Šค์ผ€์ผ๋ง ๊ทœ์น™์„ ํƒ์ƒ‰ํ•œ๋‹ค.

1. Deformable Convolution v3

Convolution vs. MHSA

์ด์ „ ์—ฐ๊ตฌ๋“ค์—์„œ๋Š” CNN๊ณผ ViT์˜ ์ฐจ์ด์ ์— ๋Œ€ํ•ด ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ๋…ผ์˜ํ–ˆ๋‹ค. InternImage์˜ ํ•ต์‹ฌ ์—ฐ์‚ฐ์ž๋ฅผ ๊ฒฐ์ •ํ•˜๊ธฐ ์ „์— ๋จผ์ € ์ผ๋ฐ˜์ ์ธ convolution๊ณผ MHSA์˜ ์ฃผ์š” ์ฐจ์ด์ ์„ ์š”์•ฝํ•œ๋‹ค.

  1. ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ (long-range dependencies): ํฐ ์œ ํšจ receptive field (์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ)๊ฐ€ ์žˆ๋Š” ๋ชจ๋ธ์ด ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋น„์ „ task์—์„œ ๋” ์ž˜ ์ˆ˜ํ–‰๋œ๋‹ค๋Š” ๊ฒƒ์ด ์˜ค๋žซ๋™์•ˆ ์ธ์‹๋˜์–ด ์™”์ง€๋งŒ ์ผ๋ฐ˜์ ์ธ 33 convolution์ด ์Œ“์ธ CNN์˜ ์‚ฌ์‹ค์ƒ์˜ ์œ ํšจ receptive field๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘๋‹ค. ๋งค์šฐ ์‹ฌ์ธต์ ์ธ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋”๋ผ๋„ CNN ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ์—ฌ์ „ํžˆ ์„ฑ๋Šฅ์„ ์ œํ•œํ•˜๋Š” ViT์™€ ๊ฐ™์€ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์„ ํš๋“ํ•  ์ˆ˜ ์—†๋‹ค.
  2. ์ ์‘ํ˜• ๊ณต๊ฐ„ ์ง‘๊ณ„ (adaptive spatial aggregation): ๊ฐ€์ค‘์น˜๊ฐ€ ์ž…๋ ฅ์— ์˜ํ•ด ๋™์ ์œผ๋กœ ์กฐ์ ˆ๋˜๋Š” MHSA์™€ ๋น„๊ตํ•  ๋•Œ ์ผ๋ฐ˜ convolution์€ ์ •์  ๊ฐ€์ค‘์น˜์™€ 2D locality, ์ด์›ƒ ๊ตฌ์กฐ, translation equivalence ๋“ฑ๊ณผ ๊ฐ™์€ ๊ฐ•ํ•œ inductive bias๋ฅผ ๊ฐ€์ง„ ์—ฐ์‚ฐ์ž์ด๋‹ค. ViT๋ณด๋‹ค ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๊ณ  ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋œ ํ•„์š”ํ•˜์ง€๋งŒ CNN์ด ์›น ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์—์„œ ๋” ์ผ๋ฐ˜์ ์ด๊ณ  ๊ฐ•๋ ฅํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ์ œํ•œํ•œ๋‹ค.

Revisiting DCNv2

Convolution๊ณผ MHSA ์‚ฌ์ด์˜ ๊ฒฉ์ฐจ๋ฅผ ํ•ด์†Œํ•˜๋Š” ์ง์ ‘์ ์ธ ๋ฐฉ๋ฒ•์€ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ๊ณผ ์ ์‘ํ˜• ๊ณต๊ฐ„ ์ง‘๊ณ„๋ฅผ ์ผ๋ฐ˜ convolution์— ๋„์ž…ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ผ๋ฐ˜ convolution์˜ ์ผ๋ฐ˜์ ์ธ ๋ณ€ํ˜•์ธ DCNv2๋ถ€ํ„ฐ ์‹œ์ž‘ํ•œ๋‹ค. ์ž…๋ ฅ ๐‘ฅ∈๐‘…๐ถ×๐ป×๐‘Š์™€ ํ˜„์žฌ ํ”ฝ์…€ ๐‘0๊ฐ€ ์ฃผ์–ด์ง€๋ฉด DCNv2๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณต์‹ํ™”๋  ์ˆ˜ ์žˆ๋‹ค.

์—ฌ๊ธฐ์„œ ๋Š” ์ด ์ƒ˜ํ”Œ๋ง ํฌ์ธํŠธ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ  ๋Š” ์ƒ˜ํ”Œ๋ง ํฌ์ธํŠธ๋ฅผ ์—ด๊ฑฐํ•œ๋‹ค. ๋Š” ๋ฒˆ์งธ ์ƒ˜ํ”Œ๋ง ํฌ์ธํŠธ์˜ projection ๊ฐ€์ค‘์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , ์€ ๋ฒˆ์งธ ์ƒ˜ํ”Œ๋ง ํฌ์ธํŠธ์˜ modulation ์Šค์นผ๋ผ๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์— ์˜ํ•ด ์ •๊ทœํ™”๋œ๋‹ค. ๋Š” ์ผ๋ฐ˜ convolution๊ณผ ๋™์ผํ•˜๊ฒŒ ๋ฏธ๋ฆฌ ์ •์˜๋œ ๊ทธ๋ฆฌ๋“œ ์ƒ˜ํ”Œ๋ง ์˜ ๋ฒˆ์งธ ์œ„์น˜์ด๊ณ , ๋Š” ๋ฒˆ์งธ ๊ทธ๋ฆฌ๋“œ ์ƒ˜ํ”Œ๋ง ์œ„์น˜์— ํ•ด๋‹นํ•˜๋Š” ์˜คํ”„์…‹์ด๋‹ค.

์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์˜ ๊ฒฝ์šฐ ์ƒ˜ํ”Œ๋ง ์˜คํ”„์…‹ ๊ฐ€ ์œ ์—ฐํ•˜๊ณ  ๋‹จ๊ฑฐ๋ฆฌ ๋˜๋Š” ์žฅ๊ฑฐ๋ฆฌ feature์™€ ์ƒํ˜ธ ์ž‘์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ ์‘ํ˜• ๊ณต๊ฐ„ ์ง‘๊ณ„์˜ ๊ฒฝ์šฐ ์ƒ˜ํ”Œ๋ง ์˜คํ”„์…‹ ์™€ modulation ์Šค์นผ๋ผ  ๋ชจ๋‘ ํ•™์Šต ๊ฐ€๋Šฅํ•˜๋ฉฐ ์ž…๋ ฅ ๋กœ ์ปจ๋””์…”๋‹๋œ๋‹ค. ๋”ฐ๋ผ์„œ DCNv2๋Š” MHSA์™€ ์œ ์‚ฌํ•œ ์œ ๋ฆฌํ•œ ์†์„ฑ์„ ๊ณต์œ ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์ €์ž๋“ค์ด ์ด ์—ฐ์‚ฐ์ž๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋Œ€๊ทœ๋ชจ CNN ๊ธฐ๋ฐ˜ foundation model์„ ๊ฐœ๋ฐœํ•˜๋„๋ก ๋™๊ธฐ๋ฅผ ๋ถ€์—ฌํ–ˆ๋‹ค.

Extending DCNv2 for Vision Foundation Models

์ผ๋ฐ˜์ ์œผ๋กœ DCNv2๋Š” ์ผ๋ฐ˜ convolution์˜ ํ™•์žฅ์œผ๋กœ ์‚ฌ์šฉ๋˜๋ฉฐ, ์ผ๋ฐ˜ convolution์˜ ์‚ฌ์ „ ํ•™์Šต๋œ ๊ฐ€์ค‘์น˜๋ฅผ ๋กœ๋“œํ•˜๊ณ  ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์œ„ํ•ด fine-tuningํ•œ๋‹ค. ์ด๋Š” ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” ๋Œ€๊ทœ๋ชจ vision foundation model์— ์ •ํ™•ํžˆ ์ ํ•ฉํ•˜์ง€ ์•Š๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ธก๋ฉด์—์„œ DCNv2๋ฅผ ํ™•์žฅํ•œ๋‹ค.

  1. Convolution ๋‰ด๋Ÿฐ ๊ฐ„์˜ ๊ฐ€์ค‘์น˜ ๊ณต์œ : ์ผ๋ฐ˜ convolution๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์›๋ž˜ DCNv2์˜ ์„œ๋กœ ๋‹ค๋ฅธ convolution ๋‰ด๋Ÿฐ์€ ๋…๋ฆฝ์ ์ธ linear projection ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง€๋ฏ€๋กœ ํ•ด๋‹น ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๋ฉ”๋ชจ๋ฆฌ ๋ณต์žก๋„๋Š” ์ด ์ƒ˜ํ”Œ๋ง ํฌ์ธํŠธ ์ˆ˜์™€ ์„ ํ˜•์ด๋ฏ€๋กœ ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—์„œ ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ์ œํ•œํ•œ๋‹ค. ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด separable convolution์—์„œ ์•„์ด๋””์–ด๋ฅผ ์ฐจ์šฉํ•˜๊ณ  ์›๋ž˜ convolution ๊ฐ€์ค‘์น˜ ๐‘ค๐‘˜๋ฅผ ๊นŠ์ด ๋ถ€๋ถ„๊ณผ ํฌ์ธํŠธ ๋ถ€๋ถ„์œผ๋กœ ๋ถ„๋ฆฌํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ๊นŠ์ด ๋ถ€๋ถ„์€ ์›๋ž˜ modulation ์Šค์นผ๋ผ ๐‘š๐‘˜๊ฐ€ ๋‹ด๋‹นํ•˜๊ณ  ํฌ์ธํŠธ ๋ถ€๋ถ„์€ ์ƒ˜ํ”Œ๋ง ํฌ์ธํŠธ ๊ฐ„์— ๊ณต์œ ๋œ projection ๊ฐ€์ค‘์น˜ ๐‘ค์ด๋‹ค.
  2. Multi-group ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋„์ž…: Multi-group (head) ๋””์ž์ธ์€ group convolution์—์„œ ์ฒ˜์Œ ๋“ฑ์žฅํ–ˆ์œผ๋ฉฐ trasnformer์˜ MHSA์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋ฉฐ ์ ์‘ํ˜• ๊ณต๊ฐ„ ์ง‘๊ณ„์™€ ํ•จ๊ป˜ ์ž‘๋™ํ•˜๊ณ  ์„œ๋กœ ๋‹ค๋ฅธ ์œ„์น˜์˜ ์„œ๋กœ ๋‹ค๋ฅธ ํ‘œํ˜„ subspace์—์„œ ๋” ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•œ๋‹ค. ์ด์— ์˜๊ฐ์„ ๋ฐ›์•„ ๊ณต๊ฐ„ ์ง‘๊ณ„ ํ”„๋กœ์„ธ์Šค๋ฅผ ๐บ๊ฐœ์˜ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ„์—ˆ๋‹ค. ๊ฐ ๊ทธ๋ฃน์—๋Š” ๊ฐœ๋ณ„ ์ƒ˜ํ”Œ๋ง ์˜คํ”„์…‹ Δ๐‘๐‘”๐‘˜์™€ modulation ์Šค์ผ€์ผ ๐‘š๐‘”๐‘˜๊ฐ€ ์žˆ์œผ๋ฏ€๋กœ ๋‹จ์ผ convolution ๋ ˆ์ด์–ด์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๊ทธ๋ฃน์€ ์„œ๋กœ ๋‹ค๋ฅธ ๊ณต๊ฐ„ ์ง‘๊ณ„ ํŒจํ„ด์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๊ณ  ๋‹ค์šด์ŠคํŠธ๋ฆผ task์— ๋Œ€ํ•ด ๋” ๊ฐ•๋ ฅํ•œ feature๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
  3. ์ƒ˜ํ”Œ๋ง ํฌ์ธํŠธ์— ๋”ฐ๋ฅธ modulation ์Šค์นผ๋ผ ์ •๊ทœํ™”: ์›๋ณธ DCNv2์˜ modulation ์Šค์นผ๋ผ๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์— ์˜ํ•ด element-wise๋กœ ์ •๊ทœํ™”๋œ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฐ modulation ์Šค์นผ๋ผ๋Š” ๋ฒ”์œ„ [0,1]์— ์žˆ๊ณ  ๋ชจ๋“  ์ƒ˜ํ”Œ ํฌ์ธํŠธ์˜ modulation ์Šค์นผ๋ผ ํ•ฉ๊ณ„๋Š” ์•ˆ์ •์ ์ด์ง€ ์•Š๊ณ  0์—์„œ ๐พ๊นŒ์ง€ ๋‹ค์–‘ํ•˜๋‹ค. ์ด๋กœ ์ธํ•ด ๋Œ€๊ทœ๋ชจ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•  ๋•Œ DCNv2 ๋ ˆ์ด์–ด์—์„œ ๋ถˆ์•ˆ์ •ํ•œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ๋ถˆ์•ˆ์ •์„ฑ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์ƒ˜ํ”Œ ํฌ์ธํŠธ๋ฅผ ๋”ฐ๋ผ element-wise ์‹œ๊ทธ๋ชจ์ด๋“œ ์ •๊ทœํ™”๋ฅผ softmax ์ •๊ทœํ™”๋กœ ๋ณ€๊ฒฝํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ modulation ์Šค์นผ๋ผ์˜ ํ•ฉ์€ 1๋กœ ์ œํ•œ๋˜์–ด ๋‹ค์–‘ํ•œ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ ํ•™์Šต ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ณด๋‹ค ์•ˆ์ •์ ์œผ๋กœ ๋งŒ๋“ ๋‹ค.

์•ž์„œ ์–ธ๊ธ‰ํ•œ ์ˆ˜์ • ์‚ฌํ•ญ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ํ™•์žฅ๋œ DCNv2์ธ DCNv3๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณต์‹ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.

์—ฌ๊ธฐ์„œ ๐บ๋Š” ์ง‘๊ณ„ ๊ทธ๋ฃน์˜ ์ด ๊ฐœ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๐‘”๋ฒˆ์งธ ๊ทธ๋ฃน์— ๋Œ€ํ•ด ๐‘ค๐‘”∈๐‘…๐ถ×๐ถ′๋Š” ๊ทธ๋ฃน์˜ ์œ„์น˜์™€ ๋ฌด๊ด€ํ•œ projection ๊ฐ€์ค‘์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ ๐ถ′=๐ถ/๐บ๋Š” ๊ทธ๋ฃน ์ฐจ์›์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๐‘š๐‘”๐‘˜∈๐‘…์€ ์ฐจ์› ๐พ๋ฅผ ๋”ฐ๋ผ softmax ํ•จ์ˆ˜๋กœ ์ •๊ทœํ™”๋œ ๐‘”๋ฒˆ์งธ ๊ทธ๋ฃน์˜ ๐‘˜๋ฒˆ์งธ ์ƒ˜ํ”Œ๋ง ํฌ์ธํŠธ์˜ modulation ์Šค์นผ๋ผ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๐‘ฅ๐‘”∈๐‘…๐ถ′×๐ป×๐‘Š๋Š” ์Šฌ๋ผ์ด์Šค๋œ ์ž…๋ ฅ feature map์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. Δ๐‘๐‘”๐‘˜๋Š” ๐‘”๋ฒˆ์งธ ๊ทธ๋ฃน์˜ ๊ทธ๋ฆฌ๋“œ ์ƒ˜ํ”Œ๋ง ์œ„์น˜ ๐‘๐‘˜์— ํ•ด๋‹นํ•˜๋Š” ์˜คํ”„์…‹์ด๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ DCN ์‹œ๋ฆฌ์ฆˆ์˜ ํ™•์žฅ์ธ DCNv3๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ธ ๊ฐ€์ง€ ์žฅ์ ์ด ์žˆ๋‹ค.

  1. ์ด ์—ฐ์‚ฐ์ž๋Š” ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ๊ณผ ์ ์‘ํ˜• ๊ณต๊ฐ„ ์ง‘๊ณ„ ์ธก๋ฉด์—์„œ ์ผ๋ฐ˜ convolution์˜ ๊ฒฐํ•จ์„ ๋ณด์™„ํ–ˆ๋‹ค.
  2. ์ผ๋ฐ˜์ ์ธ MHSA์™€ ๋ฐ€์ ‘ํ•˜๊ฒŒ ๊ด€๋ จ๋œ deformable attention๊ณผ ๊ฐ™์€ attention ๊ธฐ๋ฐ˜ ์—ฐ์‚ฐ์ž์™€ ๋น„๊ตํ•˜์—ฌ ์ด ์—ฐ์‚ฐ์ž๋Š” convolution์˜ inductive bias๋ฅผ ์ƒ์†ํ•˜๋ฏ€๋กœ ๋” ์ ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ๋” ์งง์€ ํ•™์Šต ์‹œ๊ฐ„์œผ๋กœ ๋ชจ๋ธ์„ ๋” ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“ ๋‹ค.
  3. ์ด ์—ฐ์‚ฐ์ž๋Š” sparse sampling์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ์ด๋Š” MHSA์™€ ๋Œ€ํ˜• ์ปค๋„ reparameterizing๊ณผ ๊ฐ™์€ ์ด์ „ ๋ฐฉ๋ฒ•๋ณด๋‹ค ๋” ๊ณ„์‚ฐ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์ ์ด๋‹ค. ๋˜ํ•œ sparse sampling์œผ๋กœ ์ธํ•ด DCNv3์€ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ 3×3 ์ปค๋„๋งŒ ํ•„์š”ํ•˜๋ฏ€๋กœ ์ตœ์ ํ™”๊ฐ€ ๋” ์‰ฝ๊ณ  ๋Œ€ํ˜• ์ปค๋„์—์„œ ์‚ฌ์šฉ๋˜๋Š” reparameterizing๊ณผ ๊ฐ™์€ ์ถ”๊ฐ€ ๋ณด์กฐ ๊ธฐ์ˆ ์„ ํ”ผํ•  ์ˆ˜ ์žˆ๋‹ค.

2. InternImage Model

DCNv3๋ฅผ ํ•ต์‹ฌ ์—ฐ์‚ฐ์ž๋กœ ์‚ฌ์šฉํ•˜๋ฉด ์ƒˆ๋กœ์šด ์งˆ๋ฌธ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค.

DCNv3๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋ฌด์—‡์ธ๊ฐ€?

๋จผ์ € ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ๋ธ”๋ก๊ณผ ๊ธฐํƒ€ ํ•„์ˆ˜ ๋ ˆ์ด์–ด์— ๋Œ€ํ•œ ๋””ํ…Œ์ผ์„ ์ œ์‹œํ•œ ๋‹ค์Œ ์ด๋Ÿฌํ•œ ๊ธฐ๋ณธ ๋ธ”๋ก์— ๋Œ€ํ•œ ๋งž์ถคํ˜• ์Šคํƒœํ‚น ์ „๋žต์„ ํƒ์ƒ‰ํ•˜์—ฌ InternImage๋ผ๋Š” ์ƒˆ๋กœ์šด CNN ๊ธฐ๋ฐ˜ foundation model์„ ๊ตฌ์„ฑํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์ œ์•ˆ๋œ ๋ชจ๋ธ์— ๋Œ€ํ•œ scaling-up ๊ทœ์น™์„ ์—ฐ๊ตฌํ•˜์—ฌ ์ฆ๊ฐ€ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ๋ถ€ํ„ฐ ์ด๋“์„ ์–ป๋Š”๋‹ค.

Basic block

๊ธฐ์กด CNN์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” bottleneck๊ณผ ๋‹ฌ๋ฆฌ ๊ธฐ๋ณธ ๋ธ”๋ก์˜ ์„ค๊ณ„๋Š” LN, ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ (FFN), GELU๋ฅผ ๋น„๋กฏํ•œ ๊ณ ๊ธ‰ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์žฅ์ฐฉ๋œ ViT์— ๋” ๊ฐ€๊น๋‹ค. ์ด ๋””์ž์ธ์€ ๋‹ค์–‘ํ•œ ๋น„์ „ task์—์„œ ํšจ์œจ์ ์ธ ๊ฒƒ์œผ๋กœ ์ž…์ฆ๋˜์—ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ ์—ฐ์‚ฐ์ž๋Š” DCNv3์ด๊ณ  ์ƒ˜ํ”Œ๋ง ์˜คํ”„์…‹๊ณผ modulation ์Šค์ผ€์ผ์€ separable convolution (3×3 depth-wise convolution ํ›„ linear projection)์„ ํ†ตํ•ด ์ž…๋ ฅ feature ๐‘ฅ๋ฅผ ์ „๋‹ฌํ•˜์—ฌ ์˜ˆ์ธก๋œ๋‹ค. ๋‹ค๋ฅธ ๊ตฌ์„ฑ ์š”์†Œ์˜ ๊ฒฝ์šฐ ๊ธฐ๋ณธ์ ์œผ๋กœ post-normalization ์„ค์ •์„ ์‚ฌ์šฉํ•˜๊ณ  ์ผ๋ฐ˜ trasnformer์™€ ๋™์ผํ•œ ์„ค๊ณ„๋ฅผ ๋”ฐ๋ฅธ๋‹ค.

Stem & downsampling layers

๊ณ„์ธต์  feature map์„ ์–ป๊ธฐ ์œ„ํ•ด convolution stem๊ณผ ๋‹ค์šด์ƒ˜ํ”Œ๋ง ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ feature map์˜ ํฌ๊ธฐ๋ฅผ ๋‹ค๋ฅธ ์Šค์ผ€์ผ๋กœ resizeํ•œ๋‹ค. Stem ๋ ˆ์ด์–ด๋Š” ์ž…๋ ฅ ํ•ด์ƒ๋„๋ฅผ 4๋ฐฐ๋กœ ์ค„์ด๊ธฐ ์œ„ํ•ด ์ฒซ ๋ฒˆ์งธ stage ์•ž์— ๋ฐฐ์น˜๋œ๋‹ค. 2๊ฐœ์˜ convolution, 2๊ฐœ์˜ LN ๋ ˆ์ด์–ด, 1๊ฐœ์˜ GELU ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋‘ convolution์˜ ์ปค๋„ ํฌ๊ธฐ๋Š” 3, stride๋Š” 2, padding์€ 1์ด๋ฉฐ ์ฒซ ๋ฒˆ์งธ convolution์˜ ์ถœ๋ ฅ ์ฑ„๋„์€ ๋‘ ๋ฒˆ์งธ์˜ ์ ˆ๋ฐ˜์ด๋‹ค. ์œ ์‚ฌํ•˜๊ฒŒ, ๋‹ค์šด์ƒ˜ํ”Œ๋ง ๋ ˆ์ด์–ด๋Š” stride๊ฐ€ 2์ด๊ณ  padding์ด 1์ธ 3×3 convolution์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ทธ ๋‹ค์Œ์—๋Š” ํ•˜๋‚˜์˜ LN ๋ ˆ์ด์–ด๊ฐ€ ์žˆ๋‹ค. ๋‘ stage ์‚ฌ์ด์— ์žˆ์œผ๋ฉฐ ์ž…๋ ฅ feature map์„ 2๋ฐฐ๋กœ ๋‹ค์šด์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค.

Stacking rules

InternImage์˜ ํ•„์ˆ˜ hyperparameter๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ๐ถ๐‘–๐‘–๋ฒˆ์งธ stage์˜ ์ฑ„๋„ ์ˆ˜
  • ๐บ๐‘–๐‘–๋ฒˆ์งธ stage์—์„œ DCNv3์˜ ๊ทธ๋ฃน ์ˆ˜
  • ๐ฟ๐‘–๐‘–๋ฒˆ์งธ stage์—์„œ basic block์˜ ์ˆ˜

๋ณธ ๋…ผ๋ฌธ์˜ ๋ชจ๋ธ์€ 4-stage์ด๊ธฐ ๋•Œ๋ฌธ์— 12๊ฐœ์˜ hyperparameter์— ์˜ํ•ด ๋ณ€ํ˜•์ด ๊ฒฐ์ •๋˜๋Š”๋ฐ, ๊ฒ€์ƒ‰ ๊ณต๊ฐ„์ด ๋„ˆ๋ฌด ์ปค์„œ ์™„๋ฒฝํ•˜๊ฒŒ ์—ด๊ฑฐํ•˜๊ณ  ์ตœ์ ์˜ ๋ณ€ํ˜•์„ ์ฐพ์„ ์ˆ˜ ์—†๋‹ค. ๊ฒ€์ƒ‰ ๊ณต๊ฐ„์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ 4๊ฐœ์˜ ๊ทœ์น™์„ ๋‘”๋‹ค.

  1. ๐ถ๐‘–=2๐‘–−1๐ถ1
  2. ๐บ๐‘–=๐ถ๐‘–/๐ถ′
  3. ๐ฟ1=๐ฟ2=๐ฟ4
  4. ๐ฟ1≤๐ฟ3

์ฒซ ๋ฒˆ์งธ ๊ทœ์น™์€ stage 1์˜ ์ฑ„๋„ ์ˆ˜ ๐ถ1์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ๋งˆ์ง€๋ง‰ ์„ธ stage์˜ ์ฑ„๋„ ์ˆ˜๋ฅผ ๋งŒ๋“ค๊ณ , ๋‘ ๋ฒˆ์งธ ๊ทœ์น™์€ stage๋“ค์˜ ์ฑ„๋„ ์ˆ˜์— ๋”ฐ๋ฅธ ๊ทธ๋ฃน ์ˆ˜๋ฅผ ์ง€์ •ํ•œ๋‹ค. ์„ธ ๋ฒˆ์งธ ๊ทœ์น™๊ณผ ๋„ค ๋ฒˆ์งธ ๊ทœ์น™์€ ์Šคํƒœํ‚น ํŒจํ„ด์„ “AABA”๋กœ ๋‹จ์ˆœํ™”ํ•˜๋ฉฐ, stage 1, 2, 4์˜ ๋ธ”๋ก ์ˆ˜๊ฐ€ ๋™์ผํ•˜๊ณ  stage 3๋ณด๋‹ค ์ž‘๋„๋ก ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ทœ์น™์„ ์‚ฌ์šฉํ•˜๋ฉด 4๊ฐœ์˜ hyperparameter (๐ถ1,๐ถ′,๐ฟ1,๐ฟ3)๋งŒ ์‚ฌ์šฉํ•˜์—ฌ InternImage ๋ณ€ํ˜•์„ ์ •์˜ํ•  ์ˆ˜ ์žˆ๋‹ค.

3์ฒœ๋งŒ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์žˆ๋Š” ๋ชจ๋ธ์„ origin์œผ๋กœ ์„ ํƒํ•˜๊ณ  ๐ถ1์„ {48,64,80}๋กœ, ๐ฟ1์„ {1,2,3,4,5}๋กœ, ๐ถ′์„ {16,32}๋กœ discretizeํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์›๋ž˜์˜ ๊ฑฐ๋Œ€ํ•œ ๊ฒ€์ƒ‰ ๊ณต๊ฐ„์ด 30๊ฐœ๋กœ ์ค„์–ด๋“ค๊ณ  ImageNet์—์„œ ํ•™์Šต ๋ฐ ํ‰๊ฐ€ํ•˜์—ฌ 30๊ฐœ์˜ ๋ณ€ํ˜• ์ค‘์—์„œ ์ตœ์ƒ์˜ ๋ชจ๋ธ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค. ์‹ค์ œ๋กœ๋Š” ์ตœ์ƒ์˜ hyperparameter ์„ค์ • (64,16,4,18)์„ ์‚ฌ์šฉํ•˜์—ฌ origin model์„ ์ •์˜ํ•˜๊ณ  ์ด๋ฅผ ๋‹ค๋ฅธ ์Šค์ผ€์ผ๋กœ ํ™•์žฅํ•œ๋‹ค.

Scaling rules

์•ž์„œ ์–ธ๊ธ‰ํ•œ ์ œ์•ฝ ์กฐ๊ฑด์—์„œ ์ตœ์ ์˜ origin model์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ ์Šค์ผ€์ผ๋ง ๊ทœ์น™์„ ์ถ”๊ฐ€๋กœ ํƒ์ƒ‰ํ•œ๋‹ค. ํŠนํžˆ ๊นŠ์ด ๐ท=3๐ฟ1+๐ฟ3์™€ ๋„ˆ๋น„ ๐ถ1์˜ ๋‘ ๊ฐ€์ง€ ์Šค์ผ€์ผ๋ง ์ฐจ์›์„ ๊ณ ๋ คํ•˜๊ณ  ๐›ผ๐›ฝ, composite factor ๐œ™๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‘ ์ฐจ์›์„ ์Šค์ผ€์ผ๋งํ•œ๋‹ค. ์Šค์ผ€์ผ๋ง ๊ทœ์น™์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์“ธ ์ˆ˜ ์žˆ๋‹ค.

๐ท′=๐›ผ๐œ™๐ท,๐ถ1′=๐›ฝ๐œ™๐ถ1where๐›ผ≥1,๐›ฝ≥1,๐›ผ๐›ฝ1.99≈2

์—ฌ๊ธฐ์„œ 1.99๋Š” InternImage์— ๊ณ ์œ ํ•˜๋ฉฐ ๊นŠ์ด๋ฅผ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•˜๊ณ  ๋ชจ๋ธ ๋„ˆ๋น„๋ฅผ ๋‘ ๋ฐฐ๋กœ ๋Š˜๋ ค ๊ณ„์‚ฐํ•œ๋‹ค. ์ €์ž๋“ค์€ ์‹คํ—˜์œผ๋กœ ์ตœ์ƒ์˜ ์Šค์ผ€์ผ๋ง ์„ค์ •์ด ๐›ผ=1.09๐›ฝ=1.36์ด๋ผ๋Š” ๊ฒƒ์„ ์•Œ์•„๋ƒˆ์œผ๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค๋ฅธ ํŒŒ๋ผ๋ฏธํ„ฐ ์Šค์ผ€์ผ์„ ConvNeXt์™€ ๋ณต์žก๋„๊ฐ€ ์œ ์‚ฌํ•˜๊ฒŒ ๊ตฌ์„ฑํ•˜์—ฌ InternImage-T/S/B/L/XL๋กœ InternImage ๋ณ€ํ˜•์„ ๊ตฌ์„ฑํ•˜์˜€๋‹ค. ์ €์ž๋“ค์€ ๋Šฅ๋ ฅ์„ ์ถ”๊ฐ€๋กœ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด 10์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์žˆ๋Š” ๋” ํฐ InternImage-H๋ฅผ ๊ตฌ์ถ•ํ–ˆ์œผ๋ฉฐ ๋งค์šฐ ํฐ ๋ชจ๋ธ ๋„ˆ๋น„๋ฅผ ์ˆ˜์šฉํ•˜๊ธฐ ์œ„ํ•ด ๊ทธ๋ฃน ์ฐจ์› ๐ถ′์„ 32๋กœ ๋ณ€๊ฒฝํ–ˆ๋‹ค. ๊ตฌ์„ฑ์€ ํ‘œ 1์— ์š”์•ฝ๋˜์–ด ์žˆ๋‹ค.

Experiment

1. Image Classification

๋‹ค์Œ์€ ImageNet validation set์—์„œ์˜ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋‚ธ ํ‘œ์ด๋‹ค.

2. Object Detection

๋‹ค์Œ์€ COCO val2017์—์„œ์˜ object detection๊ณผ instance segmentation ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋‚ธ ํ‘œ์ด๋‹ค.

๋‹ค์Œ์€ COCO val2017๊ณผ test-dev์—์„œ SOTA detector์™€ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ ํ‘œ์ด๋‹ค.

3. Semantic Segmentation

๋‹ค์Œ์€ ADE20K validation set์—์„œ์˜ semantic segmentation ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋‚ธ ํ‘œ์ด๋‹ค.

4. Ablation Study

๋‹ค์Œ์€ convolution ๋‰ด๋Ÿฐ ๊ฐ„์˜ ๊ณต์œ  ๊ฐ€์ค‘์น˜์™€ ๋น„๊ณต์œ  ๊ฐ€์ค‘์น˜์— ๋Œ€ํ•˜ํ˜€ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ๋น„๊ตํ•œ ๊ทธ๋ž˜ํ”„์ด๋‹ค.


๋‹ค์Œ์€ DCNv3์˜ 3๊ฐ€์ง€ ์ˆ˜์ • ์‚ฌํ•ญ์— ๋Œ€ํ•œ ablation ๊ฒฐ๊ณผ์ด๋‹ค.


๋‹ค์Œ์€ ์—ฌ๋Ÿฌ stage์˜ ์—ฌ๋Ÿฌ ๊ทธ๋ฃน์— ๋Œ€ํ•œ ์ƒ˜ํ”Œ๋ง ์œ„์น˜๋ฅผ ์‹œ๊ฐํ™” ํ•œ ๊ฒƒ์ด๋‹ค.

๋ฐ˜์‘ํ˜•