๐ก ๋ณธ ๋ฌธ์๋ '[2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: YOLO'์ ๋ํด ์ ๋ฆฌํด๋์ ๊ธ์ ๋๋ค.
One Stage Detector์ด์ Detection ๋ชจ๋ธ์ ๊ทผ๋ณธ์ธ YOLO ๋ชจ๋ธ์ ๋ํด ์ ๋ฆฌํ์์ผ๋ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.
Introduction: ๊ธฐ์กด์ ํ๊ณ
์ด๋ฒ YOLO ๊ฐ์์์๋ ๊ธฐ์กด ๊ฐ์ฒด ํ์ง ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ YOLO์ ํต์ฌ ๊ฐ๋ ๊ณผ ๊ตฌ์กฐ, ๊ทธ๋ฆฌ๊ณ ์ฅ๋จ์ ์ด ์ฌ๋ ์๊ฒ ๋ค๋ค์ก๋ค. ์ ํต์ ์ธ ๋ฐฉ์์ ๊ฐ์ฒด ํ์ง์ ๋ถ๋ฅ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ํ๋์ด ์ฐ์ฐ๋์ด ๋ง๊ณ ์ต์ ํ๊ฐ ์ด๋ ค์ ์ผ๋ฉฐ, ์ด๋ฏธ์ง์ ์ ์ฒด ๋งฅ๋ฝ ์ ๋ณด๋ฅผ ํ์ฉํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์์๋ค. YOLO๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํด๋์ค๋ฅผ ๋์์ ํ๊ท(Regression) ๋ฌธ์ ๋ก ์ ์ํ๋ ์๋ ํฌ ์๋ ์์คํ ์ด์ง ๋ชจ๋ธ์ ๋์ ํ๋ค. ์ด๋ก ์ธํด ์ฒ๋ฆฌ ์๋๊ฐ ๋นจ๋ผ์ ธ ์ค์๊ฐ ํ์ง๊ฐ ๊ฐ๋ฅํด์ก๊ณ , ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ํ์ฉํ์ฌ ๋ณด๋ค ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์๋ค.
Method: Network Design
YOLO๋ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ํ์ต ๊ณผ์ ์์ S×S ๊ทธ๋ฆฌ๋๋ก ๋๋๊ณ , ๊ฐ ๊ทธ๋ฆฌ๋ ์ ๋ง๋ค ์ฌ๋ฌ ๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๊ทธ์ ํด๋นํ๋ 5๊ฐ์ ๊ฐ(์ค์ฌ ์ขํ, ๋๋น, ๋์ด, ์ ๋ขฐ๋)์ ์์ธกํ๋ค. ์ฌ๊ธฐ์ ์ ๋ขฐ๋๋ ๊ฐ์ฒด ์กด์ฌ ํ๋ฅ ๊ณผ IoU์ ๊ณฑ์ผ๋ก ์ ์๋๋ฉฐ, ํด๋์ค ํ๋ฅ ์ ๊ฐ ๊ทธ๋ฆฌ๋ ์ ๋น ํ๋์ ํ๋ฅ ๋ถํฌ๋ก ์์ธกํ๋ค. ์ด ์ค๊ณ๋ ๊ฐ์ฒด๊ฐ ์๋ ์์ญ์ ๋ํด ๋ถํ์ํ ์ฐ์ฐ์ ์ค์ด๊ณ false positive๋ฅผ ๊ฐ์์ํค๋ ํจ๊ณผ๊ฐ ์๋ค. ์ต์ข ์ ์ผ๋ก Detection Score๋ฅผ ํตํด ๋ฐ์ค ์ ํ๊ณผ ํด๋์ค ๊ฒฐ์ ์ ์ํํ๋ฉฐ, NMS(Non-Maximum Suppression)๋ฅผ ์ ์ฉํด ์ค๋ณต ๋ฐ์ค๋ฅผ ์ ๊ฑฐํ๋ค.
Method: Training
๋ชจ๋ธ ํ์ต์ ์ฌ์ ํ์ต๋ CNN์ ๊ธฐ๋ฐ์ผ๋ก ์ถ๊ฐ์ ์ธ ๊ณ์ธต์ ์์ ์งํ๋๋ฉฐ, ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ 224×224์์ 448×448๋ก ํ์ฅํ์ฌ ๋์ ํด์๋์์ ํ์ตํ๋ค. ์์ค ํจ์๋ ์ขํ ์์ธก, ์ ๋ขฐ๋ ์์ธก, ํด๋์ค ํ๋ฅ ์์ธก์ ๋ชจ๋ ํฌํจํ๋ ๊ตฌ์กฐ๋ก, ๋ก์ปฌ๋ผ์ด์ ์ด์ ์ค๋ฅ๋ฅผ ์ค์ด๊ธฐ ์ํด ์ขํ ์์ธก์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ค. ๋๋น์ ๋์ด๋ ์๋์ ์ธ ํฌ๊ธฐ ๋ณํ์ ๋ฏผ๊ฐํ๊ธฐ ๋๋ฌธ์ ๋ฃจํธ๋ฅผ ์ทจํด ์ค์ฐจ๋ฅผ ๋ณด์ ํ์ผ๋, ์๋ฒฝํ ํด๊ฒฐ์๋ ํ๊ณ๊ฐ ์์๋ค. ๋ํ ๊ฐ์ฒด๊ฐ ์๋ ์ ์ ๋ํด์๋ ์์ ๊ฐ์ค์น๋ฅผ ์ ์ฉํ์ฌ ํ์ต ์ ๋ถํ์ํ ์ํฅ์ด ์ต์ํ๋๋๋ก ํ๋ค.
Experimental
YOLO๋ ๊ธฐ์กด ๋ฐฉ์ ๋๋น ๋น ๋ฅธ ์๋์ ๋ฎ์ false positive ๋น์จ์ ์๋ํ์ง๋ง, ํ๋์ ๊ทธ๋ฆฌ๋ ์ ์ ์ฌ๋ฌ ๊ฐ์ฒด๊ฐ ์์ ๊ฒฝ์ฐ ํ์ง ์ฑ๋ฅ์ด ๋จ์ด์ง๊ณ , ๋ค์ด์ํ๋ง์ผ๋ก ์ธํ ํด์๋ ์ ํ์ ๋ก์ปฌ๋ผ์ด์ ์ด์ ์ฑ๋ฅ ์ ํ๊ฐ ํ๊ณ๋ก ์ง์ ๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๋ค์ํ ๋๋ฉ์ธ, ํนํ ํ์ต ๋ฐ์ดํฐ์ ๋ค๋ฅธ ๋ถ์ผ์ ๋ฐ์ดํฐ์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋ ๋ชจ๋ธ๋ก ํ๊ฐ๋๋ค. ๊ฐ์์์๋ ์ด๋ฌํ ๊ตฌ์กฐ์ ํน์ฑ๊ณผ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก YOLO์ ์ฑ๋ฅ ๋ถ์๊ณผ ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ํ ํ ๋ก ์ด ์ด์ด์ก๋ค.
Discussion
- ๋คํธ์ํฌ๋ก ๋ฝํ๋ 7x7์ ์์ํ ์์ฒด๋ก ๋ณด๋ฉด 7x7๋ก ๋๋ ์ ์งํํ ๊ฒ์ด ์๋, ํ์ตํด๋ณด๊ณ ํต๊ณผ์์ผ 7x7๋ก ๋ฝ์ผ๋ 7x7๋ก ๋๋ ์ ์งํํ ๊ฒ๊ณผ ๊ฐ๋ค๋ ๊ฒ ์๋๊ฐ? → ๋ง์ง๋ง์ด 7x7 tensor ํ์์ผ๋ก ๋์ค๊ธฐ ๋๋ฌธ์, ์ ์ฒด image๋ฅผ 7 x 7๋ก ๋๋ ์ ๋ถ์ํ ๊ฒ๊ณผ ๊ฐ์ ์ญํ ์ ํ๋ค.
- Loss function์ ๊ตฌ์ฑํ ๋ ์ ๊ตณ์ด ์ ๊ณฑ์ ํด์ loss๋ฅผ ํค์ฐ๋ ๊ฑฐ์ง? → ์ต์ ํ ์ ๋ฏธ๋ถ์ ํธ๋ฆฌ์ฑ์ ์ํด ์ ๊ณฑ์ ์ทจํจ.
- ์ค๋ธ์ ํธ๊ฐ ์กด์ฌํ์ง ์๋ GT๋ ๋ญ์ง? → C: confidence score๋ฅผ ๊ฐ์ง๊ณ ํ๋จํ๊ธฐ์ GT๋ ๊ตณ์ด ํ์ํ์ง ์์ ๊ฒ ๊ฐ๋ค.
- ๋ค๋ฅธ ๋ชจ๋ธ์ ๋นํด ์ ์ผ๋ฐํ๊ฐ ์๋๋ ๊ฒ์ธ์ง? → ์ ์ญ์ ์ธ ํน์ง์ ๋ค ํ์ตํด๋ฒ๋ฆฌ๋ฉด ์์น ๊ด๊ณ์ ๊ฐ์ ๋งฅ๋ฝ ์ ๋ณด๋ฅผ ๊ฐ์ด ํ์ตํ ์ ์์ด์ ์ผ๋ฐํ๊ฐ ์๋๋ค.
- width์ height์ ์ ๊ทํ๋ฅผ ํ๊ฒ ๋๋ฉด ์ด๋ฏธ scale์ด ์์์ง๋๋ฐ, ์ root๊น์ง ์ทจํ ๊ฒ์ผ๊น? → ์ ๊ทํ๋ฅผ ํ๊ณ ๋ฃจํธ๋ฅผ ์ ์ฉํ๋ ์ค์ผ์ผ์ด ๋ฐ์์ด ์๋๋ค. ๋ฃจํธ๋ฅผ ์ ์ฉํ๊ณ ์ ๊ทํ๋ฅผ ์งํํ๋ ํธ์ด ์ค์ผ์ผ์ ๋ฐ์ํ์ฌ ์ณ๋ฐ๋ฅธ ์ ๊ทผ๋ฒ ๊ฐ๋ค.
- ๋ง์ง๋ง output tensor์ channel ๊ฐ์๊ฐ ์ 30์ธ๊ฐ? → grid cell ๋ง๋ค์ class ํ๋ฅ ๋ถํฌ(Class 20๊ฐ) + Bounding box 2๊ฐ๋ง๋ค 5๊ฐ ์งํ์ฉ ์์ธก ⇒ 30๊ฐ
- YOLO๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ข์ ์ด์ ๊ฐ ๋ฌด์์ธ๊ฐ?
- → randomํ๊ฒ ์์น๋ฅผ ์ถ์ฒํ๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ YOLO๋ ์ด๋ฏธ์ง์ ์ ์ฒด์ ์ธ ๋งฅ๋ฝ์ ๋ณด๊ณ ์์น์ ๋ถ๋ฅ๋ฅผ ํ๊ธฐ ๋๋ฌธ์
- ๊ทธ๋ ๋ค๋ฉด YOLO๋ฅผ ์ด๋ป๊ฒ ๋ฐ์ ์ํฌ ์ ์์๊น?
- Grid๋ฅผ ๋ ๋ง์ด ๋๋์ด์ ์์ ๊ฐ์ฒด๋ค์ด๋ ๋ชจ์ฌ์๋ ๊ฐ์ฒด๋ค์ ๋ ์ ํ์งํ ์ ์์ง ์์๊น
'Study: Artificial Intelligence(AI) > AI: 2D Vision(Det, Seg, Trac)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: Generative Models (0) | 2025.08.19 |
|---|---|
| [Survey] Semantic 3D Reconstruction ๊ด๋ จ ๋ด์ฉ ์ ๋ฆฌ (0) | 2025.08.13 |
| [2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: R-CNN, Faster R-CNN (4) | 2025.08.04 |
| [2D Vision] 2D Point Tracking: co-tracker ์ฌ์ฉ๋ฒ (0) | 2025.04.24 |
| [๋ ผ๋ฌธ๋ฆฌ๋ทฐ] DINO: Emerging Properties in Self-Supervised Vision Transformers (ICCV 2021) (2) | 2024.11.21 |