Study: Artificial Intelligence(AI)/AI: 3D Vision
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] PETR : Position Embedding Transformation for Multi-View 3D Object Detection (ECCV 2022)
DrawingProcess
2024. 7. 12. 05:39
๋ฐ์ํ
๐ก ๋ณธ ๋ฌธ์๋ 'PETR : Position Embedding Transformation for Multi-View 3D Object Detection (ECCV 2022)' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ ๋๋ค.
ํด๋น ๋ ผ๋ฌธ์ CLIP ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ language embedding์ NeRF ์์ ์ง์ด๋ฃ์ด NeRF๋ฅผ Multi Modal๋ก ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ๋ ผ๋ฌธ์ด๋ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.
- Paper: https://arxiv.org/abs/2203.05625
- Github: https://github.com/megvii-research/PETR
Contribution

- DETR ๊ณ์ด์ Detection ๋ชจ๋ธ๋ค์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์
- DETR3D ๋ 3D Object Detection์ ์ํ ๋ชจ๋ธ์ธ๋ฐ, 2D-3D Transformation ๊ณผ์ ์์ ๋ฌธ์ ๋ฐ์
- 1. Reference Point ์ ์์ธก ์ขํ๊ฐ ์ ํํ์ง ๋ชปํจ
- 2. Projection๋ ์ด๋ฏธ์ง Feature๋ง ๋ณด๊ธฐ ๋๋ฌธ์, Global Representation์ํ์ด ํ๋ฆ
- 3D ์ขํ๋ฅผ ์ด์ฉํ Position Embedding Transformation ์ ์
- (a) DETR์ query์ 2D Positioning Embedding (PE)๊ฐ ๋ฐ๋ก ๋ค์ด๊ฐ.
- (b) Query๋ก ๋ถํฐ ๋ง๋ค์ด์ง reference point๋ฅผ ์ด๋ฏธ์ง feature์ ํฌ์์์ผ feature๋ฅผ sampling.
- (c) 2D feature ์ 3D PE๋ฅผ ํจ๊ป encoding ํ์ฌ 3D aware feature ๋ฅผ ๋ง๋ค๊ณ , query์ decoding.
PETR overall Architecture

- Multi-view ์ด๋ฏธ์ง๋ฅผ Backbone์ ํตํด 2D Feature ์ถ์ถ
- 3D Meshigrid ํํ์ Camera Frustum Sace ์์ฑ
- Frustum ์ ์ด์ฉํ์ฌ 3D World Space Coordinate ๋ก ๋ณํ
- 3D Position Encoder์์ 3D Position Aware Feature ์ถ์ถ
- Object Query ์ Cross-Attention
- ์ต์ข ๊ฒฐ๊ณผ(3D box + class) ์์ธก
1. Multi-view ์ด๋ฏธ์ง๋ฅผ Backbone์ ํตํด 2D Feature ์ถ์ถ (ex, resnet50)
2. 3D Meshigrid ํํ์ Camera Frustum Space ์์ฑ
์ด๋ฏธ์ง๋ก๋ถํฐ Frustum ์์ฑ

- ์ด๋ฏธ์ง Coordinate ์ Depth ๐_๐ ๋ฅผ ์ถ๊ฐํ์ฌ Frustum ๐_๐^๐ ์ ๋ง๋ฆ
- ๐ข_๐, ๐ฃ_๐ ๋ ๐_๐์ ํด๋นํ๋ ์ด๋ฏธ์ง ์ขํ๋ฅผ ๋ปํจ
- Frustum์ ๊ฐ ์ด๋ฏธ์ง์์์ ์ขํ๊ฐ์ ๊ฐ์ง๊ณ ์์

3์ฐจ์ ์ขํ์์ Muti-view์ ๋ํ Frustum์ ํํํ๊ธฐ ์ํด์ 3D World Space๋ก ๋ณํ์ ํด ์ฃผ์ด์ผ ํจ
- Frustum์ด ๊ฐ์ง๊ณ ์๋ ์ด๋ฏธ์ง ์ขํ๊ฐ์ผ๋ก 3์ฐจ์์ ํํํ๊ธฐ์ ์๊ณก์ด ์๊ธฐ ๋๋ฌธ์, 3D World ์ขํ๋ก ๋ณํ ํ์
3. Frustum ์ ์ด์ฉํ์ฌ 3D World Space Coordinate ๋ก ๋ณํ

- Frustum ์ ๋ณํ ํ๋ ฌ์ ๊ณฑํ์ฌ x,y,z 3D World ์ขํ๋ก ๋ณํ ํ [-1, 1]๋ก Normalize
- ๐พ_๐ - 3D์์ i๋ฒ์งธ ์นด๋ฉ๋ผ Frustum์ผ๋ก ๋ณํ
- ๐ฅ_๐๐๐, ๐ฅ_๐๐๐ฅ, ๐ฆ_๐๐๐, ๐ฆ_๐๐๐ฅ : 3D ์์ ํํํ๊ณ ์ ํ๋ x,y ์ต์/์ต๋ ๊ฐ

4. 3D Position Encoder์์ 3D position aware feature ์ถ์ถ


- 2D Feature ์ [1x1 Conv] ์ ํตํด ์ธ์ฝ๋ฉ
- 3D Coordinate ์ [FC-ReLU-FC] ์ ํตํด ์ธ์ฝ๋ฉ
- ๋์ ๋ํ์ฌ 3D position ์ด ๋ฐ์๋ feature๋ฅผ ์ถ์ถ ํ flatten
5. Object Query ์ Cross-Attention ๋ณํ

- Query Generator - Object Query ์์ฑ
- ๋จผ์ , 3D ์์์ Learnable Anchor Points ์ Uniform ํ๊ฒ ์์ฑ
- Anchor ์ 3D ์ขํ ์์ MLP๋ฅผ ํตํด Object Query ์์ฑ
- ์์ฑ๋ Query ์ 3D-aware feature ์ Cross Attention
6. ์์ฑ๋ Query์ 3D Position-aware Feature๋ฅผ key, value๋ก ํ์ฌ DETR3D Decoder์ ๋ฃ์ด ์ต์ข 3D box ์์ธก
Positional Embedding Analysis

๋นจ๊ฐ ์ ์ random ํ๊ฒ sampling ํ ์ ์ด๊ณ , ์ค๋ฅธ์ชฝ ์ฌ์ฏ์ฅ์ ์ด๋ฏธ์ง๋ sampling ๋ ์ ๊ณผ์ similiarity๋ฅผ ๋ถ์ํ ๊ฒฐ๊ณผ. ๋ ธ๋์์ผ์๋ก ๋์ similarity๋ฅผ ๋ณด์ฌ์ค
- Front view ์ random ํ ์ขํ๋ฅผ ๊ฐ ๋ค๋ฅธ view ์์ similarity ๋ถ์
- ๊ฐ๊น์ด ์์ญ์์ similarity ๊ฐ ๋์
- Positional Embedding ์ด ๋ค๋ฅธ view๋ผ๋ฆฌ์ correlation ์ ๋ง๋ฆ
- ์ ์ํ๋ Positional Embedding ์ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์์์ ๋ปํจ
Experiments
ํด๋น ๋ชจ๋ธ์ nuscens dataset์์ ์ฑ๋ฅ์ ๊ฒ์ฆํจ. 6์ฅ์ multi-view image๋ฅผ ์ธํ์ผ๋ก ๋ฐ์ 3์ฐจ์ ๋ฌผ์ฒด์ ์์น ๋ฐ ์ข ๋ฅ๋ฅผ ๊ฒ์ถํ๋ Task ์ํ.

- โ - trained with external data, โก - test time augmentation
- PETR์ ๊ธฐ์กด SOTA์ ๋ชจ๋ธ๋ค๋ณด๋ค ์ข์ NDS, mAP, mAVE์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
- DETR3D๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค์ผ๋ก์จ ์ ์ํ๋ Positioning Embedding์ ํจ๊ณผ๋ฅผ ์ ์ฆ
Ablation Study
2D์ MV๋ฅผ ์ฌ์ฉํ ๋๋ณด๋ค 3D๋ง์ ์ฌ์ฉํ ๋ ๋ ํ์คํ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๋ชจ๋ ์ฌ์ฉํ๋ฉด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณผ ์ ์์

- 2D โ 2D Positioning Embedding
- MV โ Multi-view Position Embedding
- 3D โ 3D Positioning Embedding

- 1x1 conv๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ MLP๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค
- 3x3 conv๋ ์ฃผ๋ณ์ ์์นํ coordinate ์ ๋ณด์ ๊ด๋ จ๋ feature๋ฅผ aggregateํ๊ณ ์ ํจ์ธ๋ฐ, ์ด๋์ ๊ฒฐ๊ณผ๋ ์ข์ง ๋ชปํจ
- ์ด๋ semanticํ ์ ๋ณด๊ฐ position ์ ๋ณด๋ฅผ ๋ํํ๋๋ฐ ํฌ๊ฒ ์ค์ํ์ง ์๊ณ , ๊ฐ ๊ฐ๋ณ์ ์ขํ๊ฐ์ด ๋ํ๋๋ ๊ฒ์ด ์ค์ํ ๊ฒ์ ๋ปํจ.
๋ฐ์ํ