[논문리뷰] PETR : Position Embedding Transformation for Multi-View 3D Object Detection (ECCV 2022)

Study: Artificial Intelligence(AI)/AI: 3D Vision

[논문리뷰] PETR : Position Embedding Transformation for Multi-View 3D Object Detection (ECCV 2022)

DrawingProcess 2024. 7. 12. 05:39

💡 본 문서는 'PETR : Position Embedding Transformation for Multi-View 3D Object Detection (ECCV 2022)' 논문을 정리해놓은 글입니다.
해당 논문은 CLIP 같은 멀티모달 모델의 language embedding을 NeRF 안에 집어넣어 NeRF를 Multi Modal로 확장 가능성을 보여준 논문이니 참고하시기 바랍니다.
- Paper: https://arxiv.org/abs/2203.05625
- Github: https://github.com/megvii-research/PETR

Contribution

DETR 계열의 Detection 모델들이 좋은 성능을 보여주고 있음
DETR3D 는 3D Object Detection을 위한 모델인데, 2D-3D Transformation 과정에서 문제 발생
- 1. Reference Point 의 예측 좌표가 정확하지 못함
- 2. Projection된 이미지 Feature만 보기 때문에, Global Representation수행이 힘듦
3D 좌표를 이용한 Position Embedding Transformation 제안
- (a) DETR은 query와 2D Positioning Embedding (PE)가 따로 들어감.
- (b) Query로 부터 만들어진 reference point를 이미지 feature에 투영시켜 feature를 sampling.
- (c) 2D feature 와 3D PE를 함께 encoding 하여 3D aware feature 를 만들고, query와 decoding.

PETR overall Architecture

Multi-view 이미지를 Backbone을 통해 2D Feature 추출
3D Meshigrid 형태의 Camera Frustum Sace 생성
Frustum 을 이용하여 3D World Space Coordinate 로 변환
3D Position Encoder에서 3D Position Aware Feature 추출
Object Query 와 Cross-Attention
최종 결과(3D box + class) 예측

1. Multi-view 이미지를 Backbone을 통해 2D Feature 추출 (ex, resnet50)

2. 3D Meshigrid 형태의 Camera Frustum Space 생성

이미지로부터 Frustum 생성

이미지 Coordinate 에 Depth 𝑑_𝑗 를 추가하여 Frustum 𝑝_𝑗^𝑚 을 만듦
- 𝑢_𝑗, 𝑣_𝑗 는 𝑑_𝑗에 해당하는 이미지 좌표를 뜻함
Frustum은 각 이미지에서의 좌표값을 가지고 있음

3차원 좌표에서 Muti-view에 대한 Frustum을 표현하기 위해선 3D World Space로 변환을 해 주어야 함

Frustum이 가지고 있는 이미지 좌표값으로 3차원에 표현하기엔 왜곡이 있기 때문에, 3D World 좌표로 변환 필요

3. Frustum 을 이용하여 3D World Space Coordinate 로 변환

Transformation to 3D World Space from Frustum

Frustum 에 변환 행렬을 곱하여 x,y,z 3D World 좌표로 변환 후 [-1, 1]로 Normalize
- 𝐾_𝑖 - 3D에서 i번째 카메라 Frustum으로 변환
- 𝑥_𝑚𝑖𝑛, 𝑥_𝑚𝑎𝑥, 𝑦_𝑚𝑖𝑛, 𝑦_𝑚𝑎𝑥 : 3D 에서 표현하고자 하는 x,y 최소/최대 값