[논문 리뷰] D-NeRF: Neural Radiance Fields for Dynamic Scenes (CVPR 2021)

💡 💡 본 문서는 'D-NeRF: Neural Radiance Fields for Dynamic Scenes (CVPR 2021)' 논문을 정리해놓은 글이다.
기존의 NeRF는 static dataset에 대해서 실험을 진행했다. 이때, dynaimc한 객체들, 움직이는 객체에 대해서 학습을 진행한다면 blur가 많이 생기는 단점이 있었다. D-NeRF는 이러한 NeRF의 단점을 찾아서, t라는 frame 시간 변수를 함께 사용해서 기존의 5D input이 아닌 6D input으로 활용하여 모델 네트워크를 구성했다. 또한 NeRF와 다르게 새로운 network(Deformation network)를 추가하여서, 객체를 더욱 잘 표현할 수 있도록 하였으니 참고하기 바란다.
- Project: https://www.albertpumarola.com/research/D-NeRF/index.html
- Paper: https://arxiv.org/abs/2011.13961
- Github: https://github.com/albertpumarola/D-NeRF
- Dataset: https://www.dropbox.com/scl/fi/cdcmkufncwcikk1dzbgb4/data.zip

Introduction

기존의 NeRF는 static dataset에 대해서 실험을 진행했다. 이때, dynaimc한 객체들, 움직이는 객체에 대해서 학습을 진행한다면 blur가 많이 생기는 단점이 있었다. D-NeRF는 이러한 NeRF의 단점을 찾아서, t라는 frame 시간 변수를 함께 사용해서 기존의 5D input이 아닌 6D input으로 활용하여 모델 네트워크를 구성했다.

6D input을 바로 network에 넣는 방식이 아니라, 두 가지의 module로 나누어서 첫번째로는 시간 t일 때의 point와 canonical scene configuration의 point사이의 mapping을 학습하는 파트와 두번째로는 canonical scene에서 radiance와 volume density를 구하는 파트로 나누어 학습을 진행한다.

** canonical scene configuration
canonical scene configuration이라는 말이 많이 나오는데, 이거는 reference scene이라고 생각하면 될 것 같고, 특별히 t=0일 때의 scene을 생각하면 된다. 즉, 위에서 point 사이의 mapping은 t=a일 때, t=0일 때의 point로부터 얼마나 transformation이 일어났는지를 measure하는 방법.

이렇게 학습을 canonical scene에 대한 학습과 scene flow에 대한 학습으로 나눈 결과 D-NeRF는 camera view와 time component (= dynamic state of the scene)를 잘 control 하면서 high-quality image를 rendering할 수 있었다고 한다.

이 논문이 가지는 contribution 중 가장 메인이 되는 부분을 정리해보면 다음과 같다.

Dynamic domain에서 neural radiance field를 적용했다.
Time을 추가적인 input으로 사용하여 object movement를 rendering했다.
학습 과정을 Deformation network와 Canonical network으로 나누어 효율적으로 rendering했다.

Methods

Model network

D-NeRF는 NeRF와 다르게 하나의 MLP model로 구성된게 아니라, 2개의 MLP network로 구성되어 있다. 바로 Deformation network와 Canonical network이다. 그리고 NeRF와 다르게 frame에 대한 시간 변수(t)도 함께 input으로 활용된다. 각각의 network를 자세히 알아보자!

1. Deformation network

time instant 에서의 scene과canonical scene사이를 mapping시키는

Deformation network를 설명하기 전에, canonical space가 무엇인지 먼저 정의하고 가겠다. Canonical space는 쉽게 말해서, representative pose를 가지는 frame(t=0)이라고 할 수 있다. 즉, 물체의 대표적인 모습을 보여주는 frame으로, 논문에서는 첫번째 프레임(t=0)으로 설정하였다.

Deformation network의 목적은 현재 들어온 임의의 시점 t에 대한 input frame이 representative pose(t=0)과 비교했을 때 좌표의 변화율이 어느정도인지 예측하는 것이다. 그래서 위에서 보는 모델 network 구조처럼, Deformation network는 input으로 (x,y,z,t)를 넣어서, (Δx,Δy,Δz)의 변화율을 얻는다.

위의 시각화 이미지를 보면, x+Δx라는 항목이 있다. 이것은 같은 색상이면 객체의 같은 지점을 나타내는 것이라고 보면 되는데, 거의 동일한 위치에 동일한 색상이 칠해져있다. 즉, 물체가 움직여도, Deformation network가 변화율을 잘 확인해서 움직임과 상관없이 객체의 동일한 point를 잘 매핑할 수 있다는 뜻으로 해석할 수 있다.

+) code를 살펴보면, Deformation network에 들어가는 (x,y,z,t)는 전부 positional embedding을 적용한다. (x,y,z)와 마찬가지로 t또한 L=10을 적용해서 dimenstion이 20으로 확장이 된다. (만약 자기자신을 포함하고 있다면 21)

그리고 기존의 NeRF 구조와 똑같은 구조를 가지고 있지만, 몇가지 다른 점은 중간의 density 출력 부분과 마지막 layer가 128이 아니라는 점 정도이다.

2. Canonical network

canonical configuration의 scene을 represent하는

Deformatio network and Canonical network

Canonical network는 (x,y,z)를 canonical space(t=0) 위의 점으로 매핑 시킨 후 (rgb, density)를 추출하는 network이다. NeRF 모델과 똑같은 구조로 되어있는데 다만 input의 변화가 약간 있다.

(x,y,z)를 t=0 좌표로 매핑 시키기 위해서 (x+Δx, y+Δy, z+Δz)를 수행해주고, 이 좌표와 camera parameters(θ, φ)를 함께 input 넣는다. 그리고 나온 output으로 (x,y,z)를 rendering 하게 된다.

+) Canonical network의 code인데 기존 NeRF 코드와 100% 동일하다!

+) D-NeRF는 end-to-end 모델이라, Deformation network와 Canonical network를 같이 학습한다. 또한 NeRF에 있었던 coarse network와 fine network도 같이 적용한다. 즉, D-NeRF로 한번 결과값 뽑고(coarse network), 거기서 다시 sampling해서 D-NeRF(fine network)에 다시 넣어준다.

3. Volume rendering

Volume rendering 방식은 기존의 NeRF와 같고, 대신에 camera ray위의 각 point가 deformation network에 의해 canonical space로 mapping된 후의 color와 density를 이용한다.

Training loss는 아래와 같다.

Discussion

현실 세계에서 scene rendering은 오히려 static보다 dynamic인 경우가 당연히 많기 때문에 시간을 고려한 representation이 당연히 중요해지는 것 같다.

다만 이 연구도 정해진 공간에서 잘 정의된 camera parameter와 time이 있는 데이터셋으로 진행되었기 때문에 실제로 monocular video를 촬영하고 이를 바탕으로 4D rendering을 할 수 있는 연구가 있다면 더 공부해볼 예정이다.

저작자표시 비영리 변경금지

'Study: Artificial Intelligence(AI) > AI: 3D Vision' 카테고리의 다른 글

[논문 리뷰] HyperNeRF : A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields (ACM TG 2021) (0)	2024.11.29
[논문 리뷰] Nerfies: Deformable Neural Radiance Fields (ICCV 2021) (0)	2024.11.28
[논문리뷰] Spacetime: Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis (CVPR 2024) (0)	2024.11.19
[논문 리뷰] RobustNeRF: NeRFwithRealWorld + Regularization - Ignoring Distractors with Robust Losses(CVPR 2023 Highlights) (0)	2024.11.18
[논문 리뷰] HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting (CVPR 2024) (0)	2024.11.17

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31