[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] D-NeRF: Neural Radiance Fields for Dynamic Scenes (CVPR 2021)
๐ก ๐ก ๋ณธ ๋ฌธ์๋ 'D-NeRF: Neural Radiance Fields for Dynamic Scenes (CVPR 2021)' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ด๋ค.
๊ธฐ์กด์ NeRF๋ static dataset์ ๋ํด์ ์คํ์ ์งํํ๋ค. ์ด๋, dynaimcํ ๊ฐ์ฒด๋ค, ์์ง์ด๋ ๊ฐ์ฒด์ ๋ํด์ ํ์ต์ ์งํํ๋ค๋ฉด blur๊ฐ ๋ง์ด ์๊ธฐ๋ ๋จ์ ์ด ์์๋ค. D-NeRF๋ ์ด๋ฌํ NeRF์ ๋จ์ ์ ์ฐพ์์, t๋ผ๋ frame ์๊ฐ ๋ณ์๋ฅผ ํจ๊ป ์ฌ์ฉํด์ ๊ธฐ์กด์ 5D input์ด ์๋ 6D input์ผ๋ก ํ์ฉํ์ฌ ๋ชจ๋ธ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ฑํ๋ค. ๋ํ NeRF์ ๋ค๋ฅด๊ฒ ์๋ก์ด network(Deformation network)๋ฅผ ์ถ๊ฐํ์ฌ์, ๊ฐ์ฒด๋ฅผ ๋์ฑ ์ ํํํ ์ ์๋๋ก ํ์์ผ๋ ์ฐธ๊ณ ํ๊ธฐ ๋ฐ๋๋ค.
- Project: https://www.albertpumarola.com/research/D-NeRF/index.html
- Paper: https://arxiv.org/abs/2011.13961
- Github: https://github.com/albertpumarola/D-NeRF
- Dataset: https://www.dropbox.com/scl/fi/cdcmkufncwcikk1dzbgb4/data.zip
Introduction
๊ธฐ์กด์ NeRF๋ static dataset์ ๋ํด์ ์คํ์ ์งํํ๋ค. ์ด๋, dynaimcํ ๊ฐ์ฒด๋ค, ์์ง์ด๋ ๊ฐ์ฒด์ ๋ํด์ ํ์ต์ ์งํํ๋ค๋ฉด blur๊ฐ ๋ง์ด ์๊ธฐ๋ ๋จ์ ์ด ์์๋ค. D-NeRF๋ ์ด๋ฌํ NeRF์ ๋จ์ ์ ์ฐพ์์, t๋ผ๋ frame ์๊ฐ ๋ณ์๋ฅผ ํจ๊ป ์ฌ์ฉํด์ ๊ธฐ์กด์ 5D input์ด ์๋ 6D input์ผ๋ก ํ์ฉํ์ฌ ๋ชจ๋ธ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ฑํ๋ค.
6D input์ ๋ฐ๋ก network์ ๋ฃ๋ ๋ฐฉ์์ด ์๋๋ผ, ๋ ๊ฐ์ง์ module๋ก ๋๋์ด์ ์ฒซ๋ฒ์งธ๋ก๋ ์๊ฐ t์ผ ๋์ point์ canonical scene configuration์ point์ฌ์ด์ mapping์ ํ์ตํ๋ ํํธ์ ๋๋ฒ์งธ๋ก๋ canonical scene์์ radiance์ volume density๋ฅผ ๊ตฌํ๋ ํํธ๋ก ๋๋์ด ํ์ต์ ์งํํ๋ค.
** canonical scene configuration
canonical scene configuration์ด๋ผ๋ ๋ง์ด ๋ง์ด ๋์ค๋๋ฐ, ์ด๊ฑฐ๋ reference scene์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋ ๊ฒ ๊ฐ๊ณ , ํน๋ณํ t=0์ผ ๋์ scene์ ์๊ฐํ๋ฉด ๋๋ค. ์ฆ, ์์์ point ์ฌ์ด์ mapping์ t=a์ผ ๋, t=0์ผ ๋์ point๋ก๋ถํฐ ์ผ๋ง๋ transformation์ด ์ผ์ด๋ฌ๋์ง๋ฅผ measureํ๋ ๋ฐฉ๋ฒ.
์ด๋ ๊ฒ ํ์ต์ canonical scene์ ๋ํ ํ์ต๊ณผ scene flow์ ๋ํ ํ์ต์ผ๋ก ๋๋ ๊ฒฐ๊ณผ D-NeRF๋ camera view์ time component (= dynamic state of the scene)๋ฅผ ์ control ํ๋ฉด์ high-quality image๋ฅผ renderingํ ์ ์์๋ค๊ณ ํ๋ค.
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- Dynamic domain์์ neural radiance field๋ฅผ ์ ์ฉํ๋ค.
- Time์ ์ถ๊ฐ์ ์ธ input์ผ๋ก ์ฌ์ฉํ์ฌ object movement๋ฅผ renderingํ๋ค.
- ํ์ต ๊ณผ์ ์ Deformation network์ Canonical network์ผ๋ก ๋๋์ด ํจ์จ์ ์ผ๋ก renderingํ๋ค.
Methods
Model network
D-NeRF๋ NeRF์ ๋ค๋ฅด๊ฒ ํ๋์ MLP model๋ก ๊ตฌ์ฑ๋๊ฒ ์๋๋ผ, 2๊ฐ์ MLP network๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๋ฐ๋ก Deformation network์ Canonical network์ด๋ค. ๊ทธ๋ฆฌ๊ณ NeRF์ ๋ค๋ฅด๊ฒ frame์ ๋ํ ์๊ฐ ๋ณ์(t)๋ ํจ๊ป input์ผ๋ก ํ์ฉ๋๋ค. ๊ฐ๊ฐ์ network๋ฅผ ์์ธํ ์์๋ณด์!
1. Deformation network
time instant ์์์ scene๊ณผcanonical scene์ฌ์ด๋ฅผ mapping์ํค๋
Deformation network๋ฅผ ์ค๋ช ํ๊ธฐ ์ ์, canonical space๊ฐ ๋ฌด์์ธ์ง ๋จผ์ ์ ์ํ๊ณ ๊ฐ๊ฒ ๋ค. Canonical space๋ ์ฝ๊ฒ ๋งํด์, representative pose๋ฅผ ๊ฐ์ง๋ frame(t=0)์ด๋ผ๊ณ ํ ์ ์๋ค. ์ฆ, ๋ฌผ์ฒด์ ๋ํ์ ์ธ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ frame์ผ๋ก, ๋ ผ๋ฌธ์์๋ ์ฒซ๋ฒ์งธ ํ๋ ์(t=0)์ผ๋ก ์ค์ ํ์๋ค.
Deformation network์ ๋ชฉ์ ์ ํ์ฌ ๋ค์ด์จ ์์์ ์์ t์ ๋ํ input frame์ด representative pose(t=0)๊ณผ ๋น๊ตํ์ ๋ ์ขํ์ ๋ณํ์จ์ด ์ด๋์ ๋์ธ์ง ์์ธกํ๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ์์์ ๋ณด๋ ๋ชจ๋ธ network ๊ตฌ์กฐ์ฒ๋ผ, Deformation network๋ input์ผ๋ก (x,y,z,t)๋ฅผ ๋ฃ์ด์, (Δx,Δy,Δz)์ ๋ณํ์จ์ ์ป๋๋ค.
์์ ์๊ฐํ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด, x+Δx๋ผ๋ ํญ๋ชฉ์ด ์๋ค. ์ด๊ฒ์ ๊ฐ์ ์์์ด๋ฉด ๊ฐ์ฒด์ ๊ฐ์ ์ง์ ์ ๋ํ๋ด๋ ๊ฒ์ด๋ผ๊ณ ๋ณด๋ฉด ๋๋๋ฐ, ๊ฑฐ์ ๋์ผํ ์์น์ ๋์ผํ ์์์ด ์น ํด์ ธ์๋ค. ์ฆ, ๋ฌผ์ฒด๊ฐ ์์ง์ฌ๋, Deformation network๊ฐ ๋ณํ์จ์ ์ ํ์ธํด์ ์์ง์๊ณผ ์๊ด์์ด ๊ฐ์ฒด์ ๋์ผํ point๋ฅผ ์ ๋งคํํ ์ ์๋ค๋ ๋ป์ผ๋ก ํด์ํ ์ ์๋ค.
+) code๋ฅผ ์ดํด๋ณด๋ฉด, Deformation network์ ๋ค์ด๊ฐ๋ (x,y,z,t)๋ ์ ๋ถ positional embedding์ ์ ์ฉํ๋ค. (x,y,z)์ ๋ง์ฐฌ๊ฐ์ง๋ก t๋ํ L=10์ ์ ์ฉํด์ dimenstion์ด 20์ผ๋ก ํ์ฅ์ด ๋๋ค. (๋ง์ฝ ์๊ธฐ์์ ์ ํฌํจํ๊ณ ์๋ค๋ฉด 21)
๊ทธ๋ฆฌ๊ณ ๊ธฐ์กด์ NeRF ๊ตฌ์กฐ์ ๋๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ๋ช๊ฐ์ง ๋ค๋ฅธ ์ ์ ์ค๊ฐ์ density ์ถ๋ ฅ ๋ถ๋ถ๊ณผ ๋ง์ง๋ง layer๊ฐ 128์ด ์๋๋ผ๋ ์ ์ ๋์ด๋ค.
2. Canonical network
canonical configuration์ scene์ representํ๋
Canonical network๋ (x,y,z)๋ฅผ canonical space(t=0) ์์ ์ ์ผ๋ก ๋งคํ ์ํจ ํ (rgb, density)๋ฅผ ์ถ์ถํ๋ network์ด๋ค. NeRF ๋ชจ๋ธ๊ณผ ๋๊ฐ์ ๊ตฌ์กฐ๋ก ๋์ด์๋๋ฐ ๋ค๋ง input์ ๋ณํ๊ฐ ์ฝ๊ฐ ์๋ค.
(x,y,z)๋ฅผ t=0 ์ขํ๋ก ๋งคํ ์ํค๊ธฐ ์ํด์ (x+Δx, y+Δy, z+Δz)๋ฅผ ์ํํด์ฃผ๊ณ , ์ด ์ขํ์ camera parameters(θ, φ)๋ฅผ ํจ๊ป input ๋ฃ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์จ output์ผ๋ก (x,y,z)๋ฅผ rendering ํ๊ฒ ๋๋ค.
+) Canonical network์ code์ธ๋ฐ ๊ธฐ์กด NeRF ์ฝ๋์ 100% ๋์ผํ๋ค!
+) D-NeRF๋ end-to-end ๋ชจ๋ธ์ด๋ผ, Deformation network์ Canonical network๋ฅผ ๊ฐ์ด ํ์ตํ๋ค. ๋ํ NeRF์ ์์๋ coarse network์ fine network๋ ๊ฐ์ด ์ ์ฉํ๋ค. ์ฆ, D-NeRF๋ก ํ๋ฒ ๊ฒฐ๊ณผ๊ฐ ๋ฝ๊ณ (coarse network), ๊ฑฐ๊ธฐ์ ๋ค์ samplingํด์ D-NeRF(fine network)์ ๋ค์ ๋ฃ์ด์ค๋ค.
3. Volume rendering
Volume rendering ๋ฐฉ์์ ๊ธฐ์กด์ NeRF์ ๊ฐ๊ณ , ๋์ ์ camera ray์์ ๊ฐ point๊ฐ deformation network์ ์ํด canonical space๋ก mapping๋ ํ์ color์ density๋ฅผ ์ด์ฉํ๋ค.
Training loss๋ ์๋์ ๊ฐ๋ค.
Discussion
ํ์ค ์ธ๊ณ์์ scene rendering์ ์คํ๋ ค static๋ณด๋ค dynamic์ธ ๊ฒฝ์ฐ๊ฐ ๋น์ฐํ ๋ง๊ธฐ ๋๋ฌธ์ ์๊ฐ์ ๊ณ ๋ คํ representation์ด ๋น์ฐํ ์ค์ํด์ง๋ ๊ฒ ๊ฐ๋ค.
๋ค๋ง ์ด ์ฐ๊ตฌ๋ ์ ํด์ง ๊ณต๊ฐ์์ ์ ์ ์๋ camera parameter์ time์ด ์๋ ๋ฐ์ดํฐ์ ์ผ๋ก ์งํ๋์๊ธฐ ๋๋ฌธ์ ์ค์ ๋ก monocular video๋ฅผ ์ดฌ์ํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก 4D rendering์ ํ ์ ์๋ ์ฐ๊ตฌ๊ฐ ์๋ค๋ฉด ๋ ๊ณต๋ถํด๋ณผ ์์ ์ด๋ค.