๐ก ๐ก ๋ณธ ๋ฌธ์๋ 'HyperNeRF : A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields (ACM TG 2021)' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ด๋ค.
ํด๋น ๋ ผ๋ฌธ์ ๊ด๊ด๊ฐ์ด ์ฐ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ 3D Reconstruction์ ์งํํ๋ Task(unstructured tourist environments)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ ผ๋ฌธ์ด๋ค. ์ด๋ NeRF ๊ธฐ๋ฐ์ด ์๋ Gaussian Splatting ์ ํ์ฉํ์์ผ๋ฉฐ, Hierarchical Appearance Modeling๊ณผ Depth Regularization์ ์งํํ ๊ฒ์ด ํน์ง์ด๋ ์ฐธ๊ณ ํ๊ธฐ ๋ฐ๋๋ค.
- Project: https://hypernerf.github.io/
- Paper: https://arxiv.org/pdf/2106.13228
- Github: https://github.com/google/hypernerf
- Dataset: https://github.com/google/hypernerf/releases/tag/v0.1
Abstract
HyperNeRF์ ํต์ฌ์ ๊ธฐ์กด์ Nerfies(deformable-NeRF)์ template NeRF๋ฅผ ๊ณ ์ฐจ์์ canonical hyperspace template NeRF๋ก ๋ฐ๊พธ๊ณ ์ด hyperspace์ ์ขํ๋ฅผ ๊ตฌํ๋ ์๋ก์ด MLP(ambient splicing surface)๋ฅผ ๋์ ํ์ฌ scene์ deformation๋ฟ๋ง ์๋๋ผ topological ๋ณํ๊น์ง ์ ํํํ ์ ์๋ค๋ ์ ์ด๋ค.
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- Dynamic domain์์ neural radiance field๋ฅผ ์ ์ฉํ๋ค.
- latent deformation code๋ฅผ ํ์ฉํ์ฌ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ์ ๋ฐ์ํ๋ค.
- Nerfies ์์ Ambient surface slicing network๋ฅผ ์ถ๊ฐํ์ฌ ๋ณด๋ค ๊ณ ์ฐจ์์์ topological ๋ณํ๋ฅผ ๋ฐ์ํ๋ค.
๐ค Motivation
Neural Radiance Field๋ค์ training data์ ์๋ ์์ ์์ 3D scene์ ์์ฑ๋ ๋๊ฒ ๋ณต์ํ ์ ์์ด ์ต๊ทผ ๋ง์ ์ฐ๊ตฌ๋ค์ด ์์์ง๊ณ ์๋ค. NeRF๋ ์ ์ ์ธ scene์ calibrated camera๋ก ์ฐ์ data๋ฅผ ํ์๋ก ํด์ ์์ง์ด๋ ๋ฌผ์ฒด๋ฅผ ์ฐ์ ๋ฐ์ดํฐ๋ ๋ณต์์ ์ ๋ชปํ๋ค. ์ด๋ฅผ Deformable NeRF(Nerfies)๊ฐ ํด๊ฒฐํ์ง๋ง ๋ฌผ์ฒด์ ์์ ๋ณํ (topological change)๋ฅผ ๋๋ฐํ๋ ๋ฌผ์ฒด๋ค์ Nerfies๋ ์ ๋ณต์์ ๋ชปํ๋ค. ์ด์ ์ ์๋ค์ HyperNeRF๋ hyper-canonical space๋ฅผ ํ์ฉํด Deformable NeRF๋ฅผ ๊ณ ์ฐจ์์ผ๋ก ๊ฐ์ ธ๊ฐ ๋ฌผ์ฒด์ topological changes๊น์ง ์์ฑ๋ ๋๊ฒ ๋ณต์ํ๊ณ ์ ํ๋ค.
โฐTime-varying Shpaes ๋ชจ๋ธ๋ง
HyperNeRF์ methods๋ฅผ ๋ค์ด๊ฐ๊ธฐ ์์ ์ ์๋ค์ hyperNeRF๋ฅผ ์ง๊ด์ ์ผ๋ก ์ดํดํ ์ ์๋๋ก ๋๋ ์ํ์ ๋ชจ๋ธ Level set methods๋ฅผ ์๊ฐํ๋ค. HyperNeRF์ ์ง์ ์ ์ธ ์๋ฆฌ๊ฐ ์๋ hyperspace๋ฅผ ์๋ฅด๋ ambient surface๊ฐ ๋ฌด์์ธ์ง ๊ทธ๋ฆฌ๊ณ ์ ambient surface๋ฅผ ์ป๊ธฐ ์ํด MLP๋ฅผ ๋์ ํ๋์ง ์ดํด๋ฅผ ๋๋ ์๋จ์ด๊ธฐ์ ๊ฐ๋ณ๊ฒ ๋ณด๊ณ ๋์ด๊ฐ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
0. Level Set Methods
HyperNeRF์์ ๋ฌผ์ฒด์ ์์๋ณํ๋ฅผ ๊ณ ์ฐจ์์ ambient dimensions์ ํ์ฉํ์ฌ representํ๋๋ฐ level set method๋ ์ด์ ๋ํ ์ง๊ด์ ์ธ ์ดํด๋ฅผ ๋๋๋ค.
์ด๋ค ๋ฌผ์ฒด์ ํ๋ฉด์ ์ํ์ ์ผ๋ก ํํํ๊ณ ์ ํ ๋ ๋ณดํต ์ง์ ์ ์ธ ๋ฐฉ๋ฒ(i.e mesh) ํน์ ๊ฐ์ ์ ์ธ ๋ฐฉ๋ฒ(i.e level set of continuous function)์ ํ์ฉํ๋ค. ์ง์ ์ ์ธ ๋ฐฉ๋ฒ์ ๋ฌผ์ฒด๋ฅผ ์๋ฅด๋ ๋ฑ topological ๋ณํ๋ฅผ ๋ค๋ฃจ์ง ๋ชปํ์ง๋ง ๊ฐ์ ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์ด๋ฐ ๋ณํ๋ฅผ ์ฐ์์ ์ผ๋ก ๋ค๋ฃฐ ์ ์๊ธฐ ๋๋ฌธ์ ๋ฏธ๋ถ๊ฐ๋ฅํด์ผ ํ๋ gradient-based optimization method๋ค์ ์ ์ฉํ๋ค.
Level set method๋ ๋ฌผ์ฒด์ ํ๋ฉด์ ๊ฐ์ ์ ์ผ๋ก ํํํ๋ ๋ฐฉ๋ฒ์ค ํ๋๋ก 2D ํ๋ฉด()์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
์ฌ๊ธฐ์ ๋ signed-distance fucntion์ผ๋ก ํ๋ฉด ์์ ์์ ๊ฐ, ๋ฐ์ ์์ ๊ฐ์ ๊ฐ๋๋ค.
์ฌ๊ธฐ์ x,y ์ขํ ์ธ์ "ambient" ์ฐจ์()์ ์ถ๊ฐํ๊ฒ ๋๋ฉด 3D ํ๋ฉด ()๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
์ด๋ ํน์ ์ขํ์ ํด๋นํ๋ 2D ํ๋ฉด์ 3Dํ๋ฉด ( )๋ฅผ ํ๋ฉด์ผ๋ก ์๋ฅผ๋ ์ป์ด์ง๊ณ , ์ด ambient ์ฐจ์์ ์ฐจ์์๋ฅผ ๋๋ฆฌ๋ฉฐ representation์ ๋ค์ํ ํ ์ ์๊ฒ ๋๋ค.
3Dํน์ 2D ํ๋ฉด์ level-set method์์ ์ป๊ธฐ ์ํด์๋ ambient dimension์ surface๋ก slicingํด์ผํ๋ค. ์ด๋ ๋ค์๊ณผ ๊ฐ์ ๋๊ฐ์ง slicingํ๋ ๋ฐฉ๋ฒ์ด ์ ์๋๋ค.
1. Axis aligned slicing plane (AP)
- ๊ณ ์ฐจ์์ ์ถ๋ค์ ์์ง์ผ๋ก slicing ํ๊ธฐ ๋๋ฌธ์ ๊ฐ๊ฐ์ shape๋ฅผ ์ป๊ธฐ ์ํด ์ฌ๋ฌ๋ฒ ์๋ผ์ผํ๋ค
- ๊ณ ์ฐจ์ ๊ณต๊ฐ์ ๋นํจ์จ์ ์ธ ํ์ฉ
2. Defromable slicing surface (DS)
- Defromํ ์ ์๊ธฐ ๋๋ฌธ์ ๊ณ ์ฐจ์ ๊ณต๊ฐ์์์ ์์ ๋กญ๊ฒ slicing์ ํ ์ ์์ด information sharing์ด ๊ฐ๋ฅํ๋ค
- ๊ณ ์ฐจ์ ๊ณต๊ฐ์ compactํ๊ฒ ํํ์ด ๊ฐ๋ฅํ๋ค
Methods
HyperNeRF๋ ํฌ๊ฒ ์ธ๊ฐ์ง ๋คํธ์ํฌ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
- 1. Deformation field network
- 2. Ambient slicing surface network
- 3. Template NeRF (canonocal hyper-space)
1. Deformation field network
Deformation network๋ Nerfies์ deformation MLP์ ๋์ผํ๊ฒ 3D ๊ณต๊ฐ์์ ์ขํ๊ฐ์ positional encoding์ ๊ฑฐ์น ๊ฐ๋ค๊ณผ deformation latent code๊ฐ input์ผ๋ก ๋ค์ด๊ฐ rotation๊ณผ translation์ outputํ๋ค. ๊ทธ ํ, ์ด๋ฅผ ์ด์ฉํ์ฌ ๊ธฐ์กด์ 3D ๊ณต๊ฐ์ ์ขํ๊ฐ(observation space)์ ์๋ก์ด canonical space์ ๊ณต๊ฐ์ ์ขํ๊ฐ์ผ๋ก ๋ฐ๊พผ๋ค.
2. Ambient surface slicing network
Deformation network๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก observation space์ ์ขํ()์ deformation latent code()๋ฅผ MLP์ input์ผ๋ก ๋ฃ๊ณ ambient coordinate space์ ์ขํ()๋ฅผ outputํ๋ค. ๋ ๋์ ์ฐจ์(hyper-space)์ ambient dimensions๋ฅผ ์๋ฅด๋ surface๋ผ๊ณ ํด์ ๋ ์ ์์ผ๋ฉฐ ์ฌ๊ธฐ์ ambient dimensions๋ topological ๋ณํ๋ฅผ ๋ํ๋ด๋ ์ฐจ์์ด๋ผ๊ณ ์ง๊ด์ ์ผ๋ก ๋ฐ์ ๋๋ฆด ์ ์๋ค.
3. Hyper-space template
Nerfies์์๋ scene์ canonical-space template NeRF๋ฅผ ํ์ฉํ์ฌ ํํํ๋ค. HyperNeRF์์๋ ์ด๋ฅผ ๊ณ ์ฐจ์์ผ๋ก ์ฌ๋ ค Hyper-space template NeRF๋ฅผ ํ์ฉํด scene์ ํํํ๋ค. ๊ธฐ์กด Nerfies์ template NeRF์ ๋์ผํ์ง๋ง canonical space coordinates์ธ์ surface slicing network์์ output๋ ambient coordinate space์ ์ขํ()๋ฅผ input์ผ๋ก ๋ฐ๊ณ ์ถ๊ฐ๋ก viewing direction()์ appearance latent code ()๋ฅผ input์ผ๋ก ๋ฐ๋๋ค. Output์ผ๋ก rendering์ ์ํ density()์ RGB()๋ฅผ outputํ๋ค.
์ ์๋ค์ ๋ค์๊ณผ ๊ฐ์ ํํ์ ์ด๋ค.
Our idea is to embed the template NeRF in higher dimensions, where a slice taken by an intersecting high-dimensional slicing surface yields a full 3D NeRF.
Evaluation
Quantitative
Interpolation task์ Novel-view synthesis task์์์ NeRF, Nerfies, NV, ๊ทธ๋ฆฌ๊ณ NSFF๋ค๊ณผ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํตํด HyperNeRF๋ฅผ ํ๊ฐํ์๋ค.
1. Interpolation Task
2. Novel-view Synthesis Task
PSNR์ด๋ SSIM๊ฐ์ metrics๋ค์ small shifts๋ค์ ๋ฏผ๊ฐํ๊ณ ์ ๋ช ํ ์ด๋ฏธ์ง๋ณด๋ค ๋ธ๋ฌ๋ฆฌํ ์ด๋ฏธ์ง๋ฅผ ๋๊ฒ ํ๊ฐํ๊ณ SSIM์ ์ฌ๋๋ค์๊ฒ ๋ฑ๋ด๋ ์์ข์ ๋ถ๋ถ๋ค์ ์บ์นํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ quantitativeํ๊ฒ ํ๊ฐํ๊ธฐ ์ด๋ ต๋ค๊ณ ์ ์๋ค์ ์ฃผ์ฅํ๋ค. ์ด์ qualitativeํ ํ๊ฐ๋ฅผ ๊ฐ์ด ๋ณด์ฌ์ค๋ค.
Qualitative
1. Interpolation Task
Nerfies๊ฐ ํ์ ๋ณํ๋ฅผ ์ ํํํ์ง ๋ชปํ๊ณ ๋ธ๋ฌ๋ฆฌํ ๋ฐ๋ฉด HyperNeRF์ ํ์ ๋ณํ(topological changes)๋ฅผ ์ ํํํ๋ ๊ฒ์ ํ์ผ ํ ์ ์๋ค.
2. Novel-view Synthesis Task
์ค๋ฅธ์ชฝ ๋ถํฐ traing view, Novel view(GT), HyperNeRF, Nerfies, No deform, NSFF, NV, NeRF์ ๊ฒฐ๊ณผ๋ค์ธ๋ฐ ๊ฐ๊ฐ์ metric (PSNR/LPIPS)๋ฅผ ์ ์ด ๋๊ณ ๊ฐ์ฅ ์ข์๊ฑธ ๋นจ๊ฐ์์ผ๋ก ํ์ํ๋ค. NSFF๊ฐ PSNR ์ค์ฝ์ด๋ ๊ฐ์ฅ ์ข์ง๋ง ์๋นํ ๋ธ๋ฌ๋ฆฌํ๊ฑธ ํ์ธํ ์ ์๋ค. ๋ฐ๋ฉด HyperNeRF๋ Novel view๋ฅผ ํฐ artifacts์์ ์ ์ก์๋ด๋๊ฑธ ํ์ธ ํ ์ ์๋ค.
Discussion