[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] NeRF in the Wild(NeRF-W): NeRFwithRealWorld + Embedding - Neural Radiance Fields for Unconstrained Photo Collections (CVPR 2021 Oral)
๐ก ๐ก ๋ณธ ๋ฌธ์๋ 'Wild-GS: Real-Time Novel View Synthesis from Unconstrained Photo Collections (Arxiv 2024)' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ด๋ค.
ํด๋น ๋ ผ๋ฌธ์ ๊ด๊ด๊ฐ์ด ์ฐ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ 3D Reconstruction์ ์งํํ๋ Task(unstructured tourist environments)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ ผ๋ฌธ์ด๋ค. ์ด๋ NeRF ๊ธฐ๋ฐ์ด ์๋ Gaussian Splatting ์ ํ์ฉํ์์ผ๋ฉฐ, Hierarchical Appearance Modeling๊ณผ Depth Regularization์ ์งํํ ๊ฒ์ด ํน์ง์ด๋ ์ฐธ๊ณ ํ๊ธฐ ๋ฐ๋๋ค.
- Project: https://www.lerf.io/
- Paper: https://arxiv.org/abs/2303.09553
- Github: https://github.com/kerrj/lerf
- Dataset: https://drive.google.com/drive/folders/1vh0mSl7v29yaGsxleadcj-LCZOE_WEWB
Abstract
๊ธฐ์กด์ NeRF๋ staticํ subjects์ ๋ํด์๋ง ๋ค๋ฃจ์๋ค. ๋ฐ๋ผ์ variable illumination or transient occluders์ ๊ฐ์ ์ค์ ํ์์ ๋ค๋ฃฌ ์ฌ์ง์ ๋ํด์๋ ๋ค๋ฃจ์ง ์์๋ค. ๋ฐ๋ผ์ unstructured image collections์ผ๋ก ๋ถํฐ NeRF๋ฅผ ํตํด 3D Reconstruction์ ์ ์ฉํด๋ณด๊ฒ ๋ค.
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- Latent Appearance Modeling์ ์งํํ์ฌ ์ถ๋ ฅ์ Appearance ๋ณํ(์กฐ๋)๋ฅผ ์กฐ์ ํด๋ณด์
- Staticํ ๋คํธ์ํฌ์ Transientํ ๋คํธ์ํฌ๋ฅผ ๋ถ๋ฆฌํ์ฌ Transientํ Object๋ฅผ ์ ๊ฑฐํ์(+ Uncertainty)

Methods
Architecture
NeRF-W๋ NeRF์ Network์ ๋ง์ ์ฐจ์ด๋ฅผ ๊ฐ์ง๊ณ ์์ง ์๋ค. input๊ณผ output์ ๊ธฐ์ค์ผ๋ก ๋คํธ์ํฌ๋ฅผ ๋น๊ตํด๋ณธ ๊ฒฐ๊ณผ, ์๊น๋ก ํ์ด๋ผ์ดํธํด๋ ๋ถ๋ถ์ด ๊ฐ์์ผ๋ฉฐ, ๊ทธ ์ธ์ ๋ถ๋ถ๋ง ์ถ๊ฐ๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.

๊ทธ ์ธ์ ๋ถ๋ถ์ธ Appearance Embedding๊ณผ MLP_3์ ์ฎ์ฌ์๋ Transient Embedding, Uncertainty(ฮฒ)์ ๋ํด์๋ ์๋์์ ์ฐจ๋ก๋๋ก ์์๊ฐ๋ณด๋๋ก ํ๊ฒ ๋ค.
Static Network
Static Network๋ ๊ธฐ์กด์ NeRF ๋ชจ๋ธ์์ Appearance Embedding ๋ถ๋ถ๋ง ์ถ๊ฐ๋ก ๋ฃ์ด์ฃผ์๋ค.

Appearance Embedding์ mm.Embedding์ผ๋ก ์์ฑ๋ Embedding Vector๋ก, Random ์ด๊ธฐํ๋ ํ MLP๋ฅผ ํตํด ํ์ต๋๋ค. ์ด๋ ์ด๋ฏธ์ง์ Embedding Vector์ด๋ฉฐ, ์ถํ Appearance ์กฐ์ ์ ์ํด ํด๋น Embedding Vector๋ฅผ ์์ ํ๋ฉฐ Appearance ์กฐ์ ๊ฐ๋ฅํ๋ค(์คํ์ผ ์กฐ์ ).
์ด๋ Appearance๋ ํ์ต ๋ฐ์ดํฐ์ ์ ๋ํด์ ํ์ตํ๊ธฐ์, ํ ์คํธ์ ํ๊ฒ ์ด๋ฏธ์ง์ ๋ง๊ฒ Embedding Vertor ๋ด์์ ์ ์ฌํ ๋ฒกํฐ๋ฅผ ์ถ์ถํ์ฌ ์ฌ์ฉํ๋ค.
Transient Network
Transient Network๋ NeRF ๋ชจ๋ธ์ 3D shape ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์๋ MLP1 ๋ถ๋ถ์ ๊ทธ๋๋ ์ฌ์ฉํ๋, MLP3๋ฅผ ์ถ๊ฐ๋ก ๋์ด Transient Object(Occuluder)๋ฅผ ์ ๊ฑฐํ๋๋ก ํ์ตํ๋ค.

์ด๋ Network์ Output์ผ๋ก Uncertainty๋ ๋์ค๊ฒ ๋๋๋ฐ, ์ด๋ Loss Term์ผ๋ก๋ง ํ์ต๋๋ค. ์ด ์ญ์๋ color ๋ก pixel ๊ฐ์ ๋ ๋๋ง ํ๋ฏ, uncertainty๋ฅผ ๋ ๋๋งํ ์ ์๋๋ฐ ๊ฒฐ๊ณผ๋ ์๋์ ์์์ฒ๋ผ ๋ํ๋ผ ์ ์์ผ๋ฉฐ ์ถ์ถ๋ ๊ฒฐ๊ณผ๋ (e) Uncertainty ์ ๊ฐ๋ค.


Volume Rendering

Optimization

Implementation Details
- COLMAP์ ์ด์ฉํ์ฌ Camera Pose ์ถ์
- ์ด 300,000ํ ๋ฐ๋ณต, batch size 2048, 8๊ฐ Nvidia V100 GPU ์ด์ฉ
Experimental

