๐ก ๐ก ๋ณธ ๋ฌธ์๋ 'IE-NeRF: Inpainting Enhanced Neural Radiance Fields in the Wild (Arxiv 2024)' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ด๋ค.
ํด๋น ๋ ผ๋ฌธ์ ๊ด๊ด๊ฐ์ด ์ฐ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ 3D Reconstruction์ ์งํํ๋ Task(unstructured tourist environments)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ ผ๋ฌธ์ด๋ค. ์ด๋ Ha-NeRF ๊ธฐ๋ฐ์ inpainting ๋ชจ๋์ ์ถ๊ฐํ์ฌ trasient object๋ฅผ ์ ๊ฑฐํ ๋ ผ๋ฌธ์ด๋ ์ฐธ๊ณ ํ๊ธฐ ๋ฐ๋๋ค.
- Paper: https://arxiv.org/abs/2407.10695
Abstract
NeRF๋ ์ ์ด๋ ์ค์ ์์ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ง๋ง, ๋์ ์ด๊ณ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ฅ๋ฉด์์ ํํ ๋ณผ ์ ์๋ transient object๋ก ์ธํด ๋ฌธ์ ๊ฐ ์๋ค.
์ฐ๋ฆฌ์ Inpainting Enhanced NeRF(IE-NeRF)๋ transient ๋ง์คํฌ๋ฅผ ํ์ฉํ์ฌ occlusions์ ํจ๊ณผ์ ์ผ๋ก ๋ฐฐ์ ํ์ฌ ๋ณผ๋ฅจ ๋ ๋๋ง ํ์ง์ ํฅ์์ํค๋ ์ธํ์ธํ ๋ชจ๋์ ์๊ฐํ๋ค. ๋ํ low-frequency transient components์ sparsity ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฃผํ์ ์ ๊ทํ๋ฅผ ํตํ ์๋ก์ด ํ๋ จ ์ ๋ต์ ์ ์ํ๋ค.
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- Ha-NeRF ๊ธฐ๋ฐ์ Network์ image inpainting์ผ๋ก in the wild ๋ ๋๋ง์ ์ํํ๋ค.
- Frequency Regulzrizationํ IPE๋ฅผ ์ฌ์ฉํ์ฌ ๋น ๋ฅธ ์ธํผ๋ฐ์ค์ transient ์์๋ฅผ ๋น ๋ฅด๊ฒ ๋ถ๋ฆฌ ๊ฐ๋ฅํ๋ค.
Related Works
Removing Objects From Neural Radiance Fields
RGB-D sequence data๋ก๋ถํฐ distractors ์ ๊ฑฐํ๋ค. RGB ์ด๋ฏธ์ง์ Depth ์ด๋ฏธ์ง์ LaMa inpainting์ ์ ์ฉํ๋ค. ์ดํ, NeRF ๋ชจ๋ธ ์ต์ ํํ๋ค.
SPIn-NeRF
NeRF ๊ธฐ๋ฐ์ 3D inpainting ๋ฐฉ๋ฒ๋ก ์ผ๋ก, image inpainting์ ํ ๋ occulsion์ ๋ํ ๊ฒ ๋ฟ๋ง ์๋๋ผ geometry๋ ๊ฐ์ด๋ํ๋ค(multi-view mask).
Methods
Network
Ha-NeRF์ ๋งค์ฐ ์ ์ฌํ ๊ตฌ์กฐ๋ก, input์ผ๋ก pos, dir๊ณผ Appearance Embedding์ ์ถ๊ฐ๋ก ๋ฃ์ด์ค๋ค. ์ด๋ Appearance Embedding์ reference image๋ฅผ CNN ํต๊ณผ์ํจ Vector๋ฅผ ์ฌ์ฉํ๋ค. Static Rendering, Mask Generation๊น์ง Ha-NeRF์ ๋์ผํ๋, MLP๋ฅผ ํ๋๋ง ์ฌ์ฉํ๋ ๋ถ๋ถ์ด ๋ค๋ฅด๋ค.
Inpainting
input์ผ๋ก appearance emb, pixel locations์ ๋ฃ์ด์ฃผ์ด Transient Mask๋ฅผ ์ถ์ถํ๋ค. ์ดํ pretrained LaMa ๋ชจ๋ ์ฌ์ฉํ์ฌ inpainting์ ์งํํ๋ค. LaMa ๋ชจ๋์ large mask์ robust ํ๋ฉฐ less param์ time efficientํ๋ค.
Optimization
Photometric(Scene) loss์ Transient loss๋ก ๊ตฌ์ฑ๋์ด์๋ค.
1) Photometric(Scene) loss
inpained image์ color์ coarse/fine rendered color ๊ฐ์ MSE
2) Transient loss
Static Scene์ GT์ ๋น๊ตํ๊ณ , Transient Scene์ Inpainted Color์ ๋น๊ตํ๋ค.
- first term: GT color์ rendered color๋ฅผ ๋น๊ตํจ์ผ๋ก์จ distractor ์กด์ฌํ๋์ง ํ๋จํ๋ค.
- second term: inpainted color์ rendered color๋ฅผ ๋น๊ตํจ์ผ๋ก์จ static and transient elements ๋ฒจ๋ฐ์ฑ์ ์กฐ์จํ๋ค.
- ์ด๋, The parameter λ is used to adjust the balance between the transient and static components
Integrated Positional Encoding (IPE)
Mip-NeRF์์ ์ฌ์ฉํ IPE๋ฅผ ์ฌ์ฉํ์ฌ conicla frustum์ผ๋ก multiscale representation ํ์ตํ๋ค. ์ด๋ high-frequency์ ๊ฐ์ธํ๋, low-frequency์์ distractor ์กด์ฌํ๋ ๊ฒฝ์ฐ ๋ฐ์ํ๋ค. ๋ฐ๋ผ์ PE๋ฅผ ์ ์ง์ ์ผ๋ก ์ ์ฉ(Regularization)ํ๋ RegFre-IPE๋ฅผ ํ์ฉํ๋ค.
Experiments
steadyํ ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ์ ์ฑ๋ฅ ๋น๊ต๋ง ๋ค๋ฃจ๊ณ ์๋ ์ ์ด ์์ฝ์ง๋ง, ์๋์ ์ ์ฑ์ ์ธ ํ๊ฐ ๊ฒฐ๊ณผ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ๋นํด ๋ฐ๋ฅ๋ฉด์ ์ ์ด๋ฆฌ๊ณ ์๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
transient components๋ฅผ renderingํ visibility map๋ ๋ค๋ฅธ NeRF ๋ฐฉ๋ฒ๋ก ์ ๋นํด ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๋ค๋ง ์๋ ์ค๋ฅธ์ชฝ์ ํ์ ๋ณด์ด๋ฏ์ด, RegFre-IPE(IPE + Regularization)๋ฅผ ์ฌ์ฉํ์ง ์๊ณ IPE๋ง ์ฌ์ฉํ ๊ฒฝ์ฐ Ha-NeRF์ ๋นํด์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒ์ ํ์ธํ ์ ์์ด ํด๋น ๋ฐฉ๋ฒ๋ก ์ด ๋ง์ ์ํํธ๊ฐ ์์์ง๋ ๋ชจํธํ๋ค. ๋ฌผ๋ก ์ ์ฑ์ ๊ฒฐ๊ณผ๋ ์ข์ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
์ถ๊ฐ๋ก Ablation Study๋ก IM: Independent MLP, SM: pre-defined instance segmentation model (MaskDINO)์ด๋ฉฐ, ๊ฒฐ๋ก ์ ์ผ๋ก๋ LaMa๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ฑ๋ฅ์ด ๋์๋ค.