[논문 리뷰] IE-NeRF: NeRFwithRealWorld + Ha-NeRF + Inpainting - Inpainting Enhanced Neural Radiance Fields in the Wild (Arxiv 2024)
💡 💡 본 문서는 'IE-NeRF: Inpainting Enhanced Neural Radiance Fields in the Wild (Arxiv 2024)' 논문을 정리해놓은 글이다.
해당 논문은 관광객이 찍은 데이터셋을 활용하여 3D Reconstruction을 진행하는 Task(unstructured tourist environments)를 해결하기 위한 논문이다. 이는 Ha-NeRF 기반에 inpainting 모듈을 추가하여 trasient object를 제거한 논문이니 참고하기 바란다.
- Paper: https://arxiv.org/abs/2407.10695
Abstract
NeRF는 제어된 설정에서 인상적인 결과를 보였지만, 동적이고 시간에 따라 변하는 장면에서 흔히 볼 수 있는 transient object로 인해 문제가 있다.
우리의 Inpainting Enhanced NeRF(IE-NeRF)는 transient 마스크를 활용하여 occlusions을 효과적으로 배제하여 볼륨 렌더링 품질을 향상시키는 인페인팅 모듈을 소개한다. 또한 low-frequency transient components의 sparsity 문제를 해결하기 위해 주파수 정규화를 통한 새로운 훈련 전략을 제안한다.
이 논문이 가지는 contribution 중 가장 메인이 되는 부분을 정리해보면 다음과 같다.
- Ha-NeRF 기반의 Network에 image inpainting으로 in the wild 렌더링을 수행했다.
- Frequency Regulzrization한 IPE를 사용하여 빠른 인퍼런스와 transient 요소를 빠르게 분리 가능했다.
Related Works
Removing Objects From Neural Radiance Fields
RGB-D sequence data로부터 distractors 제거한다. RGB 이미지와 Depth 이미지에 LaMa inpainting을 적용한다. 이후, NeRF 모델 최적화한다.
SPIn-NeRF
NeRF 기반의 3D inpainting 방법론으로, image inpainting을 할때 occulsion에 대한 것 뿐만 아니라 geometry도 가이드한다(multi-view mask).
Methods
Network
Ha-NeRF와 매우 유사한 구조로, input으로 pos, dir과 Appearance Embedding을 추가로 넣어준다. 이때 Appearance Embedding은 reference image를 CNN 통과시킨 Vector를 사용한다. Static Rendering, Mask Generation까지 Ha-NeRF와 동일하나, MLP를 하나만 사용하는 부분이 다르다.
Inpainting
input으로 appearance emb, pixel locations을 넣어주어 Transient Mask를 추출한다. 이후 pretrained LaMa 모듈 사용하여 inpainting을 진행한다. LaMa 모듈은 large mask에 robust 하며 less param에 time efficient하다.
Optimization
Photometric(Scene) loss와 Transient loss로 구성되어있다.
1) Photometric(Scene) loss
inpained image의 color와 coarse/fine rendered color 간의 MSE
2) Transient loss
Static Scene은 GT와 비교하고, Transient Scene은 Inpainted Color와 비교한다.
- first term: GT color와 rendered color를 비교함으로써 distractor 존재하는지 판단한다.
- second term: inpainted color와 rendered color를 비교함으로써 static and transient elements 벨런싱을 조율한다.
- 이때, The parameter λ is used to adjust the balance between the transient and static components
Integrated Positional Encoding (IPE)
Mip-NeRF에서 사용한 IPE를 사용하여 conicla frustum으로 multiscale representation 학습한다. 이는 high-frequency에 강인하나, low-frequency에서 distractor 존재하는 경우 발생했다. 따라서 PE를 점진적으로 적용(Regularization)하는 RegFre-IPE를 활용했다.
Experiments
steady한 방법론들과의 성능 비교만 다루고 있는 점이 아쉽지만, 아래의 정성적인 평가 결과 다른 방법론에 비해 바닥면을 잘 살리고 있는 것을 확인할 수 있었다.
transient components를 rendering한 visibility map도 다른 NeRF 방법론에 비해 좋은 성능을 보이는 것을 확인할 수 있다.
다만 아래 오른쪽의 표에 보이듯이, RegFre-IPE(IPE + Regularization)를 사용하지 않고 IPE만 사용한 경우 Ha-NeRF에 비해서도 성능이 떨어지는 것을 확인할 수 있어 해당 방법론이 많은 임펙트가 있을지는 모호하다. 물론 정성적 결과는 좋은 것을 확인할 수 있었다.
추가로 Ablation Study로 IM: Independent MLP, SM: pre-defined instance segmentation model (MaskDINO)이며, 결론적으로는 LaMa를 사용한 모델이 가장 성능이 높았다.