๐ก ๐ก ๋ณธ ๋ฌธ์๋ 'Nerfies: Deformable Neural Radiance Fields (ICCV 2021)' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ด๋ค.
ํด๋น ๋ ผ๋ฌธ์ ๊ด๊ด๊ฐ์ด ์ฐ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ 3D Reconstruction์ ์งํํ๋ Task(unstructured tourist environments)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ ผ๋ฌธ์ด๋ค. ์ด๋ NeRF ๊ธฐ๋ฐ์ด ์๋ Gaussian Splatting ์ ํ์ฉํ์์ผ๋ฉฐ, Hierarchical Appearance Modeling๊ณผ Depth Regularization์ ์งํํ ๊ฒ์ด ํน์ง์ด๋ ์ฐธ๊ณ ํ๊ธฐ ๋ฐ๋๋ค.
- Project: https://nerfies.github.io/
- Paper: https://arxiv.org/abs/2011.12948
- Github: https://github.com/google/nerfies
- Dataset: https://github.com/google/nerfies/releases/tag/0.1
Abstract
์ฐ๋ฆฌ๋ ๋ชจ๋ฐ์ผ ํฐ์ผ๋ก ์บ์ฃผ์ผํ๊ฒ ์ดฌ์ํ ์ฌ์ง/๋น๋์ค๋ฅผ ํ์ฉํ์ฌ ๋ณํ ๊ฐ๋ฅํ ์ฅ๋ฉด์ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑํ๊ฒ ์ฌ๊ตฌ์ฑํ ์ ์๋ ์ต์ด์ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ NeRF, Neural Radiance Fields์ ํ์ฅํ์ฌ, ๊ด์ธก๋ ๊ฐ ์ ์ ์ ๊ทํ๋ 5D NeRF๋ก ๋ณํํ๋ ์ถ๊ฐ์ ์ธ ์ฐ์ ์ฒด์ ๋ณํ ํ๋๋ฅผ ์ต์ ํํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ NeRF-like deformation field๊ฐ local minima์ ์ทจ์ฝํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ๊ณ , ์ขํ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ํ coarse-to-fine ์ต์ ํ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ ๋ณด๋ค ๊ฒฌ๊ณ ํ ์ต์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ํ, geometry processing์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ์๋ฆฌ๋ฅผ Nerfies์ ์ ์ฉํ์ฌ ๋ณํ ํ๋์ elastic regularization๋ฅผ ์ ์ํจ์ผ๋ก์จ ๊ฒฌ๊ณ ์ฑ์ ๋์ฑ ๊ฐ์ ํฉ๋๋ค.
์ฐ๋ฆฌ๋ ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์บ์ฃผ์ผํ๊ฒ ์ดฌ์ํ ์ ํผ ์ฌ์ง/๋น๋์ค๋ฅผ ๋ณํ ๊ฐ๋ฅํ NeRF ๋ชจ๋ธ(“nerfies”)๋ก ๋ณํํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ํผ์ฌ์ฒด๋ฅผ ์์์ ์์ ์์ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑํ๊ฒ ๋ ๋๋งํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํ๊ฐํ๊ธฐ ์ํด ๋ ๋์ ๋ชจ๋ฐ์ผ ํฐ์ผ๋ก ๊ตฌ์ฑ๋ rig๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐ ๋๊ธฐํ๋ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ผ๋ฉฐ, ๋์ผํ ํฌ์ฆ์ ๋ค๋ฅธ ์์ ์์ ํ๋ จ ๋ฐ ๊ฒ์ฆ ์ด๋ฏธ์ง๋ฅผ ์ป์์ต๋๋ค. ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ๋น๊ฐ์ฒด(non-rigid) ๋ณํ ์ฅ๋ฉด์ ์ถฉ์คํ ์ฌ๊ตฌ์ฑํ๊ณ , ๋ณด์ง ๋ชปํ ์์ ์์๋ ๋์ ์ถฉ์ค๋๋ก ๋ทฐ๋ฅผ ์ฌํํ ์ ์์์ ์ ์ฆํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- Dynamic domain์์ neural radiance field๋ฅผ ์ ์ฉํ๋ค.
- Appearance Embedding์ ํ์ฉํ์ฌ exposure์ white balance๋ฅผ ๋ฐ์ํ๋ค.
- Elastic Regularization์ ํฌํจํ ๋ค์ํ Regularization์ผ๋ก ์ ์ ํ์๋ค.
Methods
๊ธฐ์กด์ vanilla NeRF์ ๋ฌธ์ ์ ์ค ํ๋๋ object๊ฐ ๊ณ ์ ๋์ด ์์ด์ผ ํฉ๋๋ค. ์ฅ๋๊ฐ์ด๋ ๊ณ ์ ๋์ด ์๋ object๋ฉด ์๊ด์์ง๋ง ๋ง์ฝ ๋ด ๋ชจ์ต์ ์ฌ๋ฌ ๊ฐ๋์์ ์ ์นด๋ฅผ ์ฐ์ด Novel View๋ฅผ ๋ง๋ค๊ณ ์ถ๋ค๊ณ ํ์๋, ์์ ์์ง์ด์ง ์๊ณ ์ ์นด๋ฅผ ์ฐ๊ธฐ์๋ ๋ถ๊ฐ๋ฅํฉ๋๋ค. Neries๋ ๊ธฐ๋ณธ์ ์ธ NeRF flow์์ deformation field๋ฅผ ํตํ canonical frame์ ๋ง๋ค์ด์ ์์ง์ด๋ object์ novel view๋ฅผ ์ ํํํ ์ ์๋ค๋ ๊ฒ์ ๋ชฉ์ ์ด ์์ต๋๋ค.
object์ deformation(์์ญํ๋ฉด ์์ง์)์ robustํด์ง๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก canonical frame์ ๋์ ํ๊ณ explicitํ๊ฒ ๋งคํํ๋ ๊ฒ์ด ์๋ MLP๋ฅผ ํตํด implicitํ๊ฒ canonical frame์ผ๋ก ๋งคํํ์ฌ deformation์ ํด๊ฒฐํฉ๋๋ค. ๊ทธ ์ธ์๋ ์ฌ๋ฌ technic๋ค์ด ์๋๋ฐ ์๋์์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
Preprocessing
์ฐ์ , ๋คํธ์ํฌ์ ์ ๋ ฅ ๊ฐ์ผ๋ก ์ฌ์ฉํ ์ด๋ฏธ์ง๋ฅผ ์ป์ด๋ด์ผํฉ๋๋ค.
(a) ์ผ๋ จ์ ๋์์์์ ์ป์ด์ง ์ด๋ฏธ์ง๋ค ์ค์์ ํ๋ฆฟํ ์ด๋ฏธ์ง๋ฅผ ๋จผ์ ์ ๊ฑฐํด์ค๋๋ค.
(b) ์ด๋ ๊ฒ ์ป์ด์ง ์ด๋ฏธ์ง๋ค์ SFM(Structure From Motion)์ ์ด์ฉํ์ฌ ๊ฐ๊ฐ ์ด๋ฏธ์ง์ viewing direction์ ๊ตฌํ๊ณ , background๋ฅผ ๋ถ๋ฆฌํฉ๋๋ค.
Neural Deformation Fields
์์ ์ธ๊ธํ deformation field์ ๋ํด ์ค๋ช ํ๊ฒ ์ต๋๋ค. NeRF์ ๊ธฐ์กด ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ฐ์ด pixel ray์ ์ด point๋ฅผ samplingํ๊ณ sampling๋ point๋ค์ pose์ latent code(w)๋ฅผ concatํ์ฌ MLP๋ก ๊ตฌ์ฑ๋ deformation field๋ฅผ ํตํด canonical frame์์ position์ ๋ฝ์๋ ๋๋ค. (observation frame์์์ pose๋ NeRF์ ๋ง์ฐฌ๊ฐ์ง๋ก SfM๋ฑ์ ํตํด ๋ฏธ๋ฆฌ ์๊ณ ์์ด์ผํฉ๋๋ค.)
์ด๋ฅผ ์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค. point์ position๊ณผ latent vector๋ฅผ input์ผ๋ก ํ์ฌ deformation function์ ํตํด canonical frame์์ position์ ์ถ๋ ฅํ๊ณ , ๊ทธ ๊ฐ๊ณผ direction ๊ทธ๋ฆฌ๊ณ appearance latent vector๋ฅผ input์ผ๋ก ํ๋ MLP function์ input์ผ๋ก ๋ค์ด๊ฐ๊ฒ๋ฉ๋๋ค.vanilla NeRF์ ๋ค๋ฅด๊ฒ appearance latent๊ฐ ์ถ๊ฐ๋ฉ๋๋ค. ์ด๋ NeRF-W์์ ๋์จ ๊ธฐ๋ฒ์ธ๋ฐ exposure์ white balance๋ฅผ ๋ฐ์ํค์ํจ ์ ๋๋ค.
์ eq์ T์ ํด๋นํ๋ deformation field์ ๋ํด ์ข ๋ ๊ตฌ์ฒด์ ์ผ๋ก ๋ณด๋ฉด ๋ ผ๋ฌธ์์๋ displacement field๋ฐฉ๋ฒ๊ณผ SE3๋ฅผ ์ค๋ช ํฉ๋๋ค.
displacement field๋ simpleํ ๋ฐฉ๋ฒ์ผ๋ก observation field์์ canonical frame์ผ๋ก ๋งคํํ๋ ๋ฐฉ๋ฒ์ด ๋จ์ translation์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค.
SE3 field๋ ์ด์ ์ ํฌ์คํ ํ๋ Lie Group์ ์ด์ฉํ ๋ณํ๋ฐฉ๋ฒ์ ๋๋ค.
๊ฐ๋ตํ๊ฒ ์ค๋ช ํ๋ฉด, observation coordinate -> cononical coordinate์ผ๋ก ๋งคํํ๋ ์ต์ ์ se3์์ r,v(6์ฐจ์ ๋ฒกํฐ)๋ฅผ ์ค์ ํฉ๋๋ค. MLP๋ฅผ ํตํด ์ต์ ํ๋ฅผ ํ์ฌ ์ต์ ์ r,v๋ฅผ ๊ตฌํ๊ณ exponential map ์ฐ์ฐ์ ํตํด SE3์์ R|T๊ฐ์ ๊ตฌํ๊ฒ ๋ฉ๋๋ค.
์์ ์์ so3์ exponential map ์ฐ์ฐ์ผ๋ก rodrigues ๊ณต์์ ๋๋ค. ์ฌ๊ธฐ์ translation๋ถ๋ถ๊น์ง ์ฐ์ฐ์ ์ถ๊ฐํ์ฌ ์๋์ ๊ฐ์ด se3์ exponential map ์ฐ์ฐ์ ๊ตฌํ ์ ์์ต๋๋ค.
Lie Group์ ์ด์ฉํ ๋ณํ์ ์ฅ์ ์ Lie Groupํฌ์คํ ์์ ๋ณด์๋ฉด ๋๊ฒ ์ต๋๋ค.
Elastic Regularization
์์ ์ฌ์ง์ ๋ณด์๋ฉด elastic off์ ๊ฒฝ์ฐ ์ฝ์ ์๊ฒฝ๋ฑ์ ๋ชจ์์ด ๋ถ์์ฐ์ค๋ฌ์์ ์ ์ ์์ต๋๋ค. ์ด๋ 2D ์ฌ์ง์์๋ ๋ฌผ์ฒด๊ฐ ์๋ค๋ก ์์ง์ด๋ ๊ฒ๊ณผ ์ปค์ง๊ฑฐ๋ ์์์ง๋ ๊ฒ๊ณผ ๋์ผํ๊ฒ ํํ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ผ์ข ์ scale ambiguity์ ๊ฐ์ต๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด elastic energy๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ๊ธฐ๋ณธ ์ปจ์ ์ ์ด๋ ํ ํฝ์ ํน์ ํฌ์ธํธ์ deformation๊ณผ ์ฃผ๋ณ์ ๊ทธ๊ฒ์ด ๋น์ทํด์ผํ๋ค๋ ๊ฐ์ ์ ๋๋ค. ์ด๋ฅผ ์ํด ์์ฝ๋น์์ ํ์ฉํฉ๋๋ค. ์์ฝ๋น์์ ๋ฒกํฐ๋ ํ๋ ฌ์์์ ๊ฐ๊ฐ ํ๋ผ๋ฏธํฐ๋ก ํธ๋ฏธ๋ถํ ๊ณ์์ธ๋ฐ, ์ฆ ํด๋น ์์น์์์ ๊ธฐ์ธ๊ธฐ ํน์ ๋ณํ๋์ ์๋ฏธํฉ๋๋ค.
์์ฝ๋น์์ SVD๋ก decompositionํ์ฌ singular value๋ฅผ ์ ์ธํ ๋ ํ๋ ฌ์ ๊ณฑ์ ํตํด Rํ๋ ฌ์ ์ป๊ณ ์์ฝ๋น์๊ณผ R์ ์ฐจ์ด๋ฅผ loss function์ผ๋ก ์ ์ํฉ๋๋ค. ์๋์์ ์ฐธ๊ณ ํด์ฃผ์ธ์.
์์ loss function์ log๋ฅผ ์ทจํ๋ฉด ( log๋ ์ต๋ ์ต์์ ์ํฅ์ ์ฃผ์ง์์ผ๋ฏ๋ก ) ์๋์ ๊ฐ์ด ๊ฐ๋ตํ ์ํฌ์ ์๊ณ singular value log๊ฐ์ L2 norm์ผ๋ก loss function์ ์ ์ ํ ์์์ต๋๋ค.
์ ๋ฆฌํ๋ฉด observation field -> canonical field๋ก ๋งคํํ๋ ๊ณผ์ ์์ ๊ตฌํ ์์ฝ๋น์์ SVD์ค์ sigular value ๊ฐ์ ์ต์๋ก ํ๊ฒ ํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ธ๋ฐ, ๊ธฐํํ์ ์ผ๋ก ๊ณ ๋ฏผํด๋ณด๋ฉด SVD์์ U,V๋ ํ์ ์ ๋ํ๋ด๊ณ sigular value๋ ๊ฐ ์ถ์ ๋ํ scale์ ๋ํ๋ ๋๋ค. ์ฐ๊ทธ๋ฌ์ง๋ ์ ๋๋ฅผ ๋ํ๋ธ๋ค๊ณ ๋ณผ ์ ์์ฃ . ์ฆ, ์์ elastic loss๋ localํ ๋ฐ๊ฒฝ์์ ์ต๋ํ ์ ์ฐ๊ทธ๋ฌ์ง๋ ๋ฐฉํฅ์ผ๋ก deformationํ๋ ๋ชฉ์ ์ด ์๋๊น ์ถ์ธกํฉ๋๋ค.- ์ด์ ๋ํด ์์ธํ ์๊ณ ๊ณ์๋ฉด ๋๊ธ๋ถํ๋๋ฆฝ๋๋ค :) -
์์ธํ๊ฑด elastic energy๊ด๋ จ paper๋ฅผ ์ฝ์ด๋ณด์๊ธฐ๋ฅผ ์ถ์ฒ๋๋ฆฝ๋๋ค. ์ด๋ ๊ฒ ๊ตฌํ elastic loss์ robust loss๋ฅผ ์ ์ฉํฉ๋๋ค.
Geman-McClure robust function์ด๋ผ๊ณ ํ๋๋ฐ์. ์์๋ผ์ด์ด๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํจ์ ๋๋ค. ์ฆ, localํ ์์ญ์ด ๋ฌด์กฐ๊ฑด ๋น์ทํ ์ฑ๊ฒฉ์ ๋ฐ๋ฅด์ง ์์ ์๋ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๋ฅผ ๋ค๋ฉด ์ผ๊ตด๊ณผ ๋ฐฐ๊ฒฝ์ฌ์ด์ ์์ญ์ ์ธ์ ํ์ง๋ง ๋ค๋ฅธ ์ฑ๊ฒฉ์ ๊ฐ์ง๊ณ ์์ฃ .
๋ฐฉ๋ฒ์ loss๊ฐ ์ผ์ ์ด์ ํฌ๋ฉด ๋ฌด์ํด์ฃผ๊ฑฐ๋ weight๋ฅผ ๋ฎ๊ฒ ์ฃผ๋ ๊ฒ ์ ๋๋ค.
Background Regularization
๋ณดํต ๋ฐฑ๊ทธ๋ผ์ด๋๋ deformationํ์ง ์์ต๋๋ค. ๋ฒฝ์ด ์์ง์ด์ง๋ ์์ฃ . ์ด๋ฅผ ์ํด ๋ฐฑ๊ทธ๋ผ์ด๋ points๋ค์ regularization์ ํด์ค๋๋ค. loss๊ฐ ์ฌ์ค์ 0์ ๋๋ค.
DeepLabV3 segmentation ๋ชจ๋ธ์ maskingํด์ ๋ฐฑ๊ทธ๋ผ์ด๋๋ฅผ ํ๋จํฉ๋๋ค.
Coarse-to-Fine Deformation Regularization
NeRF์ ๋ง์ฐฌ๊ฐ์ง๋ก position encoding์ ๊ฑฐ์นฉ๋๋ค. ์ฌ๊ธฐ์ ์ถ๊ฐ๋๋ ๋ถ๋ถ์ annealing๊ณผ์ ์ ๊ฑฐ์น๋ฉด์ frequency๋ฅผ ์ค์ฌ์ค๋๋ค.
ํด๋น regularization์ ์ ์ฉํ๋ ์ด์ ๋ frequency๊ฐ ๋ฎ์ผ๋ฉด under-fitting์ด ๋์ผ๋ฉด over-fitting์ด ๋๊ธฐ ๋๋ฌธ์ ํด๋น ๋ฐฉ๋ฒ์ ์ด์ฉํ๋ค๊ณ ํฉ๋๋ค.
MLP model
mlp model์ ๋ฑํ ์ค๋ช ํ ๊ฑด ์์ต๋๋ค. ์๋์ ๊ฐ๊ณ latent vector๊ณผ ํ์ฉ๋๋ ๊ฒ์ด ์ด์ ์ NeRF์ ๋ค๋ฅธ ์ ์ ๋๋ค.
Experiments
์คํ๋ฐฉ๋ฒ์ด ํน์ดํ๋ฐ ์์ ์ฌ์ง๊ณผ ๊ฐ์ด rig์ ์ข์ฐ ์นด๋ฉ๋ผ๋ฅผ ๋ฌ๊ณ ์ผ์ชฝ์ ํธ๋ ์ด๋์ฉ ์ค๋์ชฝ์ ํ ์คํธ์ฉ์ผ๋ก ํ์ฉํ์์ต๋๋ค.
dynamic scene ์คํ๊ฒฐ๊ณผ์ ๋๋ค.
์ฝ๊ฐ์ ์์ง์์ด ์๋๊ฒฝ์ฐ ์คํ๊ฒฐ๊ณผ์ ๋๋ค.
ablation study๊ฒฐ๊ณผ์ ๋๋ค. dynamic ์ฌ์์๋ elastic์ด ์ค์ํ๋ฐ ์์ง์์ด ๋ณ๋ก ์๋ ์ฌ์์๋ ๋งค์ฐ ํฐ ์ํฅ์ ์ฃผ์ง๋ ์๋ ๊ฒ ๊ฐ์ต๋๋ค.
conclusion
์๋๋ nerfies ๋ฐํ์์๊ณผ ๊ฒฐ๊ณผ๋ฌผ ๋์์์ ๋๋ค. ๋ณด๋ฉด ๋งค์ฐ ๊ฒฐ๊ณผ๋ฌผ์ด ์ข์ต๋๋ค. ํนํ novel view depth๋ ์ด๋ง์ด๋งํฉ๋๋ค.. ํ์ง๋ง ํ์ต์ ์ค๋์๊ฐ๊ณผ ๋น ๋ฅธ ์์ง์์๋ ํ์ต์ด ๋์ง ์๋ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ํฉ๋๋ค.
์ด์์ผ๋ก ๋ฆฌ๋ทฐ ๋ง์นฉ๋๋ค :)
Discussion