๐ก ๋ณธ ๋ฌธ์๋ 'Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis (CVPR 2024)' ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ ๋๋ค.
ํด๋น ๋ ผ๋ฌธ์ 3D Gaussian์ 4D ์๊ณต๊ฐ ์์ญ์ผ๋ก ํ์ฅํ๋ Spacetime Gaussian (STG)์ ์ ์ํ์์ผ๋ฉฐ, ์ด๋ ๋คํญ์์ผ๋ก parameterize๋ ๋ชจ์ ๋ฐ ํ์ ๊ณผ ํจ๊ป ์๊ฐ์ ๋ฐ๋ฅธ ๋ถํฌ๋ช ๋๋ฅผ 3D Gaussian์ ์ฅ์ฐฉํ์ฌ Dynamic View Synthesis๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ๋ ผ๋ฌธ์ด๋ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.
Zhan Li, Zhang Chen, Zhong Li, Yi Xu
OPPO US Research Center | Portland State University
- Project: https://oppo-us-research.github.io/SpacetimeGaussians-website/
- Paper: https://arxiv.org/abs/2312.16812
- Github: https://github.com/oppo-us-research/SpacetimeGaussians
- Youtube: https://www.youtube.com/watch?v=_7deTUDRlns&feature=youtu.be
Introduction
์ ์ ์ฅ๋ฉด์์์ ์ฑ๊ณต์๋ ๋ถ๊ตฌํ๊ณ NeRF๋ 3D Gaussian Splatting (3DGS)๋ฅผ ๋์ ์ฅ๋ฉด์ ์ง์ ์ ์ฉํ๋ ๊ฒ์ ๋ชจ๋ธ ํฌ๊ธฐ ๋ฐ ํ์ต ์๊ฐ์ ์ค๋ฒํค๋๋ก ์ธํด ์ด๋ ต๋ค. SOTA ๋์ ๋ทฐ ํฉ์ฑ ๋ฐฉ๋ฒ์ ๋จ์ผ ๋ชจ๋ธ์์ ์ฌ๋ฌ ํ๋ ์์ด ํํ๋๋ ์ ๊ทผ ๋ฐฉ์์ ์ฑํํ์๋ค.
NeRFPlayer์ HyperReel์ ์ ์ ์ธ ๊ณต๊ฐ์ ํํ๊ณผ ์๊ฐ์ feature์ ๊ณต์ ๋ฐ ๋ณด๊ฐ์ ๊ฒฐํฉํ์ฌ ๋ชจ๋ธ์ ์์ถ์ฑ์ ํฅ์์์ผฐ๋ค. ์ด ์ ๋ต์ ๋์์์ ์ธ์ ํ๋ ์์ด ์ผ๋ฐ์ ์ผ๋ก ๋์ ์ ์ฌ์ฑ์ ๋ํ๋ด๋ ํน์ฑ์ ํ์ฉํ๋ค. ๋น์ทํ ๋งฅ๋ฝ์์ MixVoxels๋ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ latent๋ฅผ ์ฌ์ฉํ๊ณ ์ด๋ฅผ ๋ด์ ์ผ๋ก ๊ณต๊ฐ์ feature์ ์ฐ๊ฒฐํ์๋ค. K-Planes๊ณผ HexPlane์ ๊ฐ๊ฒฐํ ํํ์ ์ํด 4D ์๊ณต๊ฐ ์์ญ์ ์ฌ๋ฌ 2D ํ๋ฉด์ผ๋ก ๋ถํดํ์๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ํ ๊ฐ์ง ํ๊ณ์ ์ ๊ทธ๋ฆฌ๋์ ๊ฐ์ ํํ์ด ์ฅ๋ฉด ๊ตฌ์กฐ์ ์ญํ์ ์์ ํ ์ ์ํ ์ ์์ด ์ฌ์ธํ ๋ํ ์ผ์ ๋ชจ๋ธ๋ง์ ๋ฐฉํดํ๋ค๋ ๊ฒ์ด๋ค. ๋์์ ํ์ง ์ ํ ์์ด ์ค์๊ฐ ๊ณ ํด์๋ ๋ ๋๋ง์ ์์ฑํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๋์ ๋ทฐ ํฉ์ฑ์ ์ํ ์๋ก์ด ํํ์ ์ ์ํ์๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ค์ ์ธ ํ์ง, ์ค์๊ฐ ๊ณ ํด์๋ ๋ ๋๋ง, ์ปดํฉํธํ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋์์ ๋ฌ์ฑํ์๋ค. ํต์ฌ์ 3D Gaussian์ 4D ์๊ณต๊ฐ ์์ญ์ผ๋ก ํ์ฅํ๋ Spacetime Gaussian (STG)์ด๋ค. ๋คํญ์์ผ๋ก parameterize๋ ๋ชจ์ ๋ฐ ํ์ ๊ณผ ํจ๊ป ์๊ฐ์ ๋ฐ๋ฅธ ๋ถํฌ๋ช ๋๋ฅผ 3D Gaussian์ ์ฅ์ฐฉํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก STG๋ ์ฅ๋ฉด์ ์ ์ , ๋์ , ์ผ์์ ์ฝํ ์ธ ๋ฅผ ์ถฉ์คํ๊ฒ ๋ชจ๋ธ๋งํ ์ ์๋ค.
์ ์๋ค์ ๋ชจ๋ธ์ ์ปดํฉํธํจ์ ๊ฐํํ๊ณ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ธํ์ ๊ณ ๋ คํ๊ธฐ ์ํด splatted feature rendering์ ์ ์ํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๊ฐ Spacetime Gaussian์ ๋ํด spherical harmonics (SH) ๊ณ์๋ฅผ ์ ์ฅํ๋ ๋์ base color, ๋ทฐ ๊ด๋ จ ์ ๋ณด, ์๊ฐ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๋ feature๋ฅผ ์ ์ฅํ๋ค. ์ด๋ฌํ feature๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ์คํ๋ํ ์ ํตํด ์ด๋ฏธ์ง ๊ณต๊ฐ์ผ๋ก rasterize๋๊ณ ์์ MLP ๋คํธ์ํฌ๋ฅผ ๊ฑฐ์ณ ์ต์ข ์์์ ์์ฑํ๋ค. SH์ ๋นํด ํฌ๊ธฐ๋ ์์ง๋ง ๊ฐ๋ ฅํ ํํ๋ ฅ์ ๋ฐํํ๋ค.
๋ํ ๋ณต์กํ ์ฅ๋ฉด์ ๋ ๋๋ง ํ์ง์ ํฅ์์ํค๊ธฐ ์ํด Gaussian์ guided sampling์ ๋์ ํ์๋ค. Initialization ์ Gaussian์ผ๋ก ๋๋ฌผ๊ฒ ๋ฎํ ๋จผ ์์ญ์ ๋ ๋๋ง ๊ฒฐ๊ณผ๊ฐ ํ๋ฆฟํด์ง๋ ๊ฒฝํฅ์ด ์๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ์ต ์ค์ฐจ์ ๋๋ต์ ์ธ ๊น์ด๋ฅผ ๋ฐํ์ผ๋ก 4D ์ฅ๋ฉด์์ ์๋ก์ด Gaussian์ ์ํ๋งํ๋ค.
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- splatted feature rendering์ ์ ์: ๊ฐ Spacetime Gaussian์ ๋ํด spherical harmonics (SH) ๊ณ์๋ฅผ ์ ์ฅํ๋ ๋์ base color, ๋ทฐ ๊ด๋ จ ์ ๋ณด, ์๊ฐ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๋ feature๋ฅผ ์ ์ฅํ๋ค. SH์ ๋นํด ํฌ๊ธฐ๋ ์์ง๋ง ๊ฐ๋ ฅํ ํํ๋ ฅ์ ๋ฐํํ๋ค.
- Gaussian์ guided sampling์ ๋์ : ๊ฑฐ๋ฆฌ๊ฐ ๋จผ ์์ญ์ Gaussian์ด Sparseํ๊ธฐ์ ํ์ต ์ค์ฐจ์ ๋๋ต์ ์ธ ๊น์ด๋ฅผ ๋ฐํ์ผ๋ก 4D ์ฅ๋ฉด์์ ์๋ก์ด Gaussian์ ์ํ๋งํ๋ค.
Method
1. Spacetime Gaussians
๋ณธ ๋
ผ๋ฌธ์ 4D ๋์ญํ์ ํํํ๊ธฐ ์ํด 3D Gaussian๊ณผ ์๊ฐ ์ฑ๋ถ์ ๊ฒฐํฉํ์ฌ ๋ํ๋๊ณ ์ฌ๋ผ์ง๋ ์ฝํ
์ธ ์ ๋ชจ์
/๋ณํ์ ๋ชจ๋ธ๋งํ๋ Spacetime Gaussians (STG)๋ฅผ ์ ์ํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์๊ฐ์ ๋ถํฌ๋ช
๋๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ ์ํด temporal radial basis function๋ฅผ ๋์
ํ์๋ค. ์ด๋ ๋ํ๋๊ฑฐ๋ ์ฌ๋ผ์ง๋ ์ฅ๋ฉด ์ฝํ
์ธ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ ์ ์๋ค. ํํธ, ์๊ฐ์ ์กฐ๊ฑด์ผ๋ก ํ๋ 3D Gaussian์ ์์น์ ํ์ ์ ๋ํ ํ๋ผ๋ฉํธ๋ฆญ ํจ์๋ฅผ ํ์ฉํ์ฌ ์ฅ๋ฉด์ ๋ชจ์
๊ณผ ๋ณํ์ ๋ชจ๋ธ๋งํ๋ค. ์๊ณต๊ฐ ์ง์ ์์์ STG์ ๋ถํฌ๋ช
๋๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ ๋ ์๊ฐ์ ๋ถํฌ๋ช ๋์ด๊ณ , ์ ๋ ์๊ฐ์ ์์กดํ๋ ์์น ๋ฐ ๊ณต๋ถ์ฐ์ด๋ค. i๋ i๋ฒ์งธ STG๋ฅผ ๋ปํ๋ค.
Temporal Radial Basis Function. ์๊ฐ t์์ STG์ ์๊ฐ ๋ถํฌ๋ช ๋๋ฅผ ๋ํ๋ด๊ธฐ ์ํด temporal radial basis function์ ์ฌ์ฉํ๋ค. ์๊ฐ์ ๋ถํฌ๋ช ๋ σi(t)์ ๋ํด 1D Gaussian์ ์ฌ์ฉํ๋ค.
i(t) = \sigma_i^s expโก(−s_i^τ|t − \mu_iτ|^2)
์ฌ๊ธฐ์ temporal center μiτ๋ STG๊ฐ ๊ฐ์ฅ ์ ๋ณด์ด๋ ํ์์คํฌํ๋ฅผ ๋ํ๋ด๊ณ , temporal scaling factor siτ๋ ์ ํจํ ์ง์ ๊ธฐ๊ฐ์ ๊ฒฐ์ ํ๋ค. STG ์ ๋ฐ์ ๊ฑธ์ณ ๊ณต๊ฐ์ ๋ถํฌ๋ช ๋ ๋ณํ๋ฅผ ํ์ฉํ๊ธฐ ์ํด ์๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๊ณต๊ฐ์ ๋ถํฌ๋ช ๋ σis๋ฅผ ํฌํจํ๋ค.
Polynomial Motion Trajectory. ๊ฐ STG์ ๋ํด ๋คํญ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ์ ์ ๋ชจ๋ธ๋งํ๋ค.
๋คํญ์ ๊ณ์ bi,k∈R์ ํ์ต ์ค์ ์ต์ ํ๋๋ค.
Polynomial Rotation. ๋ชจ์ ๊ถค์ ๊ณผ ์ ์ฌํ๊ฒ rotation matrix Ri์ ์ฟผํฐ๋์ธ์ ํํํ๊ธฐ ์ํด ๋คํญ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
Scaling matrix Si๋ ์๊ฐ์ ๋ ๋ฆฝ์ ์ผ๋ก ๋๋ค.
2. Splatted Feature Rendering
๋ทฐ์ ์๊ฐ์ ๋ฐ๋ฅธ radiance๋ฅผ ์ ํํ๊ณ ๊ฐ๊ฒฐํ๊ฒ ์ธ์ฝ๋ฉํ๊ธฐ ์ํด ๊ฐ STG์ spherical harmonics (SH) ๊ณ์ ๋์ feature๋ฅผ ์ ์ฅํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๊ฐ STG์ feature ๋ ์ธ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
๋ RGB base color๋ฅผ ํฌํจํ๊ณ , ๋ ๋ทฐ ๋ฐฉํฅ๊ณผ ์๊ฐ์ ๊ด๋ จ๋ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๋ค.
Feature splatting ํ๋ก์ธ์ค๋ RGB ์์์ด feature ๋ก ๋์ฒด๋๋ค๋ ์ ์ ์ ์ธํ๋ฉด Gaussian Splatting๊ณผ ์ ์ฌํ๋ค. ์ด๋ฏธ์ง ๊ณต๊ฐ์ผ๋ก splattingํ ํ ๊ฐ ํฝ์ ์ splatting๋ feature๋ฅผ , , ๋ก ๋ถํ ํ๋ค. ๊ฐ ํฝ์ ์ ์ต์ข RGB ์์์ 2-layer MLP ๋ฅผ ๊ฑฐ์น ํ ์ป์ด์ง๋ค.
์ฌ๊ธฐ์ r์ ๋ทฐ ๋ฐฉํฅ์ด๋ฉฐ, feature๋ค๊ณผ concatenate๋์ด Φ์ ์ ๋ ฅ๋๋ค.
SH ์ธ์ฝ๋ฉ๊ณผ ๋น๊ตํ์ฌ feature ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ๊ฐ STG์ ๋ํด ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์๋ก ํ๋ค. ๋์์ MLP ๋คํธ์ํฌ Φ๋ ์๊ณ ์ข๊ธฐ ๋๋ฌธ์ ์ฌ์ ํ โโ๋ ๋๋ง ์๋๊ฐ ๋น ๋ฅด๋ค.
๋ ๋๋ง ์๋๋ฅผ ์ต๋ํํ๊ธฐ ์ํด ์ ํ์ ์ผ๋ก Φ๋ฅผ ์ญ์ ํ๊ณ ํ์ต ๋ฐ ๋ ๋๋ง ์ค์ Fbase๋ง ์ ์งํ ์๋ ์๋ค. ์ด ๊ตฌ์ฑ์ ๋ผ์ดํธ ๋ฒ์ ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
3. Optimization
MLP Φ์ ๊ฐ STG์ ํ๋ผ๋ฏธํฐ ๊ฐ ์ต์ ํ๋๋ค.
3DGS์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฏธ๋ถ ๊ฐ๋ฅํ ์คํ๋ํ ๊ณผ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ ์ญ์ ํ๋ฅผ ํตํด ์ด๋ฌํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํํ๊ณ ์ค๊ฐ์ density control์ ์งํํ๋ค. ๋ ๋๋ง๋ ์ด๋ฏธ์ง๋ฅผ GT ์ด๋ฏธ์ง์ ๋น๊ตํ๋ ๋ ๋๋ง loss๋ฅผ ์ฌ์ฉํ๋ค. ๋ ๋๋ง loss๋ L1 ํญ๊ณผ D-SSIM ํญ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
4. Guided Sampling of Gaussians
์ ์๋ค์ initialization ์ Gaussian์ด ํฌ๋ฐํ ์์ญ์ ๋ ๋๋ง ํ์ง์ด ๋๊ฒ ์๋ ด๋๊ธฐ ์ด๋ ต๋ค๋ ๊ฒ์ ๊ด์ฐฐํ๋ค. ํนํ ์ด๋ฌํ ์์ญ์ด ์นด๋ฉ๋ผ์์ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋ ๊ฒฝ์ฐ ๋์ฑ ๊ทธ๋ ๋ค. ๋ฐ๋ผ์ ํ์ต ์ค์ฐจ์ coarseํ ๊น์ด๋ฅผ guidance๋ก ์๋ก์ด Gaussian์ ์ํ๋งํ๋ ์ ๋ต์ ์ถ๊ฐ๋ก ๋์
ํ์๋ค.
ํ์ต ์ค ์ค์ฐจ๊ฐ ํฐ ํฝ์ ์ ๊ด์ ์ ๋ฐ๋ผ ์๋ก์ด Gaussian๋ค์ ์ํ๋งํ๋ค. ์ํ๋ง ํจ์จ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด loss๊ฐ ์์ ๋ ํ์ ์ํ๋ง์ ์ํํ๋ค. ์ค์ฐจ ๋งต์ ํ์ต ์ค์ ๋ ธ์ด์ฆ๊ฐ ์์ ์ ์์ผ๋ฏ๋ก patch-wise๋ก ํ์ต ์ค์ฐจ๋ฅผ ์ง๊ณํ์ฌ ์๋นํ ์ค์ฐจ๊ฐ ์๋ ์์ญ์ ์ฐ์ ์์๋ฅผ ๋๋ค. ๊ทธ๋ฐ ๋ค์ ํฐ ์ค์ฐจ๊ฐ ์๋ ๊ฐ ํจ์น์ ์ค์ ํฝ์ ์์ ๊ด์ ์ ์ํ๋งํ๋ค. ์ง๋์น๊ฒ ํฐ ๊น์ด ๋ฒ์์์ ์ํ๋ง์ ํผํ๊ธฐ ์ํด Gaussian ์ค์ฌ์ coarseํ depth map์ ํ์ฉํ์ฌ ๋ณด๋ค ๊ตฌ์ฒด์ ์ธ ๊น์ด ๋ฒ์๋ฅผ ๊ฒฐ์ ํ๋ค. Depth map์ feature splatting ์ค์ ์์ฑ๋๋ฉฐ ๊ณ์ฐ ์ค๋ฒํค๋๊ฐ ๊ฑฐ์ ๋ฐ์ํ์ง ์๋๋ค. ๊ทธ๋ฐ ๋ค์ ์๋ก์ด Gaussian๋ค์ ๊ด์ ์ ๋ฐ๋ผ ๊น์ด ๋ฒ์ ๋ด์์ ๊ท ์ผํ๊ฒ ์ํ๋ง๋๋ค. ์๋ก ์ํ๋ง๋ Gaussian๋ค์ ์ค์ฌ์ ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ค. ์ํ๋ง๋ Gaussian๋ค ์ค์์ ๋ถํ์ํ ๊ฒ๋ค์ ํ์ต ์ค์ ๋ถํฌ๋ช ๋๊ฐ ๋ฎ์์ ธ ์ ๊ฑฐ๋๋ค. ์ํ๋ง ํ๋ก์ธ์ค๋ 3ํ ์ดํ๋ก๋ง ์ํํ๋ฉด ๋๋ค.
์ ์๋ guided sampling ์ ๋ต์ 3DGS์ density control์ ๋ณด์ํ๋ค. Density control์ ๊ธฐ์กด Gaussian๋ค ๊ทผ์ฒ์์ ์ ์ง์ ์ผ๋ก Gaussian์ ์ฆ๊ฐ์ํค๋ ๋ฐ๋ฉด, ์ ์๋ ์ ๊ทผ ๋ฐฉ์์ Gaussian์ด ํฌ๋ฐํ๊ฑฐ๋ ์๋ ์์ญ์์ ์๋ก์ด Gaussian์ ์ํ๋งํ ์ ์๋ค.
Experiments
Implement Details
- ,
- optimizer: Adam
- ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ ํ์์คํฌํ์ SfM ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ฌ์ฉํ์ฌ STG๋ฅผ ์ด๊ธฐํ
- Density control์ ๊ฒฝ์ฐ 3DGS๋ณด๋ค ๋ ๊ณต๊ฒฉ์ ์ธ pruning์ ์ํํ์ฌ Gaussian ์๋ฅผ ์ค์ด๊ณ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์๊ฒ ์ ์ง
- 50 ํ๋ ์ ์ํ์ค๋ฅผ ํ์ต์ํค๋ ๋ฐ NVIDIA A6000 GPU 1๊ฐ์์ 40 ~ 60๋ถ ์์
1. Neural 3D Video Dataset
2. Google Immersive Dataset
3. Technicolor Dataset
4. Ablation Study
๋ค์์ ๊ตฌ์ฑ ์์์ ๋ํ ablation ๊ฒฐ๊ณผ์ด๋ค.
๋ค์์ SfM ํฌ์ธํธ ํด๋ผ์ฐ๋๊ฐ initialization์ ์ฌ์ฉ๋๋ ํ๋ ์ ์์ ๋ํ ablation ๊ฒฐ๊ณผ์ด๋ค.