[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting (CVPR 2024)
๐ก ๐ก ๋ณธ ๋ฌธ์๋ 'HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting (CVPR 2024) ๋ ผ๋ฌธ์ ์ ๋ฆฌํด๋์ ๊ธ์ด๋ค.
ํด๋น ๋ ผ๋ฌธ์ ๊ด๊ด๊ฐ์ด ์ฐ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ 3D Reconstruction์ ์งํํ๋ Task(unstructured tourist environments)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ ผ๋ฌธ์ด๋ค. ์ด๋ NeRF ๊ธฐ๋ฐ์ด ์๋ Gaussian Splatting ์ ํ์ฉํ์์ผ๋ฉฐ, Hierarchical Appearance Modeling๊ณผ Depth Regularization์ ์งํํ ๊ฒ์ด ํน์ง์ด๋ ์ฐธ๊ณ ํ๊ธฐ ๋ฐ๋๋ค.
- Project: https://alvinliu0.github.io/projects/HumanGaussian
- Paper: https://arxiv.org/abs/2311.17061
- Github: https://github.com/alvinliu0/HumanGaussian
Abstract
ํ ์คํธ ํ๋กฌํํธ์์ Realistic 3D ์ธ๊ฐ ์์ฑ์ ์์ง challenging task์ด๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋ถ์ ์ ํ ์ธ๋ถ ์ฌํญ(inadequate fine details)์ด๋ ๊ณผ๋ํ ํ๋ จ ์๊ฐ์ผ๋ก ์ธํด ์ด๋ ค์์ ๊ฒช๋ score distillation sampling(SDS)์ ํตํด mesh or neural fields๊ณผ ๊ฐ์ 3D ํํ์ ์ต์ ํํ๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ fine-grained ๊ธฐํํ์ ๊ตฌ์กฐ์ ์ฌ์ค์ ์ธ ์ธ๊ด์ ๊ฐ์ง ๊ณ ํ์ง 3D ์ธ๊ฐ์ ์์ฑํ๋ ํจ์จ์ ์ด๋ฉด์๋ ํจ๊ณผ์ ์ธ ํ๋ ์์ํฌ์ธ HumanGaussian์ ์ ์ํ๋ค. ์ฐ๋ฆฌ์ ํต์ฌ ์ธ์ฌ์ดํธ๋ 3D Gaussian Splatting์ด ์ฃผ๊ธฐ์ ์ธ ๊ฐ์ฐ์์ ์ถ์ ๋๋ ์ฑ์ฅ์ ๊ฐ์ง ํจ์จ์ ์ธ ๋ ๋๋ง์ด๋ฉฐ, ์ด๋ฌํ adaptive density control๋ ๋ด์ฌ์ ์ธ๊ฐ ๊ตฌ์กฐ์ ์ํด ์์ฐ์ค๋ฝ๊ฒ ์ ๋๋ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, 1) ๋จผ์ ์ธ๊ฐ์ ์ธ๊ด๊ณผ ๊ธฐํํ์ ๋์์ ์ต์ ํํ๋ Structure-Aware SDS๋ฅผ ์ ์ํฉ๋๋ค. RGB์ depth space์ multi-modal score ํจ์๋ ๊ฐ์ฐ์์ ๋ฐ๋ํ ๋ฐ ๊ฐ์ง์น๊ธฐ ํ๋ก์ธ์ค๋ฅผ ์ฆ๋ฅํ๋ ๋ฐ ํ์ฉ๋๋ค. 2) ๋ํ SDS๋ฅผ noisier generative score์ cleaner classifier score๋ก ๋ถํดํ์ฌ Annealed Negative Prompt Guidance๋ฅผ ๊ณ ์ํ์ฌ over-saturation ๋ฌธ์ ๋ฅผ ์ ํด๊ฒฐ ํ๋ค. floating artifacts๋ ๊ฐ์ง์น๊ธฐ ์ ์ฉ ๋จ๊ณ์ ๊ฐ์ฐ์์ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ถ๊ฐ๋ก ์ ๊ฑฐ๋์ด generation smoothness์ ํฅ์์ํจ๋ค. ๊ด๋ฒ์ํ ์คํ์ ํตํด ํ๋ ์์ํฌ์ ์ฐ์ํ ํจ์จ์ฑ๊ณผ ๊ฒฝ์ ํ์ง์ ์ ์ฆํ์ฌ ๋ค์ํ ์๋๋ฆฌ์ค์์ ์์ํ 3D ์ธ๊ฐ์ ๋ ๋๋งํ๋ค.
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง๋ contribution ์ค ๊ฐ์ฅ ๋ฉ์ธ์ด ๋๋ ๋ถ๋ถ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Related Works
3D Neural Representations
voxel, point cloud, mesh, and neural field์ ๊ฐ์ ๊ณต๊ฐ ๊ธฐํํ ๋ฐ ํ ์ค์ฒ ๋ชจ๋ธ๋ง์ ์ํด ๋ค์ํ 3D Representation์ด ์ ์๋๋ค. ํ์ต ์๊ฐ, ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ, ๋ ๋๋ง ๊ธฐ๋ฅ ๋ฐ ๋คํธ์ํฌ ํธํ์ฑ ์ฌ์ด์ ๊ท ํ์ ์ ์งํ๊ธฐ ์ํด ๋ฌธ์ ์ค์ ์ ๋ฐ๋ผ ๋ค์ํ ํํ์ด ์ ํ๋ฉ๋๋ค:
- 1) Voxel: ์ฅ๋ฉด ์ ๋ณด๋ฅผ ๊ทธ๋ฆฌ๋ ๋ฐฉ์์ผ๋ก ์ ์ฅํ๋ ์ ํด๋ฆฌ๋ ํํ์ผ๋ก CNN์ ์ฝ๊ฒ ์ ์ฉํ ์ ์์ง๋ง [9, 46, 84] ์ ๋ฐฉ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ์ธํด ๋ ๋๋ง ํด์๋๊ฐ ์ ํ๋๋ค.
- 2) Point cloud: 3D ํ๋ฉด์์ ์ํ๋ง๋ discrete ํฌ์ธํธ ์ธํธ์ธ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ ๋ ๋๋ง [38, 57, 58]์ ํจ์จ์ ์ด๋ค. ๊ทธ๋ฌ๋ ๋ถ์ฐ์์ ์ธ ํน์ฑ์ผ๋ก ์ธํด fine-grained details์ ์บก์ฒ๋ฅผ ๋ชปํ๋ค.
- 3) Mesh, ๊ฐ์ฅ์๋ฆฌ ๋ฐ ๋ฉด ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ํํํ๋ ๊ฐ๊ฒฐํ ํํ์ธ ๋ฉ์๋ ์ ๋๋ฌ์ธ์ธ ๊ทธ๋ํฝ ํ์ดํ๋ผ์ธ[16, 78, 81]์์ ์๊ฐ ํจ์จ์ฑ์ ๊ณ์นํ์ง๋ง ์ ํํ ํ ํด๋ก์ง๋ฅผ ๋ง๋๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋๋ค.
- 4) Neural field: ๊ฐ 3D ์์น์ ์์ฑ์ ์๋ฌต์ ํจ์์ธ ์ ๊ฒฝ๋ง์ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ์์์ ํด์๋๋ก ๋ชจ๋ธ๋งํ ์ ์์ง๋ง [41, 49, 53, 83, 85] ์ต์ ํ์ ์ถ๋ก ์ ๋๋ฆฌ๋ค. ์ต๊ทผ 3D Gaussian Splatting(3DGS)[31, 45]์ 3D ์ฌ๊ตฌ์ฑ์์ ๋ ๋์ ํ์ง๊ณผ ๋ ๋น ๋ฅธ ์๋ ด์ผ๋ก ์ด์ ํํ์ ๋ฅ๊ฐํ๋ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
์ด ์ฐ๊ตฌ์์๋ text-driven 3D human generation์ challenging task์์ 3D Gaussian Splatting์ ์ ์ฌ๋ ฅ์ ์ฌ๋ฆฌ๋ ค๊ณ ํ๋ค.
Text-to-3D Generation
์ต๊ทผ์ diffusion-based text-to-3D ์์ ์ ๋ ๊ฐ์ง ์ ํ์ผ๋ก ๊ทธ๋ฃนํํ ์ ์์ต๋๋ค:
- 1) 3D native pipelines: ํน์ ๋๋ฉ์ธ์์ 3D ๋ฐ์ดํฐ[28, 44, 51] ๋๋ ์ฌ๊ตฌ์ฑ๋ ์ค๊ฐ ๊ธฐ๋ฅ[5, 8, 15, 52]์ ๋ถํฌ๋ฅผ ์ง์ ์บก์ฒํ๋ 3D ๋ค์ดํฐ๋ธ ํ์ดํ๋ผ์ธ์ ๋๋ค. ์ผ๋ถ ์ต๊ทผ ์์ [2, 21]์ Objaverse [10]์ ๊ฐ์ ๋๊ท๋ชจ 3D ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ํ๋ จ์ ํตํด ๋ชจ๋ธ์ ์ฉ๋์ ํ์ฅํ์ง๋ง, ์ฌ์ ํ ๋จ์ผ ๊ฐ์ฒด์ ๊ตญํ๋์ด ์์ต๋๋ค.
- 2) Optimization-based 2D lifting pipelines: ์ต์ ํ ๊ธฐ๋ฐ 2D ๋ฆฌํํ ํ์ดํ๋ผ์ธ์ 2D ๋๋ฉ์ธ์์ ์ด์ ์ ํ์ตํ ํ๋ถํ ๋ฐ์ดํฐ๋ฅผ ์ฆ๋ฅํ์ฌ ํ๋กฌํํธ ๋ฐฉ์์ผ๋ก 3D ์ฅ๋ฉด ํํ์ ์ต์ ํํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ผ๋ถ ์ด๊ธฐ ์๋๋ CLIP ๊ฐ์ด๋์ค[59]๋ฅผ ์ฌ์ฉํ์ฌ ๋ฉํฐ๋ทฐ ์ด๋ฏธ์ง ํ ์คํธ ์ ๋ ฌ์ ๊ฐํํ๋ ๋ฐ๋ฉด, ์ต๊ทผ์ ๋ฐฉ๋ฒ์ ์์์ ์ธ ํ ์คํธ-์ด๋ฏธ์ง ๋ชจ๋ธ[6, 47, 56, 77, 80]์์ ์ ๋ก ์๋ ๋ ๋๋ง ํ์ง์ ๊ณ์นํ๊ธฐ ์ํด ์ฆ๋ฅ ์ํ๋ง(SDS)์ ์ ์ํํ๋ ๋ฐ ์์กดํฉ๋๋ค. ํนํ NeRF์ ๋์ ๊ณ์ฐ ๋ถ๋ด์ ๊ธด ํ๋ จ ์๊ฐ์ ํ์๋ก ํ๋ฏ๋ก text-to-3D ์์ฑ์ ์ํ ๊ฐ์ฐ์ค ์คํ๋ซ์ ํํ์ ์ ์ํ๊ธฐ ์ํ ๋์ ์์ ์ ๋๊ธฐ๋ฅผ ๋ถ์ฌํฉ๋๋ค[7, 74, 86].
์ด ์์ ์์๋ ํจ์จ์ฑ๊ณผ ํจ์จ์ฑ ๋๋ฌธ์ 3D ๊ฐ์ฐ์ค๋ฅผ ์ ํํ์ง๋ง, ๋ฏธ์ธํ ๋ํ ์ผ ์บก์ฒ์ ํ์ค์ ์ธ ํ ์ค์ฒ ์์ฑ์ด ๋ชจ๋ ์๊ตฌ๋๋ ํ ์คํธ ๊ธฐ๋ฐ 3D ์ธ๊ฐ ์์ญ์ ์ด์ ์ ๋ง์ถฅ๋๋ค.
Text-Driven 3D Human Generation
Methods