Notice
Recent Posts
Recent Comments
Link
«   2025/09   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Archives
Today
Total
관리 메뉴

MJ's Blog

[논문리뷰] Pix2NeRF 본문

AI

[논문리뷰] Pix2NeRF

minje_kim 2022. 7. 13. 00:51

1. 개요

1.1 Abstract

: 인풋 이미지를 NeRF(Neural Radiance Field) 로 전이시킬 수 있는, 비지도 & single-shot 프레임워크

: 주요한 아이디어는, generative한 NeRF 모델을 사용해서 없는 geometry 정보를 보간하는 것

: 이미지를 latent space 와 generative NeRF model 으로 매핑 시키는 인코더 (latent space와 NeRF model은 dependent 한 관계)

 

 

1.2 기존 NeRF의 한계점

: 주어진 이미지에 오버피팅 되거나, 이미지가 많이 필요하다는 점

: train 시간이 과하게 많이 걸림

: general 한 NeRF 모델을 만들기 위한 시도도 있었으나, 이는 multi-view 이미지에만 잘 작동하는 경향이 있었음

 

 

1.3 해결 방법

: 객체 클래스에 대한 prior implicit 한 모델을 학습하고, 이를 기반으로 관찰된 것을 학습된 모델에 매핑하는 것 

 

 

1.4 pi-GAN을 쓰는 이유

: single-shot 학습이 잘 안되어 왔던 이유는 단일 이미지의 정보는 아무래도 불완전하기 때문 

: 이러한 측면에서 GAN은 이미지(3D) 합성 및 변형에 효과적인 성능을 보이는 알고리즘

: 기존의 HoloGAN 이나 StyleGAN은 3D consistency가 약하다(weak)는 단점이 존재하고, 이러한 3D consistency 면에선 pi-GAN이 우수한 성능을 보여왔음 (왜냐하면 pi-GAN에는 내재된 volumetric 한 rendering design이 존재)

*pi-GAN

기존 GAN의 세팅을 따라가되, latent code를 category-specific radiance field에 매핑 시키는 알고리즘

 

 

2. 주요 내용

2.1 주요 프로세스

1) pi-GAN과 인코더를 학습시켜서 생성된 이미지를 latent space로 매핑 시킴

2) pi-GAN과 coupled 된 인코더 기반으로 conditional GAN을 만들어냄

 

 

2.2 신경망 개요

- 3가지 주요 신경망으로 구성 : Generator G, Discriminator D, Encoder E

Generator : z (latent code), d (view pose) 로 설정 되며, I (RGB 이미지)를 output으로 가짐

Discriminator : CNN 구조이며, I (2D 이미지) 가 input 이며, l (logit) 과  d (view pose) 를 예측

Encoder : I (2D 이미지) 가 input 이며, CNN 기반으로 해당 이미지를 z (latent code) 로 맵핑함과 동시에 d (view pose) 를 예측

 

 

2.3 신경망 별 세부내용

1) Generator G & Dicriminator D

: 해당 연구의 모델 backbone은 pi-GAN으로, generator G와 discriminator D로 구성돼있음

: pi-GAN은 3D aware generator를 포함하고 있으며 이를 기반으로 이미지를 생성

    * 3D aware generator

      latent code와 viewing direction을 input으로 가지며, conditional neural radiance field 에서 렌더링한 이미지를 생성함

: 그 후 Discriminator 는 렌더링 된 이미지를 real / fake로 구별 

 

2) Encoder E

: I (2D 이미지)를 인풋으로 가지며 해당 이미지의 z (latent code)와 d (view pose)를 예측함

:  I (2D 이미지)의 z (latent code) 와 d (view pose) 를 disentangle 함으로 pi-GAN generator 를 conditioning 하는데 사용될 수 있고, 새로운 view를 얻을 수 있음

 

 

2.4 Scheme of training

- 5가지 Objectives 기반 scheme

: 총 5가지 training objectives 사용됨 : generator /  discriminator / GAN inversion / Reconstruction / Conditional adversarial

: 이는 4개의 pipeline으로 다시 나눌 수 있음

: Pipeline1 - classic 3D-ware GAN

     1) GAN generator : 실제 데이터와 같은 분포를 가지는 모조 데이터를 생성

     2) GAN discriminator : 모조데이터와 실제 데이터 간 판별

 

: Pipeline2 - GAN inversion

     1) GAN generator : 실제 데이터와 같은 분포를 가지는 모조 데이터를 생성

     2) Encoder : 생성된 이미지를 latent space로 매핑

 

: Pipeline3 - Reconstruction

     1) Encoder : 실제 이미지의 latent code와 pose 를 추출

     2) conditional GAN 예측된 latent code와 pose를 기반으로 이미지를 렌더링

 

: Pipeline4 - Conditional adversarial 

    1) Encoder : 실제 이미지의 latent code와 pose 를 추출

    2) conditional GAN 예측된 latent code와 pose를 기반으로 이미지를 렌더링

    3) discriminator : 

 

 

 

3. 장점

1) single-shot learning

2) pre-training, annotation, fine-tuning 작업이 필요 없음

3) explicit 한 3D supervision 없이, natural image로 학습이 가능

4) high fidelity를 유지하면서 새로운 view의 합성이 가능함 (SOTA NeRF 모델들과 comparable한 성능) 

 

 

 

 

4. 단점

1) 데이터 세트당 하나의 category로 제한되며 1개 이상은 불가

     PixelNeRF 나 GRF는 unseen-categories나 multi-instances에도 일반화가 되는데 비해 Pix2NeRF는 하나의 카테고리로

     제한됨

2) architecture search는 아직 해결되지 못한 문제

    ex) 더 mature한 encoder architecture를 찾아야함

3) 2D 이미지 augmentation 은 가능하지만, 3D 렌더링은 별도의 알고리즘을 붙여야하는 점