AR_VR_Lab/Paper_Review

[view synthesis] Stereo Magnification : Learning view synthesis using multiplane images 정리

리네엔 2022. 7. 8. 16:37

논문 원본
깃허브 홈페이지

용어 / 배경 지식

  • RGBA : RGB각각 3채널에 투명도를 나타내는 알파채널을 포함
  • Muliplane image : 2디 사진을 여러장을 겹쳐 입체적으로 보이게 한 image
  • Plane Sweep

Task

실제 카메라에 담기지 않은 시점의 view를 합성해내는 것

  • 3D reconstruction : NeRV
  • NerF
  • Multiplane image : stereo Magnification, LLFF, NeX, DeepView

Aproach

  1. 학습set ($I_1, I_2, I_t. c_1, c_2, c_3$)
  2. $I_2$를 Plane Sweep으로 PSV를 만듦. : ($ H * W * 3D$) Tensor
  3. Neural Net
    • 네트워크 Input : $I_1, \hat{I_2}$을 연결한 Tensor : ($H * W * 3(D + 1)$) Tensor
    • 네트워크 Output : ($H * W * (2D + 3)$) Tensor
      • 각 평면의 알파맵($\alpha_d (H * W * D)$)
      • global RGB Background Image $\hat{I_b} (H * W * 3)$
      • 각 픽셀에서의 전경, 배경 레이어 비율 $w_d (H * W * D)$
  4. MPI Representation
    • 면의 색상 정보는 전경과 배경이미지 두개로 잘 모델링 된다고 가정
      • 배경이미지란 네트워크로 예측된 숨겨진 표면의 모습
    • MPI의 color images
      $I_1 : 전경이미지, I_b : 배경이미지$
      • $C_d = w_d \odot I_1 + (1-w_d) \odot \hat{I_b} $
    • MPI의 Alpha Image
      • 네트워크의 output
  5. Homograpy matrix를 이용해 이미지 시점을 변환하고 뒤에서 앞 순서로 알파 합성하여 예측 뷰를얻음
  6. 예측 뷰와 Ground Truth 이미지의 VGG로스를 Loss function으로 사용함

Dataset

  • Train ; Youtube에서 동일 기준선에서 찍힌 동일한 장면 샷의 여러 보기로 구성된 이미지.
  • Test : 훈련 세트랑 안겹치는 1,329개의 sequence