용어 / 배경 지식
- RGBA : RGB각각 3채널에 투명도를 나타내는 알파채널을 포함
- Muliplane image : 2디 사진을 여러장을 겹쳐 입체적으로 보이게 한 image
- Plane Sweep
Task
실제 카메라에 담기지 않은 시점의 view를 합성해내는 것
- 3D reconstruction : NeRV
- NerF
- Multiplane image : stereo Magnification, LLFF, NeX, DeepView
Aproach
- 학습set ($I_1, I_2, I_t. c_1, c_2, c_3$)
- $I_2$를 Plane Sweep으로 PSV를 만듦. : ($ H * W * 3D$) Tensor
- Neural Net
- 네트워크 Input : $I_1, \hat{I_2}$을 연결한 Tensor : ($H * W * 3(D + 1)$) Tensor
- 네트워크 Output : ($H * W * (2D + 3)$) Tensor
- 각 평면의 알파맵($\alpha_d (H * W * D)$)
- global RGB Background Image $\hat{I_b} (H * W * 3)$
- 각 픽셀에서의 전경, 배경 레이어 비율 $w_d (H * W * D)$
- MPI Representation
- 면의 색상 정보는 전경과 배경이미지 두개로 잘 모델링 된다고 가정
- 배경이미지란 네트워크로 예측된 숨겨진 표면의 모습
- MPI의 color images
$I_1 : 전경이미지, I_b : 배경이미지$- $C_d = w_d \odot I_1 + (1-w_d) \odot \hat{I_b} $
- MPI의 Alpha Image
- 네트워크의 output
- 면의 색상 정보는 전경과 배경이미지 두개로 잘 모델링 된다고 가정
- Homograpy matrix를 이용해 이미지 시점을 변환하고 뒤에서 앞 순서로 알파 합성하여 예측 뷰를얻음
- 예측 뷰와 Ground Truth 이미지의 VGG로스를 Loss function으로 사용함
Dataset
- Train ; Youtube에서 동일 기준선에서 찍힌 동일한 장면 샷의 여러 보기로 구성된 이미지.
- Test : 훈련 세트랑 안겹치는 1,329개의 sequence
'AR_VR_Lab > Paper_Review' 카테고리의 다른 글
[Lab seminar] The graph neural network (0) | 2022.08.26 |
---|---|
[LabSeminar] RigNet : Neural Rigging for Articulated Charaters (0) | 2022.08.01 |