裸眼3d技术论文
基于深度图的多视角裸眼3d立体视频技术研究
摘要:3D立体视频技术正受到越来越多的关注,但目前大多数3D视频系统需要佩戴专用眼镜才能观看立体效果,或者要求观众从固定角度观看。多视点裸眼3D立体视频系统可以避免上述两种限制,获得最佳的3D观看体验。目前,世界上最先进的3D立体视频研究集中在基于深度图的多视点3D立体视频技术上。本文研究了基于深度图的多视点裸眼3D立体视频系统的几个关键技术环节,包括深度图提取、虚拟视点合成和多视点视频合成,并进行了相应的仿真实验。从实验结果来看,基于深度图的多视点裸眼3D立体视频系统具有数据量小、传输效率高、显示内容自适应调整、用户交互性好等优点。
关键词:裸眼3D立体视频;深度图;3d电视
目前,3D立体视频技术越来越受到人们的关注,其中主流的3D技术主要包括双目立体视频(包括两个视点的视频数据)和多视点立体视频(包括八个以上视点的视频数据)。双目立体视频可分为两种:戴眼镜观看和双目裸眼立体显示,前者必须佩戴偏光眼镜,给观看带来不便,后者要求观看者从固定角度观看。当多人同时观看同一台显示器时,大部分观众无法获得最佳观看位置,极大地影响了观看体验。对于多视角立体视频技术,由于同一个裸眼3D立体显示器可以同时提供多个视角的内容,观众可以从任意自由角度观看,大大提高了观看的便利性。因此,多视角立体视频已经成为当前技术研究的主流。但是,与双目立体视频相比,多视点立体视频的数据量增加了一倍,给存储和传输带来了不便。基于深度图的多视点立体视频技术具有数据量小的优点,因此成为最具潜力的多视点立体视频方案。本文对基于深度图的多视点三维立体视频技术的一些关键技术进行了深入研究,并进行了相应的仿真实验。本文各章安排如下:第二节介绍基于深度图的多视点三维立体系统的总体架构,第三节介绍深度图提取,第四节介绍虚拟视点生成,第五节介绍多视点视频合成,第六节总结全文。
1.基于深度图的多视点三维立体视频系统框架。
基于深度图的多视点3D立体视频系统的技术框架如图1所示。首先需要拍摄原始视频序列。虽然最终的多视点裸眼立体显示系统需要9个或更多视点的视频内容,但实际的原始视频序列拍摄阶段只需要拍摄2-3个视点的视频。这是因为基于深度图的虚拟视点生成技术在解码端可以生成多个视点(本文中为9个视点)的虚拟视点视频,因此基于深度图的多视点立体视频技术具有数据量小、易于传输的优点。
原始视频序列拍摄完成后,需要提取深度图,计算摄像机参数。在该步骤中提取的深度图的质量直接决定了稍后生成的虚拟视点视频的质量。完成以上步骤后,需要对其进行压缩编码,并通过网络传输到解码端。解码完数据后,解码端会基于深度图生成虚拟视点,原来2-3个视点的视频数据会变成9个视点的视频数据。得到的9个视点的视频数据无法直接在多视点裸眼3D立体显示器上播放,因此必须对显示器使用的3D光栅结构进行多视点视频合成。
在本文的后续章节中,将详细介绍深度图提取、虚拟视点生成和多视点视频合成,并进行相应的仿真实验。
第二,深度图提取
2.1深度图介绍
深度图为灰度图像(如图2-b所示),灰度值范围为0-255。灰度值可以与场景的深度信息进行转换,得到深度值,用于立体视频系统的实际应用中。
深度图中的像素是0-255的灰度值。如上所述,深度图主要用于虚拟视点生成。在这个过程中,我们使用的是实际的深度值,所以需要建立一个转换关系,将深度图中像素的灰度值转换成实际的深度值:
在公式(1)中,z是虚拟视点生成过程中我们需要的深度值,V表示图2-b中深度图像中像素的灰度值,Znear和Zfar分别表示视频拍摄的场景中最近的深度和最远的深度,这两个值需要在原始视频序列的拍摄过程中进行测量。
2.2基于块匹配的深度图提取
用两个并排放置的相机拍摄同一场景,得到两幅图像。要获得一幅图像的深度图,需要将像素与另一幅图像配对。匹配像素后,你会得到两幅图像中间每个像素的视差,深度值和视差值的关系如下:
其中z是需要的深度值,d是像素匹配后得到的视差值,f是相机的焦距,b是两个相机的基线距离。因此,利用视差值d,可以容易地获得深度值z。但关键环节是得到准确的视差值,因此需要进行精确的像素匹配。但实际上,由于不同相机曝光参数的差异,即使拍摄同一个场景,像素之间仍然存在亮度差异,所以我们采用图像块匹配的方法,在一定程度上提高了像素匹配的鲁棒性。在这个实验中,3?3大小的图像块,必须指出的是,默认情况下,原始视频序列是由两个严格水平平行的摄像头拍摄的,所以匹配图像块时只进行水平搜索,不进行垂直搜索。整个深度图提取过程如图3所示。
从国际视频标准组织MPEG提供的多视图视频序列中提取的深度图如图4所示。
第三,虚拟视点生成
虚拟视点生成技术[2]可以将左右视点中的像素投影到两个视点中间的任意位置,从而生成一个原本不是摄像机拍摄的虚拟视点的视频图像(如图5所示),这需要左右视点的深度图和摄像机参数。该技术主要使用3D投影算法,用于寻找两个图像平面之间的对应点。具体过程是将一个图像平面上的点投影到三维世界坐标系,再将该点从三维世界坐标系投影到另一个图像坐标平面。
对于任意给定点p0,坐标为(u0,V0),其位于图像平面v0中。如果你想找到对应点P1的坐标(u1,V1 ),其变化点在图像平面v1上,那么整个三维投影过程的计算如下式所示:
这里,Z是从3D世界坐标中的一点沿着相机坐标系的Z轴到相机的距离,p是对应的投影矩阵。投影矩阵P由摄像机内部矩阵K、旋转矩阵R和平移矩阵t组成,P的具体描述如下:其中K为3?3的上三角矩阵由焦距f,倾斜参数?它由虚拟摄像机位置上的理论点(u’,v’)组成。r和t描述了相机在世界坐标空间中的位置。
通过以上步骤,可以初步实现基于深度图的视点合成。
第四,多视角视频合成
4.1裸眼3D立体显示原理
要让观看者体验到3D立体效果,核心原理就是让他们的眼睛同时看到不同的画面,从而获得立体效果。最简单的方法就是戴上特制的眼镜,可以强行控制自己看到的东西,但这种方案给观看者(尤其是自己戴眼镜的人)带来了极大的不便。本文采用的方案是裸眼3D立体显示。主要实现方式是在显示屏前添加视差栅栏,通过栅栏控制每个像素光的出射方向,使部分图像只进入左眼,部分图像只进入右眼,从而形成双眼视差,产生立体视觉(如图6)。
4.2多视角视频合成
本文使用的裸眼3D视差栅栏结构较为复杂,可以通过它的栅栏控制9个视点的图像内容,使9个视点的图像同时显示在同一个显示器上。虽然观看者在同一时间只能分别看到其中两个的图像,但显示器的视角大大增加。为了配合9视图光栅围栏的显示,我们需要对9视图图像的RGB像素进行重排,重排顺序如图7所示。图中的数字表示视点的数量。如果按照图中的顺序重新排列9个视点图像的RGB值,将获得分辨率为每个原始视点图像的9倍的立体图像,可以在多视点裸眼3D显示器上播放。由9视点图像组成的立体图像如图8所示(立体效果只能在9视点裸眼格栅立体显示器上看到)。
结论
基于深度图的多视角立体视频技术是目前三维立体视频的研究热点。该技术不需要佩戴专门的3D立体视频眼镜,具有总数据量小、视角大的优点。本文深入研究了基于深度图的多视点裸眼3D立体视频系统的几个关键技术,包括深度图提取、虚拟视点合成和多视点视频合成,并进行了相应的仿真实验。
参考
[1] M?ller,k;默克,p。茨韦根德;“使用深度图的三维视频表示”,IEEE会议录,第99卷,第4期,第643-656页,2065438年4月+01
[2]恩吉基-尼亚,p;科佩尔,m;多什科夫博士;拉克什曼;默克,p。k .穆勒;茨韦根德;“基于深度图像的三维视频渲染与高级纹理合成”,多媒体,IEEE汇刊,第13卷,第3期,第453-465页,2011年6月
[3]穆勒,k;默克,p。“3D视频标准化的挑战”,视觉通信和图像处理(VCIP),2011 IEEE,第卷,第1-4页,11月6-9日2011
[4] Sourimant,g;“一种计算多视图视频深度图的简单有效的方法”,3D TV-Conference:The True Vision-Capture,Transmission and Display of 3D Video(3D TV-CON),2010,第卷,第1-4页,2010年6月7-9日
[5]霍普夫,k;“提供舒适观看条件和高度远程呈现的自动立体显示器”,视频技术的电路和系统,IEEE学报,第10卷,第3期,第359-365页,2000年4月
点击下一页了解详情> & gt& gt裸眼3d技术论文