现实是我们大脑重建的信息,我们对这个世界的体验就来源于这些信息。VR技术的原理就是要侵入或屏蔽人们的感官,将VR的数字信息传入大脑,重建那个逼真的虚拟世界。VR模拟人们的感官,如果模拟得非常完美,人们就能够进入到虚拟的世界,分不清真实与虚幻,这是整个VR业界一起努力的目标。但为了实现这个很艺术的梦想,为了进行这场很哲学的试验,今天我们需要从最具体、最技术的问题开始。其中现阶段发展相对较成熟的技术之一就是全景视频技术。
要推动传统2D影视技术向着VR视频阶段成功发展,VR全景视频技术是重中之重。VR全景视频系统流程的第一步是使用多相机组合成的全景摄像机拍摄实景,然后将多路视频拼接融合为完整的全景视频后进行后期编辑,经过高效的视频压缩传输到互联网媒体的视频云,然后分发到用户端。用户通过VR头盔显示器观看2D/3D全景内容,通过头部、眼球、手势、身体动作的姿态位置估计与全景音视频进行交互,实现不同视点、不同视角的视频内容和来自不同方向的声音体验。
全景拍摄是VR内容采集的基础
与费时耗力的三维图形制作相比,全景拍摄是获得VR视频内容的主要手段,具有快速便捷的优势。全景摄像机是VR全景视频的采集设备,目前用到的全景摄像机有很多种。一种是业余便携设备,例如:使用2个鱼眼镜头的完美幻境Eyesir、insta等。另一种是用4-10个运动摄像头组装成的360度2D全景拍摄机,例如:泰科易、强氧科技、极图、Ladybug、360 Heros等,比鱼眼镜头更大的CMOS组合,具有更清晰、更小畸变的画质,但也带来多画面的拼接融合和穿越多镜头时重影的挑战。最近,为了获得立体的观感,人们又推出了360度3D全景摄像机,如谷歌的Jump、Nokia的OZO和face book Surround360等。为了获得电影级的高质量画质,Next VR使用2-4个Red dragon电影摄像机组装成非常专业的全景摄像机。为了记录真实环境的音效,一些相机上还装有4耳的全景声采集设备。
目前,在使用全景摄像机过程中依然存在一些挑战问题。首先是相机分辨率问题。由于用户观看的传统2D画面(120度×60度视角)约是全景图(360度×180度视角)面积的1/9,全景摄像机分辨率通常要求4K以上分辨率才能达到人眼观看比较满意的清晰效果。由于全景相机是固定焦距,固定机位拍摄远距离舞台时不具有长焦镜头那样的放大画面功能,因此需要8K,甚至12K的超高分辨率才能达到看清演员面孔的效果,而目前的压缩、存储、传输、解码、显示屏等技术都还很难完全满足该要求。其次是I/O问题。全景相机需要同步控制多个镜头的快门、曝光、焦距,存储记录等参数,保证画面融合一致。比如Jump有16个相机就有16张存储卡记录视频,把1小时的视频内容拷贝出来通常需要几个小时的时间,这严重降低了全景视频生产和发布的速度。互联网视频网站对内容发布的实时性要求非常高,所以特别需要快速、便捷的IO接口,例如把多个相机的数据存储到一个SSD硬盘中,通过光纤、HDMI、SDI或者USB3.0、rtmp等高速接口传输到视频切换台、编码器或计算机等设备进行直播推流或录播处理。另外,全景摄像机通常体积庞大,拼接压缩等后处理耗时费力。用户非常需要把拼接和编码大计算量模块集成到便携小巧的全景相机内,从而直接输出全景视频,像普通视频一样进行快捷的后续处理。最后,使用全景摄像机进行VR直播时,要保证整个拍摄过程的稳定性。需要达到25帧/秒的帧速,6-12小时以上的连续稳定工作时长,功耗低,发热小。以上这些都对全景摄像机的硬件和数据传输、处理能力提出了更高的挑战。
拼接编辑是VR视频质量的关键
使用全景摄像机拍摄多角度视频后,需要进行拼接校正,把若干个摄像头的视频合成一路视频,形成一个完整的全景视频提供给用户。拼接技术需要处理好多镜头画面的接缝、光照融合等一致性问题,直接决定了最终提供给用户的视频内容质量。全景视频拼接之后还需要后期制作,包括修复拼缝、补洞、调色、植入LOGO、字幕、动画图元等特效编辑。比如:爱奇艺全景自制综艺《撕人订制》,需要把对白字幕和动画特效加入到全景视频中,把摄像机留下的黑洞用logo覆盖补全或替换擦除。《中网网球赛》全景直播,则把比分牌实时叠加到全景直播系统中。
业界有很多比较成熟的全景拼接软件,比如autoPano、vahana、Nuke等,其中Nuke具有非常强大的相机位置估计、三维点云生成、拼接修复、漏洞抹除等功能。另外还有一些用于全景拼接、渲染的开源SDK(软件开发工具包),例如:谷歌的Cardboard VR SDK、Oculus VR SDK,facebook的surround360相机SDK等都提供了开发支持库,可以参考。谷歌的Jump全景相机能拍出立体的全景,在拍摄的时候使用16个摄像头,其中8个代表左眼,另外8个代表右眼,可以通过Nuke软件生成左、右眼对应的全景图(对于天空和地面区域需要特殊处理,去掉视差),从而得到的视频不仅全景,还具有立体感,让用户有三维虚拟现实的体验。全景拼接编辑通过图像处理和艺术加工获得高质量的视频内容,这都需要强大、便捷、易用的软件算法提供支持。
传输编码是VR视频流畅性的挑战
VR视频在内容制作完成后,需要通过媒体平台的网络分发给用户,压缩码率和网络传输依然是最大的挑战。目前,互联网的1080P全高清视频能够流畅播放,压缩码率大概是3.5M左右,这是一个基础上限。2K/4K的全景视频需要4M以上的码率,在互联网上在线观看时会发生卡顿,影响流畅性的体验。在视频压缩编码方面,全景图像通常默认为rectangular球面全景图格式,横轴为theta角[0-360度],纵轴为phi角[-90,90度],图像长宽比为2:1。对于3D 360度全景,通常采用左右眼全景图的上下拼接方式,长宽比为1:1;3D 180度全景采用左右眼全景图的左右拼接方式,长宽比为2:1。
球面全景图在南北极区域存在大量的冗余像素,2015年底facebook推出了立方体Cube(将球面全景纹理投影到内切立方体的6个面上)、棱锥Pyramid(将球面全景纹理投影到内切金字塔的4个面上)等全景格式来降低像素数目,但在实测中发现虽然分辨率可以有效减少20%到70%,但H.264压缩码率却没有明显降低。facebook建议使用多个全景棱锥模型,把用户不太关注的后向画面用低分辨率表示。但是,当用户快速转头观看的时候,如何把该低分辨率视角的数据流实时切换到高分辨率视角的数据流显示是一个难点。国内外很多公司也在研究和使用H.265压缩技术,H.265能够有效降低超高清视频25%-30%左右的码率,但是H.265软件编解码非常耗时,在客户端编解码硬件上还需普及。另一方面,网络传输通过光纤到户,5G无线、HCDN(CDN+P2P的Hybird Content Delivery Network)网络等先进技术,有望进一步提高网络传输全景视频数据的速度和流畅性。
显示技术影响用户的沉浸体验
全景视频需要逼真、舒适的显示技术呈现给用户,包括头盔显示器、3D立体眼镜、真三维显示、全息和环幕、球幕等显示方式。头盔显示器(head mounted display, HMD)是VR中最典型的显示设备。HMD显示技术主要解决沉浸感和无眩晕的问题,这和视场角、分辨率、画面刷新率、声音等因素紧密相关。例如:2015年暴风魔镜的第一代产品,视场角只有60度,用户观看起来就像戴了一个望远镜,看到的画面位于一个有限区域内,周边都是黑的,这样就破坏了沉浸感。人眼的视场角大概是120度,2016年市场上的大多数头盔都做到了110度视场角,戴上可基本覆盖人眼的视野。
很多人戴上VR显示设备有眩晕感,这主要是由于光学系统适配和渲染硬件刷新率等因素引起的。(1)戴上HMD头显后需要适配用户个体,如同我们戴了一副新眼镜一样,要调节镜片的瞳距、像距和畸变、散光、色散等参数。(2)刷新率。人在转头的时候,转动的速度是非常快的,因此设备渲染的刷新速度必须达到90Hz以上,才会让姿态变化后的刷新画面跟上快速转到的视角。早期的一些性能差些的头盔,只要转头快些,就会有迟滞感。而目前先进的Sony PSVR头盔,渲染速度甚至超过了110Hz,转头观看时会感觉虚拟背景是静止的空间,逼真地融入到虚拟世界里。(3)全景声。例如:杜比的Dolby atmos全景声技术记录全景声音。HMD全景声音主要解决耳机的问题,使用HRTF(head rotation transformation function)技术消除声音的方向与用户头部的相对运动,让用户看到虚拟景物并听到保持一致方向的声音。
目前HMD显示设备已经日趋成熟。Oculus rift、Gear VR头显已经发展到了第三代,达到100度视角、90HZ刷新速度、2K分辨率。HTC Vive头显在达到100度视角、90Hz刷新速度的同时,通过light house光塔技术(类似GPS定位原理),通过物理方式可以非常稳定地计算出头部和手柄在空间的位置和姿态,从而实现VR视频和游戏的自然交互。索尼PSVR头显实时性非常好,可以很好地消除眩晕感。国内的Pico、3Glass、暴风、大鹏等头显紧跟国际先进技术,并具有自身的技术特色。
Oculus、HTC vive 和Meta2 等头显轻便、移动,但需要连接固定的PC机,来获得强劲的视频、游戏处理速度,但是在使用中由于头盔与电缆相连,带了一个长长的电缆尾巴不够便捷。HTC等公司正在研发无线方式连接主机的头显和PC,将是一种很好的折中方式。Gear VR使用三星S7edge等高端手机作为显示和处理设备,解决了成本和便携移动问题,但在头显适配手机的型号以及减轻重量上存在限制。未来HMD向一体机发展是个必然趋势,将在专用芯片最佳匹配参数设计和移动性等方面占有优势,但是目前受限于芯片速度、功耗、价格等问题,需要等待整个VR芯片行业的成熟和普及。
自然交互让VR更加有趣
人机交互是人与计算机之间信息交流的简称。传统的人机交互主要通过键盘、鼠标、手柄和图形显示器、音响等设备实现信息的输入、输出。在虚拟现实系统中,则需要采用视觉、听觉、触觉、姿态、表情、手势等多通道感知交互技术。VR交互可以利用数字头显自带的摄像头进行视觉识别、通过麦克风识别语音,语音合成技术进行说话沟通,陀螺仪、数字手套、动捕等复杂的传感器估计姿态,操控虚拟物体并感受到反作用力。这些全方位、多通道的自然交互方式让用户不再是旁观者,而是融入到虚拟世界中感受身在其中的互动乐趣。
VR交互感知中,头部、眼睛、手势、四肢动作等的姿态定位是最基本的功能,可以用来选择操作界面,观看不同方位和视角的场景,甚至驱动虚拟人物的动作与虚拟景物交互。姿态定位分为Outside-in和Inside-out两类方式。Outside-in定位方法通过实际环境中的外部设备来定位头显姿位。例如:HTCvive的头盔和手柄上有很多小的红外线接收器,可以接收到来自房间中固定位置部署的lighthouse光塔发出的信号,通过类似GPS的定位原理来精确定位,该定位方法性能稳定,达到毫米级的精度,而且特别适合多人在同一虚拟环境中的互动需要。Oculus则假想用户坐在PC附近,通过在面前放一个摄像头或类似光塔的设备进行定位。Inside-out定位方法则是通过头盔自带的传感器向外部环境观看,利用视觉跟踪SLAM技术来定位并以陀螺仪和加速度记传感器为辅助来定位,该方法的精度目前存在漂移还不够稳定的问题,但无需光塔等外设,更加适合单人使用,操作便捷。为了与虚拟现实中的景物互动,除了姿位估计,还需要手势跟踪和动作捕捉来交互。暴风魔镜五代集成了leap motion的红外线手势识别设备,intel real sense设备利用深度摄像头和可见光识别手势,它们都允许用户通过手指来自由触控界面。诺亦腾研发了基于陀螺仪的传感器来做捕捉动作,该设备穿戴在人体关节上,比传统光学跟踪具有更好的性价比。在电影《阿凡达》和《人猿星球》中,演员的面前放置一个摄像头跟踪面部表情的荧光点来驱动虚拟的avatar模型。表情跟踪在虚拟社交、虚拟会议中具有重要的用途。
内容制作是VR发展的血肉
再好的VR设备,也要依托精彩的内容为用户提供丰富的VR体验和服务。除了3DVR游戏,VR全景视频内容制作是VR内容的重要组成部分。影视特效创作者、电影学院和很多互联网视频公司已经开始探索,并取得了很多宝贵的经验。
传统视频都是有边框的,通过摄像机的推拉摇移进行拍摄,采用后期剪辑的蒙太奇方式来进行叙事和艺术加工,观众必须跟随导播的切换来观看指定机位的画面。而VR视频是没有边框的,眼眶代替了画框。VR影视更像是戏剧,观众可以摇头走动、自由观看想要的视角内容,这也为VR影视拍摄提出了崭新挑战。例如:如何遮挡一览无余的杂乱背景,如何在多机位和多镜头间切换,如何交互改变叙事的情节?VR视频通常固定机位拍摄360度全方位的景物。为了剔除不要的背景,可以采用传统绿幕的拍摄方式,后期再将绿幕替换为实拍或虚拟的场景。最近,北京电影学院李金辉提出了跟随拍摄,one scene-one set-one shot的拍摄手法,比较适合VR影视内容的拍摄。在一个场景中,将VR摄像机挂到钢丝威亚(飞猫)上,模拟人的第一视角跟随演员的运动进行拍摄,从而形成一气呵成的长镜头,达到流畅的VR观赏和情节互动发展的要求。
爱奇艺、优酷、腾讯、乐视、暴风、强氧科技、互动视界、兰亭数字等互联网视频公司在VR互联网直播和录播方面做了很多有益的尝试。在远距离如何拍摄出舞台演员的清晰画面是最具挑战的一个问题。比如一场演唱会,不可能把摄像机放到距演员两三米的位置进行拍摄,否则会挡住后方观众的视线。VR摄像机通常放在距舞台10-20米的位置,所以特别需要8k以上的超高清摄像机看清细节,并模拟生成靠近演员的4K全景图。传统摄像机通过多机位切换,实现多姿位的观看。VR全景视频拍摄同样需要多机位切换(或光场相机记录全息数据,支持任意位置的观赏),从而提高不同位置、不同视角观赏内容的自主性和艺术感。类似传统影视,VR视频仍需要后期的精心制作,国外VR影视也有很多相关尝试。例如:美国Oculus、国家地理以及VR工作室Felix & Paul制作的《穿越岁月》短片,使用360度3DVR摄像机拍摄了美国总统奥巴马一家在优山美地国家森林公园游览的故事。由于它是立体拍摄,景深效果十分出众。这让你感觉自己好像站立在山顶或者在森林中最高的大树底下,画面十分清晰、优美。另外,Oculus Story Studio制作的VR动画片《Henry》获得美国最高影视奖艾美奖。在《Henry》全景动画片中,观众可以加入这只孤独小刺猬的生日Party,并跟着它在屋子周围忙前忙后,准备蛋糕和派对,也许还能找到一些朋友。一部分主流媒体和从业人士认为,这个奖项的颁发是VR技术逐渐被大众所认同的表现。
VR技术日益成熟,但是依然还有很大的发展空间。首先需要更加轻便、快速的显示设备,保证用户体验舒适。需要更快的网络来传送高码率的VR视频,使用户能够流畅无卡顿地观赏。除了手势交互外,还需要更全面的感知系统,例如视觉、听觉、身体姿态、触觉、力学反馈等。不仅仅局限在游戏和视频,VR内容也需要更加丰富更加优质的内容制作,包括新闻、电商、旅行、教育、医疗等领域。对VR视频来说,需要更广阔的视角,允许用户在虚拟世界中不但可以转头观看还可以行走漫游。另外,VR发展还需要尽快制定硬件、软件及视频内容的标准,让软、硬件集成和内容播放能够彼此兼容,更加专业化。
Gartner发布的2016年新兴技术成熟度的曲线上,预测VR已经进入到工业产品化的起跑线位置。VR已经从技术研究热点的沉寂期逐渐过渡到各行各业的产品开发期,对VR拍摄、拼接编辑、传输编码、显示等技术都提出了更高的挑战。如何制作出优质的VR内容,清晰流畅地呈现给用户,让用户在虚拟世界中体验到接近真实世界甚至超越真实世界的奇观感受,是所有VR同仁们共同的努力目标。
(作者王涛系中国计算机学会(CCF)理事、计算机视觉专委会副主任,爱奇艺公司首席科学家。作者段有桥系爱奇艺高级副总裁,国家数字电视工程中心理事会理事,中关村互联网电视产业联盟秘书长。)