数字视频编解码技术标准及其发展趋势
中国安防    2014/1/22 16:38:00    关键字:数字视频编解码技术标准 视频监控 安防      浏览量:

  一、数字编解码技术发展历程

  (一)国际视频压缩标准的制定与发展

  目前,数字视频的应用涵盖了各个领域。由于视频压缩标准为针对不同应用设计的系统之间提供了一种交互的手段,因此视频压缩标准也是数字视频应用发展的助推器。制定视频压缩标准的国际组织主要有两个:ITU-T和ISO/IEC。ITU-T推荐委员会制定的大多数标准都是为实时视频通信应用的,例如H.261、H.262.H.263和H.264;另一方面,ISO/IEC的MPEG标准大多是为视频存储、广播视频和视频流应用而制定的标准,包括MPEG-1、MPEG-2和MPEG-4等。两个标准化委员会组织在独立地致力于不同的标准的制定的同时,联合发展了H.262/MPEG-2和H.264/AVC。

  H.261是ITU-T制定的一个视频编码标准,属于视频编解码器部分。H.261是第一个实用的数字视频编码标准。其设计的目的是能够在带宽为64kbps倍数的综合业务数字网上传输质量可接受的视频信号。H.261使用了混合编码框架。H.261仅对与兼容性有关的码济语法、码济复用、解码过程等作了严格的限制性规定,而对复原图像质量指标有重要影响但不影响兼容性的部分不作限制性规定,给开发者、厂商和用户提供了很大的活动空间。

  H.263是国际电联ITU-T的一个标准草案,是为低码流通信而设计的,它提供了四种可选的编码算法:无限制的运动矢量模式、先进预测模式、PB帧模式和基于语意的算术预测模式。

  H.263+是H.263的第二个版本。H.263+提供了12个新的可协商模式和其他特征,如高级帧内编码、去块效应滤波、参考帧选择、SNR/时域/空域可分级性等,进一步提高了压缩编码性能。H.263+允许使用更多的源格式,图像时钟频率也有多种选择,拓宽应用范围;另一重要的改进是可扩展性,它允许多速率及多分辨率,增强了视频信息在易误码、易丢包异构网络环境下的传输,它还允许在码流内加入许多附加的信息,大大方便了用户的操作。

  H.263++是H.263的第三版本,H.263++在视频流的抗误码方面做了不少增强工作,提出了可逆VLC编码和基于数据分类的抗误码组合,同时扩展了参考帧选择模式;增强了抗误码系统的鲁棒性。

  H.26L设计目的是对多种图像信源实现低比特率、实时和低延迟的视频编码。H.26L是H.264的雏形。H.264同时也是MPEG-4第十部分。H.264作为新一代视频压缩算法,H.264吸收了以往各种编码方案、特别是MPEG-2和H263++的优点,并在语法结构、编码预测算法、数据变换输出方式等方面进行了很多改进,性能得到了很大的提高。编解码流程主要包括5个部分:帧间和帧内预测、变换和反交换、量化和反量化、环路滤波、熵编码。H.264具有以下特点:低码流、高质量的图像、容错能力强、网络适应性强。

  MPEG-1是MPEG组织制定的第一个视频和音频有损压缩标准。主要面向码率为15Mbps的视频信号的压缩编码,音频主要面向每通道64Kb/s、128Kb/s以及192Kb/s的数字音频信号的压缩。MPEG-1是为CD光碟介质定制的视频和音频压缩格式。MPEG-1采用了块方式的运动补偿、离散余弦变换(DCT)、量化等技术,并为12MbPS传输速率进行了优化。MPEG-1随后被VideoCD采用作为核心技术。另外,MPEG-1中设置了系统层和传送层。

  MPEG-2制定于1994年,提供高级工业标准的图像以及更高的传输率是其设计目标,它是为HDTV和DVD等制定的3MbpS-10MbpS的运动图像及其伴音的编码标准。MPEG-2语法的主要特点包括:同时支持隔行扫描输入和逐行扫描输入;提供一个较广的范围改变压缩比,以适应不同画面质量、存储容量以及带宽的要求。MPEG-2根据视频编码技术的复杂度,将各类应用划分为不同的档次(Profile)和级别(level),档次和级别的概念解决了比特流的可交换性和国际性。MPEG-2增加了可分级编码特性,允许从一个编码数据流中得到不同质量等级或不同时空分辨率的视频信号。

  MPEG-4于2000年初正式成为国际标准。MPEG-4的设计目标就是提供低比特率下的多媒体通信。MPEG-4与之前的标准相比更适于交互AVS服务以及远程监控,更加注重多媒体系统的交互性和灵活性。MPEG-4的压缩方法可以根据应用需求选取合适的算法进行系统裁剪。

  MPEG-7设计的目的就是解决海量的图像与声音信息、快速检索之间的矛盾。MPEG一7被称为多媒体内容描述接口。其目标就是产生一种描述多媒体内容数据的标准,满足实时、非实时以及推拉应用的需求。MPEG-7扩展现有标识内容的专用方案及有限的能力,包含更多的多媒体数据类型。MPEG-21设计的目标是将不同的协议、标准和技术等有机地融合在一起,同时制定新的标准,将这些不间的标准集成在一起。MPEG-21致力于为多媒体传输和使用定义一个标准化的、可互操作的和高度自动化的开放框架。MPEG-21的基本框架要素包括数字项目的识别和描述、内容表示、数字项目说明、内容管理与使用、知识产权管理和保护、终端、网络和事件报告等部分。

  VC-1是微软开发的视频编解码系统。VC-1是基于WindowsMediaVideo9压缩技术的影像压缩标准。压缩技术整合了MPEG及H.264之优点,运动搜索的精度可达四分之一像素。VC-1只有4种运动补偿(MotionComposition),压缩比无法胜过H.264。VC-1在压缩时间上,明显比H.264短了许多,复杂度约只有H.264的50%,对特效电影有很杰出的效能表现。

  (二)我国视频压缩标准的制定与发展

  AVS由数字音视频编解码技术标准工作组制定,是我国具备自主知识产权的第二代信源编码标准。编码效率比MPEG-2高2-3倍,与H.264相当,而且技术方案简洁,硬件实现复杂度低,达到了第二代标准的最高水平。AVS的主要创新在于提出了一批具体的优化技术,在较低的复杂度下实现了与国际标准相当的技术性能,有效地避开了用国际标准背后的大量复杂专利。AVS是为了适应数字电视广播、数字存储媒体、网络流媒体、多媒体通信等应用中对运动图像压缩技术的需要而制定的。其适用的主要范围包括:数字地面电视广播(Digital terrestrial television broadcasting,DTTB)、有线电视(CableTV,CATV)、交互存储媒体、直播卫星视频业务(Direct broadcast satellitevideo services,DBS)、宽带视频业务、多媒体邮件、分组网络的多媒体业务(Multimedia serviceson packet networks,MSPN)、实时通信业务(视频会议,可视电话等)等。AVS采用混合编码框架,包括变换、量化、嫡编码、帧内预测、帧间预测、环路滤波等技术模块,这是当前主流的技术路线。

  《安全防范监控数字视音频编解码技术标准》(简称SVAC,Surveillance Videoand Audio Cing)。SVAC标准是第一个旨在解决安全防范监控行业独特要求的技术标准,对确立中国公安和犯罪预防体系来说比较重要。SVAC标准已在2011年5月1日正式实施,适用于参与安全防范监控行业的所有提供商。

  目前H.264编码标准基于其高效的编码效率、强大的网络适应能力占据大部分市场,而以MPEG-2为代表的目前仍占据部分市场的数字视频编解码技术由于技术陈旧需要更新和收费等问题慢慢退出历史舞台。在我国,由于IPTV市场没有很好开拓,MPEG-2依然是市场主体,H.264正在逐渐扩大使用范围,AVS编码标准分担了部分H.264市场,SVAC虽已正式发布,但其作为首个旨在解决安全防范监控行业独特要求的技术标准,在安防行业的应用前景还不明朗。

  二、数字编解码技术说明

  二十年来数字编解码标准采用的基本方法几乎都是基于块的混合编码框架,混合编码框架其技术方式主要包括基于DCT变换编码、运动补偿的预测编码和熵编码这是现代视频编码的关键技术。所谓"基于块",指的是首先将一幅图像分成矩形的像素块,作为编码处理的基本单元。"混合"指的是消除时间冗余的运动估计与消除空间冗余的变换编码的结合。在理想情况下为了充分利用像素之间的空间相关性,变换应该应用于整幅图像或视频帧;另一方面,如果以单个像素为单位进行运动估计,就能够精确地消除时间冗余。但是以上两种方式的计算复杂度都相当高,且要求两者是互相矛盾的。因此,通常采用适当大小的矩形像素块作为变换编码和运动估计的基本单位,平衡了编码效率和计算复杂度两方面的矛盾。

  数字视频编码是减少数据冗余的过程。虽然表示数字视频的数据量很大,但数据之间往往保持高度的相关性,这些相关性表现出数据的冗余。视频压缩编码就是采用一定的方式减少数据之间的相关性,尽可能消除冗余,使数据最有效的表示信息。通常的数据冗余存在与三个方面,时间、空间和心理视觉冗余。

  空间冗余产生的原因在于视频序列都是由一帧一帧的图像序列组成,对于每帧图像,前景物体和背景都有很大的相关性。据统计,图像内的每个像素都与其距离小于16个像素点的像素相关。

  时间冗余存在的原因在于视频序列在时间上的相关性,视频帧在时间上呈现的是一种近似连续的变化;在动态视频序列中,前一帧图像和后一帧图像有很大的相关性,形成时间上的数据冗余。在一定的时间间隔内,视频序列中往往背景都相同,前景物体只做微小的变化,或平移、或旋转、或拉伸等等,所以相邻的两帧或几帧上间有许多相同或相近的地方,没有必要在每帧中都把这些数据信息表示出来。

  心理视觉冗余是由于人类视觉系统对图像的变化感知产生的,人的视觉系统是非均匀和非线性的,并不是图像的所有变化都能感知,同时,人眼对图像的亮度和色度的敏感度相差很大,对亮度的敏感度远大于色度的敏感度。心理视觉冗余就是利用人的错觉来压缩数据量。数字视频编码通过变换编码和预测编码达到消除冗余的目的,通过较小的带宽传输尽量多的有效数据。

  三、数字编解码技术发展前景

  随着计算机网络的不断发展和应用需求的多样化,对于视频编码技术的研究不再仅仅局限于压缩特性,而渐渐开始向网络适应性、用户交互性等方面转移。因此,这几年来,视频编码技术一方面继续以混合编码为框架研究如何进一步提高压缩特性,另一方面不断的向可伸缩编码、多视点编码、智能等分支方向发展。

  可伸缩编码技术将视频编解码框架转变为更多考虑网络适应性和灵活性的编解码框架。2005年2月,JVT将可伸缩性编码(Sca1able Video Coding,SVC)作为H.264标准的扩展,并起草了H.264标准的可伸缩性扩展第一草案。可伸缩视频编码因为具有时域、空域和质量等多方面的灵活性,不仅特别适合网络传输,而且应用到视频监控领域中还能满足监控视频资料的存储、检索、分析等方面的特殊需求。在安防行业,很多情况下,监控需要两份码流,一份为了本地存储,需要高分辨率高质量的视频,另一份是为了网络传输到监控中心实时查看,需要低分辨率中等质量的视频,常用的解决方案是编码两次。如果需要更多不同的码流就需要编码更多次,这样将大大增加计算量,现有的硬件条件很难满足。因此可伸缩视频编解码技术不仅是JVT组织中的当前热点研究问题,更是视频监控技术中的研究热点问题。到目前为止,实现可伸缩技术的方法大致上可以划分为两种:基于小波变换的可伸缩技术和基于传统的混合编码结构的可伸缩技术。基于小波的视频编码是指以离散小波变换(DWT)为核心的视频编码方案,分为以下四大类:纯三维小波方案、小波框架的运动补偿方案、小被子带预测方案、帧间小波滤波方案。基于混合编码结构的可伸缩技术包括:时间可伸缩、空间可伸缩和质量/信噪比可伸缩性。

  多视点编码技术。多视点视频是一种新型的具有立体感知和交互操作功能的视频技术,它由一组平行、会聚相机阵列拍摄得到视频信号。2001年,MPEG成立了3DAV工作组,其首要任务就是定义3D音视频领域的范围和应用场景,并为其中的关键技术制定标准。在视频监控类的应用中,多视点视频编码技术有助于实现多视角立体监控,多摄像头联动等应用。视点间相关性是多视点视频序列的重要特性,它与相机阵列形式、相机间距、相机和拍摄对象间距离存在极大的关系,直接反映在同一时刻相邻视点两幅图像的视差上。由于该类系统存在着大量的数据冗余,如何组织和压缩数据就成为重要的研究课题。

  安防行业的智能化已是发展的必然趋势,笔者认为如何将视频监控智能化与视频压缩编解码结合起来,也将是未来视频编解码发展的重要方向。早在MPEG-4的时代,就已经提出了基于内容的视频编码,将场景分割为不同的层次,如背景和前景等,对背景和前景分别利用不同的模型进行编码,不过由于当时视频监控智能化还未起步,因此这种基于内容的视频编码发展缓慢。智能视频监控技术涉及图像处理、图像分析、机器视觉、模式识别、人工智能等众多研究领域,视频监控的智能化表现为计算机视觉算法在视频分析中的应用。智能视频监控区别于传统意义上的监控系统在于变被动监控为主动监控(自动检测、识别潜在入侵者、可疑目标和突发事件),即它的智能性。简单而言,不仅用摄像机代替人眼;而且用计算机代替人、协助人,来完成监视或控制的任务,从而减轻人的负担,同时以智能分析为基础的编码技术,可以对视频的内容智能进行分类,采用不同的编码策略,也就是常说的感兴趣区域编码。基于智能分析的感兴趣区域编码就是指编码器根据智能分析的结果,对图片内容进行智能分类,然后在压缩时根据分类的结果指定不同的压缩质量,或在恢复时指定某些区域的解压缩要求。这是因为子波在空间和频率域上具有局域性,要完全恢复图像中的某个局部,并不需要所有编码都被精确保留,只要对应的一部分编码没有误差就可以了。在实际应用中,我们就可以对一幅图像中感兴趣的部分采用低压缩比以获取较好的图像效果,而对其他部分采用高压缩比以节省存储空间。这样就能在保证不丢失重要信息的同时又有效地压缩了数据量,实现了真正的交互式智能压缩。