网络摄像机的数字音视频编码技术_数字监控与模拟监控--中国安防行业网

相比较传统的模拟摄像机，网络摄像机最核心的技术就是视音频编码技术。网络摄像机视音频编码模块是指将采集到的图像和声音进行模数转换，然后对其进行编码，也就是对数字图像和声音进行压缩，以此减少原始图像和声音的比特流，在保证某种音视频质量的前提下，尽量适应普通网络传输宽带。所以视音频编码采用了很多音频和图像编码技术去解决视音频质量和网络宽带之间的平衡问题。

目前，我国在视音频产业领域已经具备较强的产业基础，但由于不掌握核心技术标准，相关企业长期受制于国外持有标准化专利与技术的企业和组织。为了支持和保障我国安防监控产业的健康发展，目前TC100和AVS两个标准化组织在共同开展面向安防监控的音视频编码标准（AVS—S）标准的制定。制定国有自主知识产权的AVS—S音视频标准对于规范安防视频监控核心技术，提升网络摄像机的核心技术含量是一个极好的机遇。

网络摄像机对视频编码的技术要求

在最初的监控系统中，视频处理技术仅仅用来压缩存储数字化的视频信息。但是随着安防监控系统网络化和智能化的发展，不仅仅要求视频处理技术能够提供比较高的压缩效率，还需要具有网络适应性和满足视频内容分析的需求等等。网络摄像机可以直接接入到TCP／IP的数字化网络中因此这种系统主要的功能就是在联网上面，通过工联网或者内部局域网进行视频和音频的传输。相比较传统的模拟摄像机，网络摄像机最核心的技术就是视频编码技术。下面将从两个方面分别详细介绍网络摄像机的技术对视频编码技术需求：

1、编码效率、复杂性、时延需求

在视频监控中，编解码设备的实现复杂度、所用编码算法的编码效率、编解码延时直接与产品的成本和性能相关。对于一个编解码器来说，它的实现复杂度首先在于选用的编解码功能模块。一般来讲，使用的编解码功能模块，即编解码工具越多，其成本也随之上升。对于实现相同功能的编码工具来说，其实现的复杂程度可以从计算复杂程度和数据访问量来估计。计算复杂程度即乘法使用量、加法使用量和位移使用量，从硬件实现上反映在硬件的规模和处理能力。数据访问量即是每次执行某项功能的时候，它从外部下载了多少数据，从硬件实现上反映在数据存储和访问次数的开销。例如，对于一个8×8块进行 1／4插值，H．264平均每个点需要117行的数据存储，26次加法和13次位移，而AVS需要10.5行的数据存储，17次加法和6次位移，即对于插值模块AVS比H264降低了10%的数据访问量，计算复杂度降低了40％。

编解码器时延是数据到达编／解码器和数据处理后送出编／解码器之间的时延。编解码器的时延包含等待处理的时间和处理所耗时间。等待处理的时间可能是编码环节次序的原因；比如B帧的缓存时延，也可能是解码器获取完整数据的等待时间。

处理时间是由编码复杂度决定的，一般复杂程度越高处理时间越长。编解码器的复杂度和时延通常和编码效率相关，复杂度越高，编码效率越高；时延越大，编码效率越高。反之亦然。因此在视频监控中选择一个优秀的编解码器解决方案，必须综合考虑编解码器的复杂度、编码效率、时延。

在目前的大规模监控系统中，一般是上万个摄像头进行监控。随着视频监控行业的飞速发展，视频监控系统的规模也会越发庞大。因此，构建一个大规模的视频监控系统，必须要考虑其成本。编解码器作为视频监控系统的主要构成部分，决定了视频监控系统的成本。例如，TI公司的DSP处理器tms320 dm642的价格在20美元到30美元之间，可以想象建一个上万个摄像头的视频监控系统，其硬件处理器的成本是相当惊人的。如果编／解码器的复杂度越低，那么就可以在同一处理器上集成更多的编解码器，整个视频监控的成本就会随之降低。因此，编解码器的复杂度要求不能过高，尤其是编码器。

视频监控系统是大规模异构网络联网，其网络传输资源也是相当有限的。在这种低带宽的条件下满足视频监控需求，编码器的编码效率一定要高，这样在相同带宽下可以得到更高质量的图像。另外，在一些极低带宽的应用场合，只有高编码效率的压缩器才能产生符合需求的码流。视频监控一般是实时监控，这有助于紧急情况的实时处理。比如交通监控时发现有事故发生，这个时候需要紧急调派人员在最短的时间内对事故进行处理，因此编解码器的延时一定要短。

2、网络带宽波动的适应性

相对于传统的CCTV系统，网络监控系统能够实现大范围的远程监控。但是网络带宽一般比较有限，且因为存在多种资源的争用，带宽具有时变性。因此当大容量的视频信息在网络上传输的时候，由于负载高于可用带宽，从而容易出现拥塞，导致丢包。给视频传输带来了很大的问题，进一步大量的丢包会引起视频流的停滞，出现大量马赛克效应甚至完全模糊不可辨认，导致码流不能正确解码。因此在异构网络上进行传输的时候，需要视频流的码率能够自适应网络带宽的变化。

根据目前公安部制定的城市安防视频监控联网的技术要求，监控视频传输需要适应多种网络情况；支持通过公安专网、互联网、无线网络等传输。特别是随着新型的宽带无线接人技术逐步成熟，由此产生的无线视频监控将成为今后发展的热点。所以在不同系统不同网络之间的协调工作的能力变得日趋重要。各种网络之间的互通成为必然，异构网络的融合颇受瞩目。如图2所示，一个大范围的网络监控系统可能涉及局域网（如楼宇内部、单位内部）、城域网（如平安城市的工程）、广域网（如面向公众的监控）、无线网（如在特种应用中）以及运营商IP网络等多种网络结构，并且监控终端也呈多样化。在这样的系统中，各个部分对视频流的码率、分辨率的参数要求并不相同。在许多安防监控场合中，摄像头采集到的图像不但需要将其通过传输网络发送出去，还需要对其进行存储，以便发生事件时能够进行法律上的调查取证。同一视频码流需要多次存储，使用高图像质量和高时域分辨率的视频码流进行短期存储，以便支持报警确认，使用低图像质量和低时域分辨率的视频流进行长期存储。安防监控需要将这些不同媒体、不同性能的多种网络统一建成单个逻辑网络，经过压缩编码的视频资需要能易于进行动态码率、帧率和空间分辨率等参数的转换，从而满足各类用户和应用的具体需求。

现有的视频编码技术

视频压缩编码的目标是在保证一定重构质量的前提下，以尽量少的比特数来表征视频信息。Torres等人根据编码技术利用的冗余类型不同，把图像和视频编码技术分为第一代和第二代。第一代视频压缩编码以Shannon信息论为基础，利用描述信源的统计概率模型，以像素或像素块为实体，采用一般信号分析方法消除视频数据间的相关冗余，达到压缩目标。这种基于像素的压缩方法称为第一代压缩编码方法，因为编码过程中不关心图像的具体内容较少考虑人的视觉特性、视频信息的具体含义和重要程度。目前国际标准主要采用了第一代视频编码技术如熵编码、变换编码、预测编码以及运动补偿、小波编码等。第二代视频编码技术所关心的是如何去除视频内容的冗余，认为人眼是视频信号的最终接收者，应充分考虑人眼视觉特性的影响，代表着未来视频编码的研究方向。尚未达到成熟的阶段，其编码方法有基于分割的对象编码方法、基于模型的编码方法和分形编码等。

目前，国内外的模拟监控系统逐渐被数字监控系统取代。视频监控数字化后，网络化监控技术得到了大规模的应用，很快初级的智能视频监控也已经得到初步的应用。在这一背景下，国内外可以用于安防监控的视频处理技术的研究主要集中在高效压缩编码、网络适应性、智能分析这三个方面。这三个方面的研究重点不同但是又互相联系、互相制约或者促进。高效压缩编码技术的研究起源最早，网络适应性技术在其研究成果上发展而来，而智能分析技术是将计算机视觉技术和编解码技术相结合产生的。反过来，网络适应性技术和智能分析技术的需求或者成果为高效压缩编码提供了新的思路，极大的促进了高效压缩编码的发展。

1、高效压缩编码技术

自视频编解码技术产生以来，其最重要的一个领域就是如何不断的提高视频编码的压缩效率，即率失<