作为信息时代海量数据的来源之一,安防视频监控产生了巨大的信息数据。特别是近几年随着平安城市、智能交通、智能建筑等行业的快速发展,大集成、大联网推动安防行业进入大数据时代。安防行业大数据的存在已经被越来越多的人熟知,特别是安防行业海量的非结构化视频数据,以及飞速增长的特征数据(卡口过车数据、人像抓拍数据、异常行为数据等),带动了大数据的存储、管理、分析等一系列问题,吸引着更多人的关注。
大数据的本质是系统通过处理采集到的所有数据,去提取其特征和共性的信息。通过大数据的处理使得所有的数据都有价值。通过大数据的处理,把传统认为没有价值的信息也能够产生非常有价值的信息,这就叫做数据挖掘。同样的数据摆在我们面前不同的挖掘方法,不同的挖掘目标可以为各种各样的业务的应用产生有价值的信息。这就是大数据的本质。
安防行业代表企业也曾指出大数据概念提出和技术的应用,其实是信息大爆炸必须经历的技术进化,人们为了获取更丰富的数据,促进了计算机、互联网、物联网技术的飞速发展,而获取数据后,人们如何获取数据隐含的各种信息?如何更为深刻、全面的洞察数据隐含的内容?这些都为人类提升全面的洞察分析能力提供了前所未有的空间与潜力,当然,如此庞大的数据意味着更多的机会,提纯后的数据价值更大,意味着更有分析意义。而这些将成为从业人员的价值宝藏,通俗点说就是数据金矿,意味着财富,人们对海量数据的挖掘和使用,是促使行业增长、促使大众更多消费的手段,从而推动社会的不断前进。其实这是一种相互推进的关系,深刻、全面的洞察数据隐含内容后,用科技等手段去推动社会的快速发展,同时社会要更进一步发展则需要去更深层次的钻研大数据。
一、大数据基本概念
大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托?迈尔-舍恩伯格及肯尼斯?库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。
“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。
早在1980年,著名未来学家阿尔文?托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。且中国物联网校企联盟认为,物联网的发展离不开大数据,依靠大数据可以提供足够有利的资源。
随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台———并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。
对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据”这个术语最早期的引用可追溯到apacheorg的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFileSystem(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。
从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。
大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。
物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。
数据的最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,
它们按照进率1024(2的十次方)来计算:
1Byte=8bit
1KB=1,024Bytes
1MB=1,024KB=1,048,576Bytes
1GB=1,024MB=1,048,576KB=1,073,741,824Bytes
1TB=1,024GB=1,048,576MB=1,073,741,824KB=1,099,511,627,776Bytes
1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes
1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes
1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes
1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes
1DB=1024YB=1,237,940,039,285,380,274,899,124,224Bytes
1NB=1024DB=1,267,650,600,228,229,401,496,703,205,376Bytes
二、安防大数据的产生
根据IDC预测,全球在2010年正式进入ZB时代,全球数据量大约每两年翻一番,意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。爆炸式增长的数据,正推动人类进入大数据的时代。
维基百科全书的定义:“大数据是飞速增长的,用现有数据库管理工具难以管理的数据集合”。这些数据包括:社交媒体、移动设备、科学计算和城市中部署的各类传感器等等,其中视频又是构成数据体量最大的一部分。据IMSResearch统计,2011年全球摄像头的出货量达到2646万台,预计到2015年摄像头出货量达5454万台。2011年一天产生的视频监控数据超过1500PB,而累计历史数据将更为庞大,在视频监控大联网、高清化推动下,视频监控业务步入数据洪水时代不可避免。
安防行业的大数据主要来源于平安城市、智慧城市和智能交通等大型安防项目。当前,智慧城市建设已成为地方政府推进城镇化发展的重要途径,而随着智慧城市的发展,对高清摄像机和智能化监控设备的需求会持续增长,智能交通行业将成为新时期政府投资的重点领域,这将使未来几年视频监控行业仍保持高景气度。2012年中国安防智能化从核电站、机场与港口等,再到工业设施、教育、医疗等终端市场,已经渗透到居民小区、零售店铺、仓库管理、物流等民用市场。可以说中国智能安防市场应用百花齐放。而在园区监控中,智能化应用同样光彩斐然。园区监控市场,包括企业园区、校园园区、政府机关园区、监狱、港口、机场等多个行业的主要监控应用。
智慧城市领域有三条主线存在真实景气需求,分别是安防、智慧医疗与智慧交通。并且近年来在智慧城市的数据支持下,全国各地的平安城市建设发展迅速,越来越多的城市及用户正感受到这一工程带来的好处。目前,市场上承建省级平安城市项目最多的企业是中兴通讯,共承建了200个平安城市监控项目应用。此外,安防产业链上的代表公司还有海康威视、英飞拓、大华股份、银江股份、安居宝等。
云计算是当前一个热门的技术名词,很多专家认为,云计算会改变互联网的技术基础,甚至会影响整个产业的格局。正因为如此,很多大型企业都在研究云计算技术和基于云计算的服务,亚马逊、谷歌、微软、戴尔、IBM、SUN等IT国际巨头以及百度、阿里、著云台等国内业界都在其中。
三、安防大数据的特征
大数据涵盖了4V面向,分别是处理时效(Velocity)、数据格式(Variety)、数据量(Volume)与真实性(Veracity),通过快速的采集、发现和分析,从大量化、多类别的数据中提取价值。安防大数据时代最显著的特征就是数据共享,提高数据处理能力。天网工程就是最具代表性的案例,近年来天网工程已经在全国多个城市推广。安防行业的大数据以视频监控为主,视频监控数据有两个方面的内涵——海量和非结构化。视频监控数据量规模庞大,并且随着高清化、超高清化的趋势加强,视频监控数据规模将以更快的指数级别增长;与通常讲的结构化数据不同,视频监控业务产生的数据绝大多数以非结构化的数据为主,这给传统的数据管理和使用机制带来了极大的挑战。
与科学计算、互联网相比,视频监控的大数据处理难度尤大,首先,视频录像是更原始的非文本非结构化的数据,必须经过复杂繁重的分析处理才能提取出文本结构化的数据进行下一步处理;其次视频录像相对其它形式数据的容量要大几个数量级,对传输、存储和计算的带宽要求大。
四、安防大数据的主要应用
(一)智能交通
针对交通行业的海量数据处理需求,智能交通管理系统可以在海量数据、恶劣网络环境和复杂业务处理情况下,实现大量图片、车辆数据、视频数据的时时网络传输和快速持久化存储,同时对任意站点的图像进行显示,对任意站点的视频进行流畅播放、实时进行比对报警,快速进行多条件检索,并且将各类多媒体数据和车辆数据合二为一。系统实现对目前的城市道路交通中异常行为的智能识别和自动报警等,从而减轻了交管监控人员的工作负担,提高了监测的准确度,使得交通管理工作更高效。比如,实时交通状况分析可通过视频实时分析道路交通流量,然后综合分析统计出全城市的交通状况;套牌分析可通过视频进行车牌识别,按照一定的规则(如最近时间内一定距离以外)在全城市中检索相同车牌的汽车。
(二)公安执法
犯罪嫌疑人追查,可通过输入嫌疑人照片进行人脸特征识别并在所有视频中寻找该人脸;犯罪嫌疑车辆追查可输入嫌疑车的照片或颜色车型等相关特征在所有视频中寻找;人车物的轨迹分析即在所有视频中按照特征查找指定的人车物并绘制其时空轨迹;车辆的首次入城分析等。
五、安防大数据面临的主要问题
飞速增长的视频监控数据,使得传统视频监控体系架构、数据的管理方式、数据分析应用等面临新的困境。
困境一:数据量的急剧扩大和IT投资之间的矛盾。
按照IT产业的法则:在满足客户需求的前提之下,往往技术成本越低,其生命力往往越强。由于数据量的急速扩大,以及随之而来的大规模计算的需求越来越多,一味采用高配硬件,使得硬件投资成为客户不可承受之重,客户越来越希望在满足需求的前提下,用中低端的硬件来替换高配硬件。
困境二,海量数据和有效数据之间的矛盾。
摄像头7X24小时工作,如实记录镜头覆盖范围的发生的一切,仅仅记录信息是不够的,因为对于客户来讲可能大部分信息是无效,有效信息可能只分布在一个较短的时间段内,按照数学统计的说法,信息是呈现幂律分布的,也称之为信息的密度,往往越高密度的信息对客户价值越大。
困境三,资源利用和效率之间的矛盾,串行计算和并行计算的矛盾。
视频监控业务网络化、大联网后,网络内的设备越来越多,利用闲置的计算资源,实现资源的最大化利用,关乎运算的效率。在视频监控领域,往往视频分析的效率决定价值,更低的延迟、更准确的分析往往是平安城市这类客户的普遍需求。随着数据量的增加,哪怕对TB级别的数据进行对视频内容的数据分析和检索,采用串行计算的模式都可能需要花费数小时的计算,已远远不能胜任时效性的需求。视频的分析和检索,不能依赖于传统的手段,巨量数据的效率优化,并行计算是视频智能分析的唯一出路。
困境四,缺乏统一标准的问题。
随着平安城市发展迅速,越来越多的城市及用户正感受到这一工程带来的安全感。从2005年平安城市建设作为概念走进中国,8年建设中,平安城市建设不仅在技术上实现了突破,在建设理念上也实现了新飞跃。今后几年中,平安城市将不断向智慧城市靠拢。那么建设到何种程度才能算得上智慧呢?离真正智慧城市的路有多遥远呢?智慧城市中必须实现的是数据的共享,跨区域视频监控联网、监控资源整合与共享,政府各部门之间的视频监控资源的共享等等。但是不同的地方城市,不同的行业类别,不同的管理方式都会有不同的监控系统方案,一直都存在行业标准的缺乏问题,数据的融合或者共享中会有兼容性难题,有些甚至是不可实现的。
大规模视频监控联网的技术难度是比较大的,以实现异构平台互联互通为主要目的的联网接口协议在传统的安防技术规范较少涉及,如果联网接口协议未经验证测试,往往难以实现异构平台的互联互通,就算能够实现互通,在系统功能、稳定性等方面也会存在很多问题。从浙江省发布DB33/T629-2007以来,国内外也陆续发布了可以支持视频监控联网的技术协议,但从成熟度上看都存在一定的问题。
六、安防大数据核心技术
视频浓缩检索技术,主要是利用图像处理(包括视频浓缩、摘要、复原等)、模式识别、海量数据分类存储以及搜索等技术,对海量的存储录像等原始信息进行分析和挖掘,对于目标特征、目标行为、目标间关联关系这三大类信息内容,形成各种分类的特征信息库、元数据和索引等,并提供统一接口供外部应用进行搜索,以期通过有限的线索,达到案件快速关联和定位。
视频图像信息库建设,目前应用比较广泛的是卡口和电警的应用。由于车牌识别技术的日趋成熟,通过车牌、车牌颜色、车身、车身颜色、车辆类型等特征识别,把车辆图片、车辆信息、车主信息、盗抢车辆库等结合起来,可以有效的进行车辆的查找、布控和案件线索搜索。而其他如视频监控录像、案件等信息如何形成统一接口查询,如何进行有效数据关联,应用不是特别广泛。为此,国内很多科研单位和智能产品公司进行了多方面探索。如清华大学、中国科学院自动化研究所,上海交通大学、浙江大学等。
视频图像信息库建设和海量数据的处理、分析、检索,是提高效率的有力手段。通过视频智能分析技术,把海量的视频数据进行浓缩、提取特征摘要、减少了存储空间。如1小时的视频录像,通过特征值方式的视频浓缩,可以把录像压缩到10分钟左右。同时,视频图像信息库有别于传统的关系数据库模型,针对结构化,半结构化和非结构化数据,通过数据的多个副本分布式保存方式,可以有效节约存储空间,关键数据的二次备份,使系统架构更加稳定和可扩展,并且提供安全的负载均衡和容错机制。
视频图像信息库的建设,除了减少人力和搜索时间外,还可以通过搜索接口进行联网布控,对有针对性的特征图片进行匹配和模式识别,增强事前预警的功能。同时,这些系统的应用,将推动安防产业技术的进步和推广。