
中华人民共和国国民经济和社会发展第十三个五年规划纲要(简称“十三五”规划(2016-2020年))中提出:“实施国家大数据战略,推进数据资源开放共享”。作为“十三五”十四大战略之一的“国家大数据战略”,我国《大数据产业“十三五”发展规划》也正在紧张制定中。“十三五”期间,大数据领域必将迎来建设高峰和投资良机。
大数据就是通过捕捉、挖掘、分析网民上网留下的数据痕迹,揭示背后隐藏的规律和趋势,大数据是互联网时代揭示社会规律、研究问题的重大技术,人们可以根据新媒体技术带来的大数据,在一定程度上较为准确地揭示社会发展的规律,把握事物的发展态势。
与其他调查方法相比,大数据的统计分析数据大、干扰性少、反映面广,而且真实、客观、可靠、准确,更能反映普通网民的真实动态。相比以往通过报道为数有限的群众的声音来反映民意,它更加真实、更加客观、更加全面、更加深入、更加直观、更有代表性。可见,大数据并不仅仅意味着字面意义上的“海量数据”,而是有了更多的维度。因而它超越了现有的技术手段的处理能力,并给政府带来了巨大的决策创新机遇。
一、大数据的特征
(一)数据体量巨大
截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
(二)是数据类型繁多
这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。安防大数据多属于非结构化数据。
(三)价值密度低
价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
(四)处理速度快
这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
二、大数据产业发展历程
目前,我国大数据产业正处于高速发展期,多种商业模式得到市场印证,新产品和服务不断推出,细分市场走向差异化竞争。
大数据的发展可以归纳为四个阶段:
(一)探索期(2009-2011年)
这个阶段,大数据产业在中国逐步受到关注,典型大数据产品及服务纷纷上线,互联网企业大数据率先应用落地。
(二)市场启动期(2012-2013年)
大数据概念普及,资本市场不断关注,具有数据资产的企业谋求转型。市场产品同质化出现,各色数据分析厂商借机粉墨登场。
(三)高速发展、应用成熟期(2014-现在)
这一阶段,大数据市场陆续出现商业模式,细分市场涌现。多种商业模式得到市场印证,新产品和服务具有稳定的刚性需求,细分市场走向差异化竞争,市场进一步规范。
三、大数据产业规模
在全球七大重点领域内(包括教育、交通、消费、电力、能源、大健康以及金融),大数据的应用价值预计在32200-53900亿美元之间。
2015年是中国大数据产业快速发展的一年,从政府层面到企业市场都到受到极大关注。2015年8月31日,国务院出台了《促进大数据发展行动纲要》,全面推动大数据产业的发展,提出了未来5-10年中国政府大数据平台搭建、大数据科技突破、民生应用和安全等各方面的内容和目标。同时,各地也积极开展大数据规划建设,北京、上海等一线城市在数据中心体量成型基础上,大力发展数据应用,将大数据与民生各领域充分融合。贵阳、兰州、盐城等地也纷纷引入数据中心的产业转型资源,探索大数据价值形成机制,成立大数据交易所。赛迪顾问认为,中国大数据市场经过多年的产业培育期,即将步入爆发期,在全社会范围内获得广泛应用。
在中国大数据市场全面启动的浪潮下,各大厂商也进一步加速布局大数据产品开发。主要分为以下五类:具备先天数据资源优势,通过发掘已有数据价值提升自身盈利能力,并为客户提供数据资源服务的互联网公司和电信运营商等资源型公司;提供具备更快数据读取能力和便捷数据管理产品,生产数据存储服务器和数据库工具的硬件公司;致力于优化数据挖掘算法,开发数据可视化的软件公司;搭建数据开放平台,汇聚各行业数据,并形成大数据价值交易机制的互联网公司;衔接各个行业,针对不同需求提供大数据应用解决方案的新型大数据公司。大数据市场的火热也导致资金流入、公司并购、业务重组等频繁发生。
据易观国际统计,2015年我国大数据市场规模已达102亿元,2017年有望达到170亿元。申万宏源报告分析称,10年后“大数据”可撬动万亿元级GDP。业内认为,大数据技术将是未来10年最主要的互联网新技术之一。
大数据已成为孕育创新创业的土壤。据不完全统计,全国的大数据公司约有四五百家,北京的创业公司最多。贵阳、武汉等积极推动大数据交易的城市,也是创业公司特别活跃的地方。
专家认为,在我国,大数据市场规模超过百亿元只是刚刚起步。目前,全国多地争相搭建交易平台,交易市场风生水起。
2014年2月,北京数海科技有限公司联合工信部电信研究院等70多家企业,共同发起建立“中关村大数据交易产业联盟”,并筹建起“中关村数海大数据平台”,平台包括电信、餐饮、建筑工程、医疗保险、社交沟通、视频在线、股票基金等数十类数据源,为政府、企业用户提供数据出售、购买服务等。目前平台注册企业已达2000多家,以互联网公司、科研机构居多,累计交易已达24亿次,交易额7000多万元。
北京数海科技有限公司还与国家统计局、北京市科委、北京市经信委、北京软交所等部门合作,先后启动建设“首都科技大数据平台”“北京市大数据交易服务平台”;与工信部、多地方政府签订协议,在重庆、安徽、河北等地建设大数据交易市场。
成立于2014年4月的贵阳大数据交易所,到2015年底交易额累计达到6100万元,以大数据引领的贵州电子信息产业增加值同比增长80%以上,交易品种包括政府、医疗、金融、企业大数据等30多个品种,其中50%集中在金融领域,10%为交通数据。交易所会员包括中国联通、京东、腾讯、余额宝、华为、中兴等300多家企业。
各地政府、企业也在加紧建设大数据交易平台。2015年,武汉先后成立了3家大数据交易平台,陕西省大数据交易所也在西安揭牌成立。上海、江苏、浙江等地都在积极筹建大数据交易平台。
四、大数据产业链
目前我国大数据产业链可细分为数据资源型、技术型、应用型三大类。以数据产品为中心的纵向结构与以大数据技术为中心的横向结构结成一个"T"型价值链结构。
美国科技研究机构Wikibon的数据显示,全球市场上技术型企业占比最高,如IBM、微软等;位于大数据产业链下游的是应用型企业,是推动大数据落地的重要力量,也是创新创业的重要领域,目前主要覆盖交通、医疗、营销、娱乐等行业。
四、大数据时代的挑战
当前,大数据发展有四方面的挑战:
(一)数据有效率有待提高
在数据的收集和利用中,大概有59%的数据是无效数据,数据有效率不足一半,在这方面有待进一步提高。
(二)数据过于复杂
在当前的大数据发展应用中,有70%的大数据过于复杂,并且没有规律性,这对于大数据的分析挖掘具有一定的难度。
(三)企业压力过大
企业数据架构无法适应数据量和复杂性增长的需求,压力渐增。
五、安防大数据
(一)安防大数据特点
在安防行业,随着前端设备分辨率的不断提高、安防系统建设规模的不断扩大以及视频、图片数据存储的时间越来越长,安防大数据问题日益凸显,具有以下特点:
安防大数据涉及的类型比较多,主要包含结构化、半结构化和非结构化的数据信息。其中结构化数据主要包括报警记录、系统日志、运维数据、摘要分析结构化描述记录以及各种相关的信息数据库,如人口库、六合一系统信息等;半结构化数据如人脸建模数据、指纹记录等;而非结构化数据主要包括视频录像和图片记录,如监控、报警、视频摘要等录像信息和卡口、人脸等图片信息。区别于其他行业大数据特点,安防大数据以非结构化的视频和图片为主,如何对非结构化的数据进行分析、提取、挖掘及处理,对安防行业提出了更多挑战。对于安防视频图像数据,传统的处理方式主要靠事后人工查阅来完成,效率极低。面对海量的安防数据,如果继续采用传统方式,不仅效率低下,而且不能达到实战应用目的,偏离了安防系统建设目的。
(二)安防大数据技术应用
在安防与大数据的融合中,主要涉及以下几项技术:
1.大数据融合技术
经过十几年的发展,国内安防系统建设基本形成了是以平安城市、智能交通系统为主体,其他行业系统有效完善的发展态势。而“重建设、轻应用”的现况给安防应用提出了更高要求,如何解决这些问题成为当务之急。
为实现数据融合、数据共享,首先要解决存储“分散”问题,安防存储系统不仅能够实现数据的有效融合与共享,解决系统在硬件设备故障条件下视频数据的正常存储和数据恢复问题,为安防大数据应用分析提供可靠基础。
2.大数据处理技术
安防大数据以半结构化和非结构化数据居多,要实现对安防大数据的分析和信息挖掘,首先要解决数据结构化问题。所谓的数据结构化就是通过某种方式将半结构化和非结构化数据转换为结构化数据。通过采用先进的云计算系统对安防非结构化数据进行结构化处理,为大数据的进一步分析和应用提供进一步支持。
3.大数据分析和挖掘技术
国内平安城市历经十几年的建设,在解决了稳定性、规模化之后,当下面临的问题是如何深化应用的问题,即如何实现公安部的要求,建为用、用为战的目标,实现对安防系统的深层次应用。
对安防大数据而言,要实现业务的深层次应用,首先需要对安防数据进行分析和挖掘,以云存储和云计算系统为基础,通过云计算系统实现对“大数据”的快速分析,如基于云的车牌识别,可通过对海量视频的分析,快速提取海量车牌信息,并通过应用系统对相关数据进行深一步挖掘、关联,形成有效“档案”。最后利用这些分析和挖掘的数据实现对事件的预测预防、报警,最终实现安防系统建设的实战应用目的。