您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据共享 >

多源异构大数据汇聚共享平台技术研究

发布时间:2019-06-11 23:14 来源:未知 编辑:admin

  随着我国新型智慧城市建设的发展,信息技术创新日新月异,数字化、网络化、智能化深入发展,大量的应用系统间需要数据交互、多个部门间、系统间形成复杂的网状结构,对于数据的生产、运用、维护和管理提出新挑战,本文主要研究多源异构数据的汇聚、抽取、清洗、转换、合并等,将数据整合统一,建立标准化的大数据汇聚共享平台,并对平台大数据汇聚、存储和共享的性能进行评估测试,具备较高的稳定性和可靠性。

  随着我国经济社会的发展,信息化在推动政府职能转变,推进社会治理体系和治理能力创新方面做出了重要贡献。同时,政务信息系统整合共享在局部取得了积极成效,但未能从全局上和根本上解决长期以来困扰我国政务信息化建设的“各自为政、条块分割、烟囱林立、信息孤岛”问题[1]。各应用系统之间数据整合和应用方面呈现数据汇聚难、共享难,协 同差、效率低等特点。

  当今世界,信息技术创新日新月异,数字化、网络化、智能化深入发展,在推动经济社会发展、促进国家治理体系和治理能力现代化、满足人民日益增长的美好生活需要方面发挥着越来越重要的作用[2]。随着我国智慧城市和数字政府建设的不断深入发展,逐步由分立的信息基础设施和应用系统建设,迈入数据综合利用与运营管理的新阶段,各级政府管理部门每天都生成大量的数据。由于早期建设缺乏顶层设计和规划,各部门之间数据的汇聚和共享均以各自应用为核心,多个部门间、系统间形成复杂的网状结构,对于数据的生产、运用、维护和管理提出新挑战。

  本文针对实时的消息类数据、各类结构化的报表数据和属性类数据、非结构化的文本图片、各类的视频语音的流式数据等多源异构数据的汇聚和 共享问题,提出构建统一的大数据汇聚共享平台,根据数据业务类型和 内容的差异,建立标准化的数据模型,研宄大数据管理和应用平台,多源异构数据的汇聚、抽取、清洗、转换和合并,以及异构数据在高并发情况下的交换、共享、互操作等技术和方法,并对平台性能进行评估测试。

  随着我国网络化、信息化和智能化水平的不断提高,隐型的网络和数据系统记录人们的身份信息、电子交易、车辆轨迹、事件案件、微信微博、采集数据、抓拍数据、视频识别和视频监控等数据,各类服务系统每天生成大量的数据,给人民的生产生活提供便利,同时海量数据的管理和应用提出了更高的挑战。

  由于缺乏顶层设计,应用系统分散建设、分散应用和分散管理,呈现多源性和异构性特征,表现为数据来源、数据结构、存储模式、数据标准、平台以及应用等的多样性。

  1)数据来源和结构多样性。由于各部门垂直管理、数据呈现条块分割,数据来源于不同层级、不同地域、不同职能部门。并且数据结构多样,异构的数据不仅是结构化的数据,还包括半结构化和非结构化的数据,如XML、文档、图片、视频等数据。

  2)数据存储模式多样性。目前数据存储模式以关系模式为主,此外还有对象模式、对象关系模式和文档嵌套模式等,不同模式在结构上存在差异,即便是同一类存储模式,模式结构可能也存在着差异。如MySQL、Oracle、DB2、Sybase、SQLServer、Hbase、Hive等。

  3)数据标准多样性。数据源所依赖的业务应用系统、数据库管理系统和操作系统之间都具有较大的不一致性。数据字段定义和数据库建设不具备统一的标准,不同来源的数据对同一业务对象描述也会产生语义多样性;相同数据资源结构不同,如在人口库中姓名字段在不同系统中有一个字段,也有姓、名分为两个字段的情况;语义的异构可能会引起表冲突、值冲突、属性冲突等问题。

  4)平台及应用多样性。由于缺乏顶层设计和规划,加之标准化力度不够,造成不同层级、不同地域、不同职能的部门间平台分散、管理分散、应用分散,没有形成统一的开放共享体系,导致数据资源重复采集、重复建设、分散管理。

  数据汇聚技术水平制约了数据应用的发展,数据之间无法进行有效的汇聚、共享和管理,导致各部门数据各自为政、重复建设,缺乏统一的数据平台解决数据分散性问题,降低数据之间互联互通的复杂性,打通信息壁垒,提高数据价值。

  大数据汇聚共享平台的设计,在充分考虑MySQL、Oracle、DB2、Sybase、SQLServer等数据库特点,根据不同数据应用,综合考虑接入能力、计算能力、存储能力和数据安全等功能和性能指标要求,认为以Hadoop为核心的数据处理框架,在大数据存储及计算方面优势明显,但因其与具体业务结合度不高,仅提供底层数据基础服务平台,在功能和性能上不能满足汇聚和共享方面的需求。本文提出在Hadoop、Hbase、Stream等技术框架的基础上,结合实际业务需求,研究构建基于多源异构数据的大数据汇聚共享平台,主要研宄多源异构数据的平台架构、数据汇聚、数据交换、数据存储、数据共享、数据服务和数据安全问题等关键技术。

  本文从数据的交换、存储、共享、服务、安全等方面着手,研宄数据平台。基于Hadoop分布式系统为基础的大数据平台架构,采用HDFS分布式存储,内部集成的JDBC、ODBC、Kafka、Sqo op组件,将数据从传统的关系数据库与HDFS无缝对接,计算层采用ApacheHBase实时在线数据处理和Hive计算执行引擎。大数据平台如图1所示主要包括五层级:异构数据汇聚层、数据交换整合层、大数据存储层、数据共享层和数据服务层;两个保障体系:安全保证体系、标准化体系。

  研究多源异构大数据多模式交换方法,实现逻辑层“数据整合”的支持;研究数据的高效存储和索引技术,实现对“数据化”和“高效查询”的支持;研究统一资源权限管控技术,实现对“多租户”访问的支持;研究面 向用户动态数据服务,实现服务层“数据开发”的支持;通过建立标准规范体系和数据安全保证体系,规范数据汇聚共享运作流程、保障业务持续性和数据安全性,形成面向大数据汇聚共享平台技术体系。

  面向教育、公安、民政、司法、人社、住建、交通、卫计、工商、安监、信访、流管、应急等部门数据,针对实时的消息类数据、各类结构化的报表数据和属性类数据、非结构化的文本图片、各类的视频语音的流式数据等数据类型,并根据实时性要求进行多源异构数据汇聚[4-7]。各个汇聚链路根据负载情况动态加载均衡负载。

  根据源系统数据类型,不同的数据交换协议汇聚不同数据来源的信息,如图2所示,可通过JDBC、ODBC、Kafka、Sqoop、FTP、ETL、XML、JSON等方式与数据源连接,数据汇聚至IJ 平台后,进行清洗、去重、去噪等预处理后,利用元数据映射机制,将多 类型异构系统数据资源映射到规范的逻辑空间,以构建数据共享服务体系。在不改变原始数据的前提下,实现结构化及文本图片类数据与业务应用的耦合。

  对于实时性要求高的各类消息流式数据,通过分布式消息队列进行收集,采用Stream+HolodeSk流式大数据处理框架对实时数据进行交互式处理和分析。消息流式数据汇聚如图3所示,平台每隔50-500ms从Kafka接收一批时序数据,将收到数据映射成二维关系表,进行变换并转成内存列式存储。变换后的数据实时写入Holodesk(ssd),数据持久化到SSD上,通过数据检索服务对SSD上的列式数据进行分析。

  对于视频类数据处理方式如4图所示。IPC、村居、镇街等其它安防设备通过NVR、DVR等前端汇聚设备或直连摄像机接入实时视频流,对于公安1类视频通过隔离转换设备接入平台。接入视频流经过流媒体转发、视频分析、视频结构化等服务将数据存储在分布式文件系统,同时可通过API、GB28181或公安部标准协议进行视频应用共享[5]。

  数据存储底层采用Hadoop分布式文件存储系统HDFS进行数据存储,HDFS采用三份副本策略保证数据的安全性以及可靠性。在HDFS之上提供分布式NOSQL实时数据库Hyperbase为高并发索 分析和事务支持提供平台支撑。如图5所示,Hyperbase通过多种索引支持海量数据多维度的毫秒级全局索引、全文索引、组合索引等检索查询。平台存储层支持各类结构化、半结构化、非结构化海量数据的低成本存储,为海量历史数据存储和使用提供基础支撑。通过Hyperbase提供高并发、低延时的检索能力,对外提供高性能数据访问服务。

  面对不同部门、不同应用和不同业务之间的共享需求,平台根据数据类型离线/流式、数据单位KB/MB/ GB/TB、数据实时性要求每周 /每 月 /实 时 、数据安全等级要求、数据是否加密要求等数据需求,开通不同权限保证资源的统一调配和权限的管控,包括数据的查询、上传、同步、下载、分析、模版等。

  针对共享需求、数据特性和业务场景,采用不同的数据服务方式。对于数据量大、实时性要求不高、业务逻辑简单,采用FTP方式进行数据共享;对于内部系统不同数据库数据共享,采用数据库直连的方式进行数据共享;对于实时、动态类的流式数据,采用分布式消息系统Kaflca实现不同应用、服务器之间的数据共享;对于跨编程语言和跨操作系统平台的远程调用采用WebServices技术相互交换数据;对于网络不通或有安全性等要求的情况下,采用拷贝、邮件、网络抓取等方式进行。

  在大数据汇聚共享平台实际应用中,决定整个平台效率的关键指标主要集中在对大数据的汇聚、存储、共享等处理环节。因此,对大数据的数据获取、吞吐量、数据分发等关键性能指标的测试可对系统效率进行评估,并对系统的稳定性和可靠性进行验证,识别平台体系中的瓶颈或薄弱的环节,发现程序隐含的问题或冲突,进而对系统进行调优,提升平台性能。

  本文选取具有代表性的典型场景对平台的关键性能指标进行测试。在数据汇聚层,对实时消息数据汇聚性能进行测试,主要测试指标为每秒消息数和每秒数据量;在数据存储层,对多文件写入性能进行测试,主要测试指标为平均写入速度和吞吐量;在数据共享层,对视频流数据分发共享性能进行测试,主要测试指标为并发数、丢包率和CPU利用率。

  集群节点基本配置:256GB内存、CPUE5-2620V2X2、硬盘8*1.2TSAS。

  在数据汇聚层,对实时消息数据汇聚性能进行测试。建立kafka集群,包括4个broker节点和2个producer节点,其中两个producer生产者节点的配置分别为4核,16G内存和8核,16G内存。使用两个副本数不同的topic,均有12个分区。利用kafka性能测试工具kafka-producer-perf-test.sh压测,配置线,batchsize为2000,messagesize为lOObyte和200byte,单次测试发送200万message,测试结果[8]如下表1所示。

  在数据存储层,对多文件写入性能进行测试。建立6个节点hadoop集群,包括2个NameNode和4个DataNode。Hadoop版本2.6,jdk版本1.8,写文件到hdfs,单个测试文件为100M左右,测试结果如表2所示。

  在数据共享层,对视频流数据分发共享性能进行测试。取10路高清视频流到一个视频转发服务器节点,网内多组客户端读取视频流,其视频码率约为1.8Mb/s,连续测试2H,测试结果如表3所示。

  本文研究的大数据汇聚共享平台在某地已经实际应用,集群规模超过20个节点,汇聚整合了18个不同委办局的数据,涵盖了人口、房屋、城市部件、事件、地理信息、法人、手机信令、应急和视频等各类数据,存储规模超过2PB,具有较高的数据汇聚、存储和共享效率。该地通过多源异构数据汇聚共享技术平台,构建了一个贯通上下、协同共享、交互快速 的数据交换共享体系,实现政府各部门各行业信息、数据的实时交互、共享、流转和互操作,有力推动数据互联互通,消除“信息孤岛”,提高数据价值。运用大数据汇聚共享平台,对于提升政府治理能力、优化公共服务水平、促进经济转型和创新发展,发挥重要作用,取得了良好的社会效益。

  [1] 国务院办公厅关于印发政务信息系统整合共享实施方案通知.国办发〔2017〕39号

  [2] 习致信祝贺首届数字中国建设峰会开幕.新华社,20180422

  [4] 刘岩,王华,秦叶阳,等. 智慧城市多源异构大数据处理框架[J]大数据,2017,3(1):51-60

  [5] GBT28181-2016 公共安全视频监控联网系统信息传输、交换、控制技术要求

  [7] 徐立新.基于异构数据资源整合的方法和系统实现.计算机技术与发展,第24卷第12期,2014,12

http://billsauctions.com/shujugongxiang/297.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有