随着信息社会的发展,大数据已经成为新时代重要的战略资源。运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力,已成为目前我国信息化发展的核心主题和战略抉择。无线电管理数据资源蕴含着巨大潜力和能量,利用先进的云计算和大数据技术,开展无线电管理数据中心建设,加强数据深度挖掘,支撑管理决策,是我国无线电管理信息化工作的核心内容,也是新时期无线电管理工作服务制造强国、网络强国和数字中国建设的必然需要。
数据中心建设是一项系统工程,不可能一蹴而就。我们按照“以需求为导向,深度挖掘数据资源价值,加强应用软件开发和使用,为经济社会发展提供服务”的原则,对无线电管理数据中心进行设计和建设研究[1],并通过试点项目建设,对无线电管理过程中产生的部分结构化数据的采集存储、加工、分析展现进行研究,探索无线电管理数据中心的建设思路和方案,为未来数据中心的持续建设提供可行的技术储备和技术手段。
数据仓库是一个面向主题的、集成的、稳定的、反映时间变化的、用于支持管理决策的数据集合[2]。
数据仓库是面向主题的。所谓主题,是指用户使用数据仓库时所关心的重点方面,比如资产投入分析、频率台站分析等。面向主题,是指数据仓库内的信息是按照主题进行组织的。数据仓库是集成的,是指数据仓库中的数据是在对原有分散的数据库数据进行抽取、清洗的基础上经过系统加工、汇总和整理得到的,以保证数据仓库数据是整个企业一致的全局信息。数据仓库中的数据是稳定的,是指数据仓库主要为决策分析提供数据,所涉及的操作主要是数据查询。数据仓库反映时间变化,是指数据仓库中的数据随时间增量变化,通常包括历史信息,系统地记录了从开始应用数据仓库的时间点到当前的各阶段信息,可以对整个发展历程和未来趋势进行定量分析和预测。
其建设目标分为业务目标和技术目标。业务目标是融合现有频率、台站、监测、卫星、检测、资产等数据,围绕频率资源开发利用、资产投入效益情况等初步进行分析研究和可视化展示,为深入数据挖掘分析打基础。技术目标是基于现有工具软件,初步形成无线电管理数据中心系统软件环境,实现数据采集、加工、存储、分析、交换、管理等功能。
根据业务系统实际情况,我们所构建的数据中心平台架构如图1所示。在不同层次上形成了数据交换平台、数据加工平台、数据管理平台等内容。
数据交换平台主要解决各省(区、市)业务数据向上抽取、采集、汇总和业务系统之间的数据同步共享问题。提供横向与纵向数据交换支持,保证与外系统之间的基本数据交换,提供通用数据交换接口,实现数据共享。在本期无线电管理数据中心建设试点中,关于数据交换平台的构建主要分为数据采集系统和数据交换服务。
(1)数据采集系统:在数据中心建设中,当现有业务数据库数据不能完全满足主题分析需要时,可以通过开发数据采集系统对未收集汇总的数据进行采集汇总,实现数据集中,为实现“数入一库”以及数据仓库、数据集市的最终形成提供源数据基础。采集系统可以实现主题分析所需数据的补录,但由于补录数据并非业务流程中产生,即使设置一定的数据校验规则,数据质量也相对较差。
(2)数据交换服务:数据中心采集汇总了各业务数据库数据,并对其进行抽取、清洗、加载、转换、融合,生成了指标数据、多库表关联数据等。可以结合业务需要对外提供数据服务,便于业务系统基于数据中心数据进行开发,数据中心反哺于业务系统,实现业务系统增值。
数据加工平台是数据中心建设的核心部分,主要针对经由数据交换平台处理后的数据进行抽取、转换、加载(ETL),并最终形成数据仓库,为上层数据分析挖掘提供支撑。其中数据存储包括数据临时存储(STAGE)、数据历史存储(ODS)、数据仓库(DW)和管理数据存储四部分。STAGE数据库只保存来自业务系统的最新数据,ODS数据库保存了所有来自业务系统的历次版本的数据,两者数据结构与业务系统数据库一致。数据仓库数据结构与前两者完全不同,是依照分析主题进行设计的,包括所有的事实表及维度表。事实表是数据仓库结构的中心表,其内容包括度量值(指标)和度量分析时所需的维度键值。维度表是度量分析所需的维度属性集合。一般一个主题在数据仓库中对应的事实表和维度表,即一个数据集市。多个数据集市就构成了数据仓库。管理数据存储用于记录数据流向、数据处理时间和事件以及用户访问等。通过ETL操作,实现将数据从数据源抽取、转换、加载到STAGE数据库中,再到ODS数据库和数据仓库中。
数据管理平台为数据中心规范数据采集、存储和处理行为提供质量标准及管理运维工具,影响着数据的完整性、规范性和一致性,决定着数据中心建设质量与效果,所有进入数据中心的数据都要符合相应的数据标准。包括元数据管理、主数据管理、数据质量管理等。
元数据是关于数据的数据,用于定义数据的意义和系统各组成部分的关系,包括技术元数据和业务元数据。元数据用于建立、管理、使用和维护数据仓库。元数据管理系统是企业级数据仓库的关键组件,元数据由元数据管理系统自动生成。
主数据管理系统本是用于统一解决生产系统数据唯一性问题的。本期试点主要将业务系统中的数据字典加载到主数据管理系统中,用以规范数据仓库中数据的唯一性。
数据质量管理主要定义数据的清洗规则。例如可以设置清洗规则统一频率单位为k Hz,也可以设置清洗配置表,对相关值进行更改。
数据分析主要是基于数据仓库与数据集市的事实表和维度表,根据分析需要,建立多维分析模型Cube,对数据加工成果进行挖掘分析和可视化展现。分析结果可以通过统计报表、各种图表方式,结合地理信息系统等进行展示。多维分析模型和数据仓库中的数据表,还可以通过Power BI、Excel Power Pivot等多种分析工具进行自定义的挖掘分析。
为便于更好地理解,下面给出我们关于数据仓库建模的思路。
第一步,根据业务分析需求,确定需要分析的主题。例如频率台站融合主题、资产主题等。
第二步,确定主题后,研究分析主题所需要使用的度量(即指标)。比如频率台站融合主题的度量可以包括台站数量,资产主题的度量可以包括资产数量、资产价值等。
第三步,确定度量后,定义度量分析所需要的维度。比如频率台站融合主题中度量维度可以包括行业部门维度、行政区域维度、业务/通信系统/技术体制维度、规划频段维度、划分频段维度、日期维度,资产主题中度量维度可以包括区域维度、日期维度、资产状态维度、资产类别维度。
第四步,基于上述关于度量、维度的分析,就可以设计相应的事实表和维度表。即可确定数据仓库的存储结构。图2为频率台站融合主题对应事实表和维度表的ER图。图中心的表FACTStation_FREQ是事实表,其表项内容包括台站数量和相关维度表的键值。其他表均为维度表,其内容是维度取值的集合。维度是可以设计层次的,比如日期维度可以设计为年、半年、季、月等不同的粒度,行政区维度可以设计成省、地市等不同的粒度。这样便于下钻和上卷等挖掘分析。层次越多,粒度就越细。一般需要根据度量需要,采用最小粒度原则。维度表之间可以建立关联关系,比如图中DimTS、DimSytem、DimCategary分别为技术体制、通信系统、业务维度表。
第五步,建立ETL工具包,从SOUCE数据源向STAGE数据库抽取、转换、加载数据,再到ODS和DW中。图3为频率台站融合主题数据流图。图中Master_SourceToStage_Fuse.dtsx为从业务数据库数据表抽取、转换、加载数据到STAGE数据库中对应表格的ETL包,Master_Stage To DW_Fute.dtsx为从STAGE数据库抽取、转换、加载数据到数据仓库中对应事实表和维度表的ETL包。在ETL包中可以加入清洗、融合的存储过程以实现数据的清洗和融合关联。同时可以设置ETL包的执行频次,以实现数据定期自动抽取、清洗、转换、加载、融合等。
第六步,基于数据仓库和数据集市的事实表和维度表,根据分析需要,建立多维分析模型Cube,对数据加工成果进行挖掘分析和可视化展现。以频率台站主题的事实表和维度表为例,其建立的多维分析模型Cube如表1所示。
表1 多维分析模型Cube 下载原表
基于此多维分析模型,可以通过行政区、日期、规划频段等不同维度或多个维度组合分析台站数量指标(度量),也可以按行政区维度从省到地市向下钻取,从业务/通信系统/技术体制向下钻取,通过时间维度可以查看历史变化趋势,可以从年、季度、月、日钻取分析。
基于此思路,可以构建数据中心主题分析所需的所有数据模型,并基于数据模型,对相关分析指标进行多种形式的可视化展示。
通过本期试点工作,已初步建成数据中心平台技术架构,可在此基础上迭代加载新的数据模型,也可以此为基础建设以分析为主的应用系统。收集汇总频率、台站、资金、资产、干扰、执法等9类业务数据,并对部分业务数据进行了补录;经过清洗融合,建立了汇集业务数据、打通业务关联关系的数据仓库和多维数据集,基本形成中心数据资产。汇总各主题对应的度量和维度,提炼了基础指标体系[3],有助于系统、客观掌握业务现状,也有助于未来业务的深耕分析。基于多维数据模型和指标,提供了频谱综合分析、资产投入效益、频占费使用分析、干扰发生及排查分析、执法案例分析可视化界面,有助于直观掌握频谱资源开发利用、资产投入效益等情况,也可为后续挖掘分析提供参考。
“先行试点,总结经验,完善架构,逐步推广”是数据中心建设核心思路。结合试点工作,笔者有如下思考和建议:
进行数据中心建设,一定要有明确的业务需求和分析目的。首期建设要注意快速见效和规避风险,一定要选择紧迫程度高、数据成熟程度高、业务部门配合程度好的主题进行起步建设,并逐步迭代建设。同时,要以业务需求为导向,梳理业务分析所需的指标、分析维度及对数据的需求,做好数据顶层设计,对数据资源进行全面的收集和管理,是实现无线电管理数据挖掘分析的前提。第一,根据无线电管理业务实际需求,遵循“一数一源”原则,形成数据资源采集目录,明确各采集数据的责任主体。第二,丰富数据来源,根据业务需要逐步对数据资源采集目录进行扩充和更新。第三,建立科学的数据资源管理方法,对数据资源进行系统性规划和管理。
在试点中发现,由于各业务系统建设分散,缺少统一规划与标准,且没有进行有效数据治理,数据不准确、不完整、无法有效关联等质量问题突出,很多问题难以通过清洗转换规则来解决。由于数据质量问题使数据无法反映真实业务情况,直接影响数据分析结果的可靠性和可用性。目前无线电管理大多数基础数据来源于工作人员手工填报。一方面,应从数据生产的源头把好质量关,在填报环节加强对填报人员的培训,控制好填报质量,同时采取在业务系统数据填报中对存在关联性的数据项增加校验机制等,避免错误数据上报;另一方面,应制定相应数据采集质量评价标准和评估机制,建立数据问题反馈流程,逐步完善数据治理体系,全面解决数据质量问题。
无线电管理数据采集、存储、传输、建模、分析、管理等流程都需要统一的标准规范,从而保障数据内外部使用和交换的一致性与准确性。长期以来,由于无线电管理业务系统建设分散,建成时间、承建厂商各不相同等原因,数据互联互通难以实现。随着国家无线电监测中心“四库一化”建设工作的推进,陆续出台了一系列无线电管理数据库结构技术规范,系统间“竖井”结构通过数据服务接口形式建立了数据互通渠道。但在数据融合标准方面,仍存在较大差距。在试点中发现存在通用数据标准执行难度大、同一业务不同系统数据标准不统一、同种数据来源和标准不一致等问题。数据标准是数据资源在各业务系统中流转、交换、整合的基础,是数据间关联分析的必要条件。针对数据标准方面的现状和问题,一方面应加大已推出的各业务数据库标准规范宣贯和执行力度;另一方面,需不断完善无线电管理数据标准体系建设,明确无线电管理通用数据和业务专用数据定义,规范系统间和系统内部不同模块间的数据关联方式,进一步提升无线电管理数据标准化程度。
通过试点验证,目前我们采用的平台架构和技术路线总体是合理可行的,未来可对数据仓库平台架构与大数据平台架构的整合问题进行进一步研究。但总的来说,平台技术是相对成熟的,不同厂商的平台工具各有优缺点,且更新换代较快。建设数据中心重心应该放在明确业务分析需求、理清业务分析对数据的需求等方面。结合需要实现的数据分析需求,选择合适的工具软件。
建设无线电管理数据中心,通过挖掘数据价值,帮助提升无线电管理水平,是实现无线电管理现代化、精细化的有效路径,也是大数据时代的必然要求。数据中心的建设是一项系统工程,也是不断循环的启发式过程,需要以业务需求为导向,急用先上、注重实效地开展试点工作;需要在试点过程中及时总结经验,查找问题并纠正,逐步形成完善的架构和建设思路。
标签:
下一篇: 探讨无人仓库技术在铁路物资管理中的应用