十八大以来,“三农”问题一直是全党工作的重中之重,党中央对数字经济发展高度重视,数字经济的发展促进了数字中国建设。数字农业是数字中国的重要一环[2]。当前,由于数据收集、存储方式的差异,农业生产数据零散、缺乏有效的管理,从而影响了数据的利用效率。为了更加快速、便捷、精准地对农业生产数据进行分析,做出正确决策,必须对全国农业生产数据进行详尽的梳理,将筛选清洗过的数据存入到数据仓库中,以期为后续数据多角度决策分析提供支持。
数据仓库是阶段化、不可更新、集成化的数据集合[3]。数据仓库拥有明确的主题,是存储用户决策过程中最重要的部分。数据来源于分散的数据库,通过数据抽取、清洗和系统加工、汇总、整理得到[4]。数据仓库中的数据对于高效管理有着深远的影响。目前,数据仓库已经被广泛应用到金融、银行、企业、医疗、市场零售业中。企业为了应对市场愈加激烈的竞争,通过数据仓库对经营数据分析,做出正确的决策。随着移动互联网的飞速发展,数据仓库也逐渐在移动APP开发中起到了重要作用[5]。
20世纪60年代,E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展[6],OLTP主要功能是处理传统关系型数据库中基本的、日程的事务。20世纪90年代,随着社会的不断进步,数据量也不断增加,人们开始希望从数据中得到更多的信息,于是E.F.Codd又提出了联机分析处理(OLAP)的概念[7]。OLAP技术是数据仓库的核心部分,主要通过复杂的分析,为管理者提供决策支持。在过去的20多年中,OLAP技术得到了飞速的发展和广泛的应用。国内的OLAP技术更多的是在国外的基础上发展的,其中Palo是2017年百度公开的开源项目,由百度自行开发的交互式SQL数据仓库,具有高并发、低延迟的特点[8],这也是百度目前正在使用的OLAP引擎。
农业生产决策系统主要解决策略和战略部署问题,通过决策支持来发现规律、预测行情,帮助政府做出科学的决策。该系统基于B/S架构,系统的结构主要包括维度建模、ETL过程、OLAP服务器、信息程序设计等。ETL工具按照维度模型对数据源中的数据进行抽取、清洗、装载和刷新,存入数据仓库,数据经过OLAP服务器进行多维分析[9],通过前端工具展示给决策者。体系结构见图1。
维度模型又称星型模型,是逻辑设计技术,主要是通过设计标准的结构框架来直观的表现数据,建模之前需要对数据进行预处理[10]。维度建模主要设计流程包括对业务进行梳理、选择业务过程。对数据进行梳理、声明粒度,对事实表进行精确定义。对维度进行标识,确定来自业务过程中的数据该怎样描述。对事实进行标识,确定业务过程中的量度指标[11],以农作物为例,设计一个记录农作物的信息的事实表,包括作物生长时间、气象信息、作物生长状态、土地管理等,与这个事实表相关的维度表就是围绕着农作物数据信息的扩展[12]。数据仓库的星型模型如图2所示。
ETL过程是数据从一个数据库转移到另一个数据库的过程,但它并不是普通的数据转移,而是对数据进行抽取、清理、汇总和加载之后,存入到建模后的数据仓库中。在确定好主题之后,从数据源中提取到分析所需要的数据[13]。ETL模块内包含提取、转换、加载的工具,通过使用这些工具对数据进行合并异构、提起、清理、验证、转换和过滤[14],将处理好的数据加载到数据仓库中。从源数据库中获取的多维细节数据,如某一农作物每个村庄、每个季度的产量,但做趋势分析的时候需要的是该作物在某一大范围地区的产量,并对近几年的数据进行对比,因此对抽取的数据要在不同的维度上进行汇总[15]。农业数据种类繁多,存储类型复杂涉及范围广泛,在分析之前,必须经过数据清洗,将数据类型统一,为后续的分析创造便利。
OLAP是一种软件技术,在建立好数据仓库的基础上,进行包括上卷、下钻、切片和透视等操作[16]。一次性可以访问大量数据,但一般都是只读访问,也无须修改[17]。OLAP是多维数据分析集合工具,使操作人员从多个角度对数据进行分析。通过将农业生产数据仓库中的事实数据导入到OLAP服务器中,本研究采用ROLAP(关系联机分析处理)数据库,根据事实表和相关维度表构建的星型模型,利用Microsoft OLAP Analysis Services服务端组件,通过对时间维度、作物生长状态维度、气候信息维度、土地信息维度间的关系得出一个多为立方体,对立方体进行上卷、旋转、切片等操作,得到分析结果。
数据主要通过前端工具进行展示,包括各类表格、柱状图、饼状图、折线图等。前端通过直接调用ECharts插件实现数据可视化,通过图表清晰展现出数据之间的对比。通过对我国农业的海量生产数据进行多维度的分析,结合前端工具,将分析结果通过各类图表进行清晰的展示,政府也可以通过真实的数据对比更加直观地了解我国当前农业的发展现状,便于更加精准的实施决策。
在数字中国的建设过程中,农业正逐渐向信息化管理方向转变,但由于农业生产拥有庞大且繁杂的数据量,在现实使用过程中利用率极低。本研究有效地利用了OLAP技术和数据仓库,构建了基于数据仓库的农业生产决策系统模型,旨在对海量农业生产数据进行多维分析,获得对农业生产有决策作用的信息,同时能更好地为实现政府对农业精准决策和高效管理提供科学依据。
上一篇: 自动化立体仓库下位机控制系统的设计与实现
下一篇: 港口仓库安全管理工作存在的问题与对策