随着我国经济的迅速发展,物资管理行业也得到了迅速发展。作为实现仓储、分拣等功能的物资仓库是目前物资管理的重要组成部分。科学的物资仓库管理,不但可以承载更多的功能需求,更能提高物资使用的便捷性。然而,物资数据来源多样、数据量大、数据类型复杂,传统的物资仓库数据管理方法无法实现物资信息的实时获取和对物资信息的多元检索,数据资源分散,资源存储反复,数据难共享、难利用问题日益严峻。仓库物资数据量剧增,管理物资数据的同时需要同步维护其携带的大量背景信息、来源信息、用途信息的准确性以及完整性。用于描述物资的背景信息、来源信息以及用途信息的元数据也成为仓库物资管理的要素。在这种需求背景下,需要重新对仓库物资信息的管理方法和检索途径进行思考和审视。
元数据在很大的程度上反映了的物资数据的信息特征。元数据可以记录数据流转时的来源、去处,通过元数据可以有效地把物资在仓库存入、运输等信息有效的管理起来,提高物资仓库的数据管理效率。除此之外,利用元数据管理物资信息,还可以提供高效率、高准确、多途径的检索方式,以元数据作为物资信息的外在表现元素,改善物资信息的可视化。
元数据是描述数据信息的数据,又称为“关于数据的数据,关于信息的信息”。如身高、体重、肤色、发型等就是描述人物的数据,可通过这些元数据特征信息,推测人物的整体信息等。元数据的应用不仅能够提高数据管理的灵活性和稳定性,并且,通过元数据的整合,可以提高数据管理的质量。由于元数据的重要性,关于元数据的研究受到了国内外广大学者的关注。SUFI S等学者指出,关于元数据描述标准与元数据内容标准,描述框架的指导性和规范性更强,并且这种指导性并不局限于特定的领域、特定的名词,这是对元数据描述框架的极大肯定;王国复等学者提出根据元数据对数据信息进行科学化管理,通过对元数据的分类、元数据的管理、元数据的平台等方向,对元数据的应用进行构建和解释。
总的来说,国内外学者都已经十分重视元数据的应用和发展,近年来,我国的元数据研究和应用一直呈上升趋势,但是元数据的应用场景多在图书、文档、情报等领域,而对于数据集成和业务分析领域的元数据技术研究仍存在不足之处。
随着元数据管理范围的不断扩大,公共仓库元模型(Com-mon Warehouse Metamodel,CWM)规范已经不能满足通用的元数据管理需求,亟须制定一套可扩展的元模型标准,实现各种元数据之间的通信和共享,支撑多元异构数据的自动采集与治理集成。
本文采用的元数据智能驱动技术,采用CWM元数据标准,实现对业务元数据、技术元数据、管理元数据的统一管理和存储,实现了元数据驱动数据标准、数据质量、物资信息、数据服务等功能。
采用自主研发的HDFS、Hive、HBase元数据采集技术,通过灵活配置数据源高效地实现Hadoop元数据自动采集和应用。为实现元模型规范的可扩展,本方案采用MOF规范,从元数据模型底层出发,保证元数据存储的统一管理基础,基于MOF规范,根据装备数据元数据管理的需求,采用CWM规范完整地描述了数据仓库元数据交换的语法和语义,CWM元模型由一些子元模型构成,这些子元模型在据仓库构建等方面描述出通用数据仓库的元数据。数据源方面,元模型能描述面向对象的、关系型的、记录型的、多维的和XML的源数据。数据分析方面,元模型能描述数据转换、联机处理分析(OLAP)、数据挖掘、结果信息可视化等。数据仓库管理方面,元模型能描述数据仓库流程和操作结果。
本文基于CWM元模型标准提供了业务元数据、技术元数据、管理元数据的统一管理和存储,支持元数据详细信息的查看和追踪,使用者在业务处理上可以更加方便快捷的进行数据结构、数据组成的查看以及数据流向的追踪;支持元数据的高级查询功能,提供元数据的快速定位。本文设计的基于元数据的物资仓库管理软件针对仓库数据的固有特征,优化物资信息的存储方式,通过元数据提供数据影响分析、血缘分析、全链分析等功能,提供科学直观的数字化展示界面,支持数据的下载查看,以元数据为核心,对外提供统一元数据接口,实现对物资仓库的有效管理。
元数据类型复杂多变,数据量大且不断扩增,本文提出的物资仓库管理办法利用可插拔的适配器方式进行元数据的获取和采集,具体元数据采集适配架构如图1所示。图中,数据采集适配器支持数据类元数据、技术类元数据、业务类元数据等多种数据类型的采集,针对不同类型的元数据,采用不同的采集适配器进行处理,最后进行采集元数据的存储。
元数据智能驱动技术主要解决两个核心问题,一是制定可扩展的元模型标准,实现各种元数据之间的通信和共享;二是解决多源异构数据的自动采集问题。该技术能够实现基于元数据的数据治理、数据血缘分析和影响域分析,为开展数据治理、数据共享使用提供支撑。
仓库物资数据检索分析需要海量的物资背景、物资来源、物资用途、物资生产等数据。面对如此复杂且海量的数据元素,在进行检索分析时,需要非常巨大计算能力才能完成。传统的数据检索采用的是集中式计算,不仅耗时过长,而且对计算机的硬件配置要求过高。本文采用的分布式计算,通过将数据检索任务分解为多个相互关联且细小的部分,并将分解的任务分配给多台计算机进行处理,这样不仅降低了数据检索所消耗的时间,大大提高的数据检索的效率,而且还降低了软件对计算机硬件的要求。
目前数据分布式处理主要包括侧重海量数据处理能力的复杂批量式处理、针对数据关联的历史数据交互式处理以及针对数据处理实时性的实时数据流式处理,对于以上这三种分布式数据处理方式,可供选择的计算框架主要有Hadoop、Spark以及Storm分布式处理框架。由于Spark在并行计算中,DAG迭代优化和内存数据优化,使得在分析领域的计算速度远远高于Hadoop的计算模型,因此在计算模型和体系的选择上有较大优势。因此,本方案基于Spark的计算模型实现。
本文提出基于Spark的计算模型实现,利用Spark在并行计算时运算速度快的优势,提高软件数据检索的实时性,改善数据检索效率。基于Spark架构的分析建模架构如图2所示。
采用Spark计算集群实现海量数据的模型训练及数据挖掘分析,可快速热插拔式集群设计,让计算能力可以无缝提升,优秀的计算架构能使CPU占用率降低20%。并为客户提供单机、分布式运行环境,同时还可根据客户实际业务需要,对计算平台进行整合扩展。
该技术能够解决海量数据分析挖掘或者复杂计算模型单机计算效率低下、耗时长的问题,提供分布式并行计算能力扩展,轻松应对数据量持续增长,提供高效的挖掘分析数据处理能力,支持超大数据集,支持高吞吐量的数据读取,支持GB到PB级数据量训练;提供高性能处理,支持高效的并行化处理方式;支持流式的数据访问,一次写入多次读写;支持高效的结构化、非结构化处理性能。该技术能够对各类仓库物资数据进行复杂的批量处理,快速挖掘分析海量仓库物资数据,节约了整体计算时间,大大提高计算效率,为仓库物资数据的快速检索、分析提供重要保障。
基于元数据的物资仓库管理软件的主要功能包括仓库物资信息的管理、存储、综合检索以及对物资标签信息的设置。软件根据物资仓库管理的实际业务需要,对物资信息进行录入、维护、查询等操作,支持将已录入物资信息按特定格式导出,具体处理流程如图3所示。
在物资仓库管理软件存储物资信息时,通过填写物资任务名称、物资库存数量、物资类别、来源、国家以及年度等信息,进行物资信息的录入,物资信息存储的相关实现代码为:
存储后物资信息显示、维护页面如图4所示。
在录入物资信息时,提供对物资信息标签的设置功能,支持根据信息标签分类、检索物资信息,相关实现代码为:
物资信息录入时数据标签设置界面如图5所示。
在录入信息时新增的数据标签会在左侧分类树下方进行显示,用于物资数据的常用检索,同时在表单上方提供综合查询功能,满足物资仓库管理过程中更为复杂的检索方式。
本文研究了基于元数据的物资仓库管理系统的整体设计方案和实现方法,对元数据如何分类、如何检索分析以及数据模型搭建等内容进行了总结,呈现了基于Spark架构的海量数据的模型训练及数据挖掘分析能力,可以看出海量数据处理需求对元数据模型构建技术的依赖,可以预见基于元数据的物资仓库管理系统将成为物资管理领域的热点应用。
标签:
上一篇: 多区型仓库多复核台场景的拣货路径优化研究
下一篇: 《仓库管理实操从入门到精通》