电商仓库_仓库租赁_上海仓库托管_第三方物流仓库-上海阳合仓储有限公司

走进阳合

物流作业控制管理中数据仓库和数据挖掘技术的应用研究

1 引言

物流产业作为现代服务业之一其显著特征是物流服务的信息化, 要将物流产业运作中的信息流进行有效的整合并为相关业务决策提供智能辅助, 就必须借助于数据仓库和数据挖掘技术来发现隐藏在海量的物流作业数据信息中的业务模式和知识。同时现代物流作业的精细化运作也要求使用数据仓库和数据挖掘技术对整个物流作业过程进行智能化管理和控制, 为此, 本文研究和分析了数据仓库和数据挖掘技术在现代物流作业控制管理中的应用, 设计和构建了现代物流作业控制和管理的数据仓库, 对数据仓库进行了数据的查询、分析和挖掘, 力图实现物流作业控制管理的优化。

2 物流作业控制管理中数据仓库和数据挖掘技术应用的相关需求分析

本文以运输企业的快运物流作业作为数据仓库构建和数据挖掘实施的基本载体, 运输企业在激烈市场竞争中面对快速变化的需求就必须将分布式数据有效地归集和集成起来以便综合批量化处理, 为此就需要构建起一个集成运输作业控制管理的数据仓库。对于该数据仓库的构建从系统界定、主题域确定和数据视图确定三个方面去分析。

2.1 系统界定

运输企业构建数据仓库的基本目的是准确有效地掌握其运输业务的经营状况并为其制定一个较为长期的经营策略, 而摆在运输企业经营决策者面前的紧迫问题是把握其经营状况的变化, 所使用的数据主要为公司所有托运业务单据上的业务信息。

2.2 主题域的确定

根据运输企业开展快运业务数据集成化的需求分析, 在对其数据仓库系统界定的基础上, 本文认为财务分析为其数据仓库的主题域或主题, 对该主题进行分析的公共键码或共有字段属性为货物编号, 相关辅助托运单据信息为货物类型、货物名称、原始运输费用、办理日期序列号、业务费用、保险金额以及总运输费用等。表1给出了该数据仓库主题的描述。

表1 数据仓库主题的描述下载原图

2.3 数据视图的确定

数据仓库中的数据视图由维度和测量值两个基本元组所组成, 根据对运输企业快运业务的相关市场调查和分析, 本文设计了四个维度和三个测量值, 四个维度分别为年度分布维、货物类型维、地域分布维和揽货方式维, 其中货物类型维度是由货物类别和货物名称构成的复合维度, 地域分布维是由地、市、办事处构成的复合维度;三个测量值分别为保险费用、原始运输费用和总运输费用三部分构成, 三个测量值由揽货方式、地域分布、货物类型和年度分布这几个维度因素所决定。

一个复合维由多个成员组成, 其中的每个成员是该维度的一个取值。货物类型维可以由计算机硬件、家电产品两个成员, 华东地区上海浦东办事处则是地域分布维的一个取值, 上门取货则是货物承揽方式维度的一个成员。维成员可以按照一定标准进行分类, 维与测量值的笛卡尔积称为数据单元, 因此存在下面几种形式的数据运算, 即测量值X维度=

3 基于数据仓库和数据挖掘技术的物流作业控制管理功能模块的设计

用数据仓库和数据挖掘技术对物流作业实施控制和管理主要涉及到如下三个方面功能模块的设计, 即物流作业逻辑模块的设计、物流作业数据挖掘物理模型的设计以及物流作业控制管理数据仓库模块的生成设计等3个部分。

3.1 物流作业逻辑模块的设计

(1) 主题域的分析。运费、成本、利润、资金和客户是一般财务分析管理系统所涉及的主要对象和主题, 在本文所构建的数据仓库主题域的选择方面直接定位在快运业务费用分析, 并以其作为实施主题。

(2) 划分粒度层次。数据仓库的粒度大小是数据仓库设计中需要考虑的重点问题, 其不但影响到数据仓库中数据存储量的大小和存储架构, 而且还会影响到其与数据仓库应用者的交互方式和问答类型。数据仓库力度层次的划分需要搞清楚以下几个问题:

一是对数据仓库中未来可能存储的数据记录条数和直接访问存储设备的数量要有一个相近的预计和估测;二是根据上述预计和估测来决定数据仓库的划分粒度, 该运输公司在全国布局了约70个分公司办事处, 其中每个分公司和办事处每天的业务处理量在1 000笔左右, 这样一年数据仓库就可以存储超过1 000多万条业务数据记录, 这样的存储信息量和数据增量方式要求数据仓库采用双重粒度结构。

(3) 数据分割。数据仓库中的数据分割是指逻辑上的分割, 即将整个数据仓库中的数据根据其逻辑关系分割为若干个相互独立、可以单独进行管理的区域, 从而便于整个数据仓库的重新构造、组织和恢复, 并提高数据仓库在数据挖掘和数据信息查询处理中的效率和速度, 在数据仓库粒度分割中需要考虑的因素主要包括数据对象和数据量的大小、数据分割标准的难易程度以及数据分割标准与数据粒度划分策略的统一程度等。

根据以上分析, 图1给出了事实表和维度表的物流作业星形逻辑模块结构模式。

图1 数据仓库的星形业务逻辑模块结构下载原图

3.2 物流作业数据挖掘物理模型的设计

数据仓库的物理模型是指包括存储结构、数据存取方式、存放位置和存储分配等在内的物理存储单元, 维护成本和运作效率是其设计时主要考虑的因素, 为此将近三年的数据存放在硬盘上, 其他数据则存放在分布式链接的存储设备中, 以减少整个系统的数据加载负荷, 并可以在需要时加入。数据存储的方式采取多维数据集的方式进行, 在关系数据库中以二维矩阵的方式组织数据, 提高数据的索引效率和检索处理速度。

3.3 物流作业控制管理数据仓库模块的生成设计

(1) 生成数据源。运输企业快运业务分析的原始数据源由其托运单据和年度时间维数据组成, 每个省市办事处作为一个数据库单元表格, 根据表格之间的内在逻辑关系构建以日期维、揽货方式维、地区维和货物类型维的视图, 维与表之间通过维度表的主键进行链接, 在搭建好数据源架构之后, 将该运输企业2010年的开运业务数据写入数据仓库之中从而生成数据源。

(2) 数据转换。在数据仓库生成以前, 必须将数据源中的数据使用一定的要求和规则来予以过滤和清理, 为此就需要DTS (Data Transfer Service) 即数据转换服务。DTS在将数据源数据传送到数据仓库的过程经历抽取、转换和加载三个阶段, 为此必须完成下面两个步骤:一是将数据从事务级数据库转换到地区级数据库, 二是将数据从地区级数据库加载到数据仓库, 根据图1所示的数据仓库星形结构模式, 将数据源视图的结构调整为与数据仓库架构相似的字段属性和取值, 按照一定的过滤规则和就可以完成数据转换任务, 目标数据通过DTS包的形式加载到数据仓库中, 并在需要链接时随时更新数据仓库数据。

(3) 生成数据仓库。在完成上述数据抽取之后, 该运输公司2010年的快递业务数据就初步完成了向数据仓库的加载, 由于新的业务数据会不断生成, 因此要在后续环节不断地向数据仓库追加新的业务数据记录。此向功能可以使用数据仓库的Agent功能来实现, 通过对DTS数据转换包属性的调整即可使其在任意时间窗口执行。

(4) 数据立方体的创建。数据立方体是建立在信息表和事实表基础之上的包含度量值和维的数据包, 其有三种类型, 即ROLAP、MOLAP和HOLAP, 本文采用MOLAP的方式来创建数据立方体, 如图2所示, 并根据该立方体创建了利润和成本计算成员, 从而能够为运输公司快递业务的开展提供更多的决策支持信息。

图2 运输公司快递业务数据仓库数据立方体的解决方案下载原图

4 案例研究:基于数据仓库和数据挖掘的运输公司快递作业服务控制

在对运输公司快递作业构建了数据仓库和数据立方体之后, 就可以利用数据透视表服务向外部应用程序提供各种查询分析服务, 从而能够对快递作业进行管理和控制。

4.1 通过数据查询语言查询数据仓库信息

要根据管理控制决策的需要向数据仓库查询相关数据信息, 就需要通过ADO和DSO两个决策支持扩展对象建立外部应用程序与数据仓库之间的数据访问渠道。

(1) 利用多维查询语言 (MDX) 进行查询。MDX是多为数据库查询语言, 它可以对数据仓库和数据立方体进行深层次查询。利用MDX查询运输公司快递业务2010年第一季度的利润, 其语法表达如下:

select

{[Measures].[利润]}on columns,

{Top Count ([地域分布].[办事处名称].members, 10, [Measures].[利润]) }on rows

from[运输公司2010年财务分析]

where ([年度分布].[All年度分布].[2010].[Quarter 1]) .

(2) 利用视窗进行查询。许多数据仓库平台和工具都附带了视窗查询功能, 并且能够将查询结果导出或保存为日常所使用的文件格式, 从而方便运输信息数据的传播和使用, 通过不同维度、不同深度的数据钻去可以向外部链接对象、Active X控件、元数据对象等对象中加载数据仓库的数据。

4.2 业务规则数据信息挖掘

以SQL SERVER 2000数据库平台为例, 要在该平台上基于既定业务规则进行数据信息挖掘, 需要遵照三个步骤即选择事例、选择被预测实体、选择训练数据来依次选择数据挖掘的相关参数, 其提供了决策树算法和聚类算法的数据挖掘模型。本文以决策树算法的数据挖掘模型为例进行分析。

该运输公司快递业务的市场部希望了解客户的满意程度和客户保有率, 在原有会员卡方案的基础上进行重新调整和充实新的业务规则, 这就需要找出当前快递业务与会员卡相关信息如年收入、婚姻状况、教育程度、子女数等之间的关联模式。为此在选择事例步骤中就应该将客户表设置为事例维度, 并将会员卡类型字段设置为数据挖掘算法执行时所要识别的字段信息, 然后选择客户表中的年收入、婚姻状况、教育程度、子女数等字段, 接下来选择需要的训练模型, 这时就可以从视图窗口中查看数据挖掘的结果。

决策树数据挖掘模型结果中用条块的颜色深浅来代表事例即客户在所要挖掘的字段属性上的分布密度, 颜色深表示在该字段属性上分布的客户密度大。挖掘结果显示年收入在5万元以下已经结婚的高中教育程度的客户有87.56%的概率会选择铜卡, 这说明该运输公司的快递业务价格定价具有显著的收入弹性。因此市场部营销人员在重新制定会员卡方案时可以以此作为重要信息对相关会员卡业务进行调整。

5 总结

本文应用数据仓库和数据挖掘技术对物流作业控制管理问题进行了研究, 从物流作业的精细化和信息化操作方面出发, 研究了如何对物流作业控制管理过程构建数据仓库架构并实施相应的业务数据转换, 同时本文结合运输公司的快递运输业务进行了与理论分析同步的数据仓库构建和数据挖掘算法的演示。本文研究结果表明将数据仓库和数据挖掘技术应用到物流作业控制和管理中去, 可以显著地改善和优化物流企业的物流作业效率, 并能为物流企业管理层的决策提供智能支持。

标签：

上一篇：浅析高架仓库安全管理与对策

下一篇： EIQ在仓库管理中的应用分析研究

13472705338