快捷搜索:

数据仓库技术和rfid能否联系上

1 无线射频识别RFID

RFID是Radio Frequency Identification的缩写,中文翻译为无线射频识别。RFID作为一种自动识别标签,是经由过程射频旌旗灯号来自动识别目标工具从而获取响应的数据。RFID标签有很多种的识别要领,但最为常见的是存储一个独一的序列号来标识一小我或者物品的信息。它是经由过程一个带有天线的微芯片来传输信息,芯片借助天线将识别信息传输给一个RFID涉猎器。这种技巧让用户能经由过程一个RFID涉猎器远间隔、非打仗地读取数据,在这个历程中涉猎器和芯片之间不必要有机器光学的打仗,并且这个历程不必要人工干预,在任何情况傍边均可自发完成。

RFID会使得原本的供应链治理系统变得更为智能,它改进了原始的二维条形码,使得响应的货物跟踪和订单治理的历程变得简略单纯。近几年沃尔玛开始在它们的供应链系统中应用这种技巧,RFID还被广泛利用于军事、邮政、航空、医疗等领域。由RFID的广泛利用而带来的新事物便是“物联网”,它意味着人们能经由过程无线收集随时获取数以亿计物品的位置及相关信息。

Jiawei Han(2006)觉得在数据仓库领域对RFID数据的钻研主要分为三个偏向:第一个偏向在于安然地网络和治理RFID标签携带的信息;第二个偏向是清理RFID数据中的偏差数据;第三个偏向是创建一个多维度的数据仓库,以供给对大年夜量RFID数据集的OLAP操作。这也是本文的评论争论内容。

2 RFID数据特点

RFID数据完全不合于传统的关联技巧或者数据仓库技巧中的数据,对这些不合之处的钻研恰是对RFID数据进行数据建仓事情的动身点,RFID数据主要有如下一些特点:

数据简单:RFID所孕育发生的数据可视为一个RFID元数据的流,元数据的布局主如果EPC、LocaTIon、TIme,EPC是Electronic Product Code的缩写,即电子产品代码,它用来独一识别一个物品。LocaTIon是RFID涉猎器读取该物品时的所在位置,TIme便是读取时的光阴。这种数据款式并没有携带太繁杂的信息,简单易读。

数据海量:RFID利用的紧张寻衅便是由此孕育发生的海量数据。

数据偏差:RFID数据的另一个紧张问题是RFID涉猎器在孕育发生数据流时会有偏差。在实际利用傍边RFID涉猎率大年夜概在60%~70%之间。

容许冗余:RFID涉猎器每隔固定一段光阴就会孕育发生一个(EPC,location,time)款式的元数据,当一个物体停顿在相同的地点一段光阴就会有很多元数据孕育发生,这就形成的数据的冗余,我们同样必要对这些冗余进行处置惩罚。

3 RFID数据清理

数据洗濯是在数据处置惩罚历程中最常见的问题之一,比如在数据仓库傍边进行各类预定义的成熟操作傍边都涉及到这一历程。在RFID傍边的数据主要存在以下三种问题:缺掉值,数据差错,数据冗余。

3.1 缺掉值和数据差错的处置惩罚

缺掉值和数据差错这类问题在RFID利用傍边非经常见,由于一些简陋的无线涉猎器在无线通信历程中会掉足。很多学者针对这类问题提出了多少办理规划,Yijian Bai(2007)提出的有效的RFID数据流过滤技巧、Shawn(2007)提出的ESP(Extensible Sensor Stream Processing,在线洗濯多层框架系统),付菡提出的基于定长滑动窗口的洗濯技巧等等。此中ESP作为主要的数据流洗濯措施分为五个阶段,每个阶段都对应一个不合数据处置惩罚的逻辑历程。ESP系统针对数据的光阴粒度和空间粒度,经由过程阐明性的查询说话来办理用户定义的功能,并经由过程实验证实ESP也得当于RFID数据流。

针对RFID数据流固有的弗成靠性,以及定长滑动窗口的窗口大年夜小不轻易确定,Shawn还提出了一种自适应的改变滑动窗口大年夜小的RFID数据洗濯措施——SMURF。

3.2 数据冗余

数据冗余的问题在RFID利用傍边也异常严重。数据的冗余主要有两个层面:在涉猎层面的冗余以及数据层面的冗余。

①涉猎层面的冗余:这种冗余是指一个RFID标签在同一个地点被不合的RFID涉猎器重复读取。办理这种问题的一个法子是,当一个RFID涉猎器打开时其它有交叉部分的涉猎器暂时关闭;其次,每个RFID涉猎器谋略出它所覆盖的RFID标签的数目,然后将这个数据向它所覆盖的每个RFID标签中书写。假如一个涉猎器一个标签都没有定,则这个涉猎器为多余的。

然则这个算法傍边有一个假定,便是每个涉猎器会在同一位置持续很长光阴,然而在实际中很多涉猎器是随时移动的。

②数据层面的冗余:Han JW提出了一种简化RFID数据源的要领。每一个涉猎器孕育发生RFID元数据(EPC,location,time),当一个物品停顿在一个地方一段光阴后会持续孕育发生这样的元数据,办理措施将元数据处置惩罚成(EPC,location,time_in,time_out)这样的数据款式。在多半时刻许多物品都是一路移动的,比如一整集装箱的洗发水从工厂出来后,在各物流中间中转,直至被摆放到货架上。是以,我们用(EPC list,location,time_in,time_out)款式来进行储存有助于削减冗余。

4 RFID数据仓库的构建

由于RFID数据的诸多特点,RFID数据仓库的建立也不合于传统的数据仓库。假设我们已经将数据进行了洗濯,获得了以(EPC,location,time_in,time_out)款式的数据。传统的数据处置惩罚技巧大概能够找出在指定地点,指准光阴的响应信息,然则对这些数据之间的联系则缺少响应的钻研措施,比如若何探求某些类其余商品从A地到B地的相关信息方面,并没有很好的处置惩罚技巧。为了满意用户对信息的需求,并结合RFID数据本身的特征,Hector Gonzalez,Xiaolei Li(2006)提出了构建RFID数据仓库并进行数据处置惩罚的一些相关技巧。建立RFID数据仓库,Han等提出了两类模型:一类是Path Cube,别的一类是Workflow Cube。

4.1 Path Cube模型

Path cube 压缩并整合了一些物体移动的历程中的地点光阴等信息,它是在物体的维度上建立起来的。这种cube能够有效率的处置惩罚一些OLAP的哀求。在建立这种RFID的数据仓库时应用洗濯过的数据按照RFID-Cuboid的形式组合数据。RFID-Cuboid包孕三种类型的表:信息表(Information Table),保存每个RFID标签的物体信息;停顿表(Stay Table),存储在同一个地点停顿的物体信息;舆图表(Map Table),存储多个互相关联的停顿记录的路径信息。

信息表(Information Table):该表存储的是例如物品名称,制造商,物品价格,物品种别等和物品所颠末路径无关的信息。这类信息的每个维度有一个互相关联的观点层次。在这张表里,所有传统的OLAP操作都可以进行应用,和一样平常常见的数据仓库类似。

停顿表(Stay Table):在RFID数据处置惩罚时有一个常见场景便是大年夜批量物品一路移动的。根据上文数据清理部分所述,每个记录可以调剂为这样的形式《(gids,location,time_in,time_out):(m1,…,mk)》,gids是一个标记,它指向更初级的gids,着末一个层次的gids指向一组RFID标签的EPC。time_in是物品进入一个地点的光阴,time_out是物品脱离一个地点的光阴。假如物品还没有脱离,这个值为空(NULL)。m1,…,mk是物品停顿在此地丈量的一些记录,例如物品的数目,在此地匀称的光阴,最大年夜的光阴等量等等。

舆图表(Map Table):该表是RFID数据傍边特有的一张表,它不合于传统意义上数据仓库中的表。这张表中的数据使得处置惩罚有联系的、同一条路径上的信息变得轻易。在每个阶段应用这张表可以压缩数据、削减数据量,同时让信息的查询历程变得更有效。

Hector指出经由过程应用Path cube形式的表之后,数据仓库所占空间大年夜大年夜低落,同时I/O处置惩罚的速率有效低落,这使得处置惩罚RFID数据变得更为轻易。

4.2 Workflow Cube模型

Workflow cube是一个data cube的模型,在这个模型在多维的抽象层次上涵盖了物体的移动流中的信息。它主要从两个角度来察看这些数据,一个是从物品的角度,另一个是从路径的角度。

所谓物品的角度便是物品可以有多个抽象层次,物品可所以单个物品层次,也可所以一个小类或者一个大年夜类。如鞋类包括运动鞋、皮鞋等,运动鞋下面又有品牌分类。所谓路径的角度便是物品存储可以有多个抽象层次,作为一个卖场不必要关心运来的货物颠最后哪些中转站,而作为中转站也不必要关心货物进入卖场后会放在哪个货架上。

Workflow cube应用流向图谋略每个事情流的概率,流向图便是一个树形布局图,树的每个节点是一个地点,树的连线表示物品在两个地点间的移动。

Path Cube和Workflow Cube与传统的data cube有很多合营之处,如每个维度都有一个观点层次,是以它们都可以用星形模式来模拟。Path Cube的不合之处就在于它在多维空间内对物体的移动进行了建模。Workflow Cube则是应用了繁杂的概率模型,同时它还从物品和路径两个角度来建模。

5 评论争论与瞻望

RFID数据有很多自己的特点,必要进行繁杂的数据洗濯事情,这就必要在处置惩罚历程中对数据进行压缩,并创建有效的数据仓库布局来存储这些数据,在削减RFID数据量的同时保留数据本身携带的相关信息。这在数据压缩算法、数据仓库模型等方面都供给了可供继承钻研的内容。

责任编辑:ct

您可能还会对下面的文章感兴趣: