现有的数据融合模式往往无法将同一数据库中具有家庭关系的个体关联起来,使得目标客户的选择存在重复选取的局限性,同时数据属性的缺失也为进一步的决策带来困难。首先从不确定性推理模型出发,设计出用户兴趣、所处行业、产品偏好等的可信度推理算法,利用该算法将个性化数据库、杂志订阅数据库进行有效融合,在完善关键数据属性的基础上,生成新的标准化数据库;以年龄、性别、姓氏等属性为依据,制定家庭结构的识别规则,从而实现家庭结构数据的融合。利用邮政行业数据及自建数据库进行实验和分析,证明了方法的可行性和有效性。 Existing data mining models are often unable to associate individuals with family relationships in the same database. The interest inference algorithm, industry inference algorithm and production inference algorithm are proposed based on certainty factor. Personalized Database and magazine subscription database were fused effectively, and generate new standardized database was generated with key data attributes. An identification rule of family structure was developed as the basis of age, gender, surname and other property, and the integration of family structure data was achieved. Experiments and analysis demonstrated the feasibility and effectiveness.
靳艳峰1,2,张慧锋2*,靳伟2,刘羽2,王雪平2
1北京邮电大学经济管理学院,北京
2石家庄邮电职业技术学院,河北 石家庄
收稿日期:2018年8月18日;录用日期:2018年8月30日;发布日期:2018年9月6日
现有的数据融合模式往往无法将同一数据库中具有家庭关系的个体关联起来,使得目标客户的选择存在重复选取的局限性,同时数据属性的缺失也为进一步的决策带来困难。首先从不确定性推理模型出发,设计出用户兴趣、所处行业、产品偏好等的可信度推理算法,利用该算法将个性化数据库、杂志订阅数据库进行有效融合,在完善关键数据属性的基础上,生成新的标准化数据库;以年龄、性别、姓氏等属性为依据,制定家庭结构的识别规则,从而实现家庭结构数据的融合。利用邮政行业数据及自建数据库进行实验和分析,证明了方法的可行性和有效性。
关键词 :可信度,支持度,数据融合,个性化数据库
Copyright © 2018 by authors and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
当前,我国零售业经历了飞速的跨越式的发展阶段,社会消费品年均零售总额有了很大突破,百货商场、连锁店、超市、专卖店、购物中心、电子商务等业态相继兴起。尤其是电子商务的崛起,对零售企业提出了严峻的挑战。随着客户数量的增多,客户对服务的质量提出了更高的要求,另外,二维码技术、客户管理系统、销售分析系统、智能终端设备等的出现,使得零售企业很难在积累的超大规模数据中找出有利于企业开展营销活动的信息。大数据时代的来临也给企业带来了诸如查询响应时间、查询质量、决策分析等多方面的问题 [
目前对于可信度模型研究相对较多,而专门针对家庭数据融合的研究相对较少。其中较为代表性的钟诚等通过考察社会网络中人际交往的特征,基于本体理论,提出了在语义网中计算信息可信度的一种方法 [
可信度方法是MYCIN系统采用的一种不精确的推理模型,在许多实际应用中都是一个合理有效的推理模式 [
IF E THEN H (CF(H, E)),其中 C F ( H , E ) 为该规则的可信度。
C F ( H , E ) 表示已知证据E的情况下对假设H为真的支持程度,其取值在[−1, 1]。
C F ( H , E ) > 0 表示结论为真的程度,值越大H越真。 C F ( H , E ) = 1 表示为真。
C F ( H , E ) < 0 表示结论为假的程度,值越小H越假。 C F ( H , E ) = − 1 表示为假。
C F ( H , E ) = 0 表示E与H没有关系。
定义 C F ( H , E ) = M B ( H , E ) − M D ( H , E ) 。其中 M B ( H , E ) 称为信任增长度,表示因证据E的出现而对假设H为真的信任增加程度。 M D ( H , E ) 称为不信任增长度,表示因证据E的出现而对假设H为真的信任减少的程度。
当 M B ( H , E ) > 0 时, P ( H | E ) > P ( H ) 。当 MB(H, E) < 0 时, P ( H | E ) < P ( H ) 。因此得到:
如果 P ( H | E ) < P ( H ) ,则: M B = 0 , M D = [ P ( H ) − P ( H | E ) ] / P ( H ) , CF = MB −MD 。
如果 P ( H | E ) > P ( H ) ,则: M D = 0 , M B = [ P ( H | E ) − P ( H ) ] / [ 1 − P ( H ) ] , C F = M B − M D 。
对于一般的客户数据库而言,很少能真正找到个体的兴趣及其所从事的行业属性,本文考虑从其他相关联的数据库中,通过一定的推理,用定量的方法找到其兴趣、从事行业以及偏好的产品种类 [
定义1个性化数据库(Personalized Database):是指包含了个人基本信息的不同群体的数据库。比如教师库,包含了某个区域范围内的所有教师的基本信息,如姓名、年龄、家庭住址等基本信息。
定义2杂志订阅数据库(Magazine Subscriptions Database):是指包含了某个区域范围内订阅杂志用户的基本信息的数据库。其中的数据属性包括姓名、家庭住址、联系方式、订阅杂志名称等。
定义3标准数据库(Standard Database):是指融合了个性化数据库、杂志订阅库、小区数据库等数据库信息的数据库。该数据库除了包含上述数据库种的信息之外,还包含了通过可信度推理算法得出的新的数据属性,比如兴趣、从事行业、产品偏好等信息。
用户兴趣的挖掘主要依据杂志订阅库中用户所订阅的杂志信息 [
算法一:兴趣可信度算法
1) 计算每个杂志对应兴趣的关键字的个数 L 1 , L 2 , L 3 , ⋯ , L 21 ;
2) 兴趣关键字数为 T i , a i 为杂志
3) 计算杂志 中所有兴趣的后验概率
兴趣种类提取 | ||||||
---|---|---|---|---|---|---|
运动 | 汽车 | 音乐 | 文学 | 绘画 | 书法 | 舞蹈 |
旅游 | 购物 | 影视 | 上网 | 理财 | 交友 | 下棋 |
园艺 | 数码 | 美容 | 保健 | 饮食 | 集邮 | 摄影 |
表1. 依据霍兰德职业兴趣表提取的兴趣种类
4) 计算各个兴趣的先验概率 p ( I i ) = 1 / 21 ;
5) 计算信任增长度MB和不信任增长度MD:
如果 p ( I i | M j ) > p ( I i ) ,则 M B j i = P ( I i | M j ) − P ( I i ) 1 − P ( I i ) , MD ji =0 , ( i = 1 , 2 , ⋯ , 21 ; j = 1 , 2 , ⋯ , n ) 。
如果
6) 计算兴趣在杂志中的可信度: CF ji = MB ji - MD ji 。
用户所从事行业的挖掘主要依据也是杂志订阅库中用户所订阅的杂志信息。首先利用霍兰德职业兴趣测量表,建立行业数据库,其中包含了25种行业种类。具体参见表2。其次建立行业关键字库,利用文本挖掘方法将不同行业对应的关键字提取出来,并建立相应的关键字库。
算法二:行业可信度算法
1) 计算每个杂志对应行业的关键字的个数 L 1 , L 2 , L 3 , ⋯ , L 25 ;
2) 行业关键字数为 T i , a i 为杂志 M i 在行业 H i 中关键字出现频率, a i = L i T i ( i = 1 , 2 , ⋯ , 25 ) ;
3) 计算杂志 M j 中所有行业的后验概率 p ( H i | M j ) = a i / ∑ i = 1 25 a i , ( i = 1 , 2 , ⋯ , 25 ; j = 1 , 2 , ⋯ , n ) 。
4) 计算各个行业的先验概率
5) 计算信任增长度MB和不信任增长度MD:
如果 p ( H i | M j ) > p ( H i ) ,则 M B j i = P ( H i | M j ) − P ( H i ) 1-P ( H i ) , M D j i = 0 , ( i = 1 , 2 , ⋯ , 25 ; j = 1 , 2 , ⋯ , n ) ,
如果 p ( H i | M j ) < p ( H i ) ,则 M B j i = 0 , M D j i = P ( H i ) − P ( H i | M j ) P ( H i ) , ( i = 1 , 2 , ⋯ , 25 ; j = 1 , 2 , ⋯ , n ) 。
6) 计算行业基于杂志的可信度: C F j i = M B j i − M D j i 。
同样,用户偏好产品的挖掘主要依据也是杂志订阅库中用户所订阅的杂志信息。首先根据霍兰德职业兴趣测量表,建立杂志中包含广告对应的产品数据库,其中包含了22种产品广告种类。其次建立产品的广告关键字库,利用文本挖掘方法将不同产品广告对应的关键字提取出来,并建立相应的关键字库
算法三:产品偏好可信度算法
1) 计算每种杂志对应某种产品广告的关键字的个数 L 1 , L 2 , L 3 , ⋯ , L 22 。
2) 广告关键字数量为 T i , a i 为杂志Mi在广告Ai中关键字出现频率, a i = L i T i ( i = 1 , 2 , ⋯ , 22 ) ;
3) 计算杂志 M j 中所有兴趣的后验概率 p ( A i | M j ) = a i / ∑ i = 1 22 a i ,其中
行业关键字提取 | ||||||||
---|---|---|---|---|---|---|---|---|
IT业 | 通讯 | 汽车 | 中介服务 | 教育/培训 | 批发/零售 | 环保 | 学术/科研 | 农林牧渔 |
交通运输 | 酒店餐饮 | 办公设备 | 医药/医疗 | 娱乐/体育 | 旅游/餐饮/ | 电力/水利 | 加工制造 | 政府/公共事业 |
能源/矿产/采掘 | 金融/保险/投资/ | 医疗/护理/美容 | 房产/建筑/建材 | 广告/会展/公关 | 媒体/出版/影视/文化 | 机械机电设备 | 家居/室内设计/装饰 | null |
表2. 依据霍兰德职业兴趣表提取的行业种类
4) 计算各种产品广告的先验概率 p(Ai)=1/22 。
5) 计算信任增长度MB和不信任增长度MD:
如果 p ( A i | M j ) > p ( A i ) ,则 M B j i = P ( A i | M j ) − P ( A i ) 1 − P ( A i ) , M D j i = 0 , ( i = 1 , 2 , ⋯ , 22 ; j = 1 , 2 , ⋯ , n ) 。
如果
6) 计算产品广告在杂志中的可信度: C F j i = M B j i − M D j i 。
基于上述融合形成的标准数据库,依据不同的数据属性,进行数据的家庭融合及类别的划分。可以按照地址、性别、年龄等属性进行条件判断,家庭结构的类型划分为两人结构、三人结构、四人结构以及多人结构情况。四人结构和多人结构规则的设计原理与二人、三人结构类似,由于计算相对比较复杂,这里不做进一步讨论。
一般的两人结构家庭,首先通过地址进行关联,当两条数据记录的地址相同时,初步判定为一个两人结构家庭。在此基础上进行家庭关系的判断,一般在不考虑权重的情况下按照年龄、性别和姓氏进行判断。具体的规则如表3。
对于标准数据库中地址相同的两人,如果其中一人的年龄属性依照一定的概率来源于某一类型的个性化数据库,此时需要对权重进行设置,由于个性化数据库的类型较多,本文仅以学生个性化数据库为例,进行规则的设计,具体见表4。
排版后为通栏的统一调整到页面的顶端或底端;如果是单栏则应调整到页面的左右四角的位置对于三人家庭结构而言,与两人结构家庭的判断规则类似,首先也要通过地址进行关联,当出现三条数据记
if(条件) | weight (权重) | 家庭结构 |
---|---|---|
−10 < age1 − age2 < 10,sex1! = sex2 | 不考虑 | 夫,妻 |
23 < age1 − age2 < 35,sex1 = 男,sex2 = 男 | 父,子 | |
23 < age1 − age2 < 35,sex1 = 男,sex2 = 女 | 父,女 | |
23 < age1 − age2 < 35,sex1 = 女,sex2 = 男 | 母,子 | |
23 < age1 − age2 < 35,sex1 = 女,sex2 = 女 | 母,女 | |
45 < age1 − age2 < 55,sex1 = 男,sex2 = 男,last name1 = last name2 | 爷爷,孙子 | |
45 < age1 − age2 < 55,sex1 = 男,sex2 = 女,last name1 = last name2 | 爷爷,孙女 | |
45 < age1 − age2 < 55,sex1 = 男,sex2 = 男,last name1! = last name2 | 外公,外孙 | |
45 < age1 − age2 < 55,sex1 = 男,sex2 = 女,last name1! = last name2 | 外公,外孙女 | |
45 < age1 − age2 < 55,sex1 = 女,sex2 = 男 | [50%奶奶,孙子] [50%外婆,外孙] | |
45 < age1-age2 < 55,sex1 = 女,sex2 = 女 | [50%奶奶,孙女] [50%外婆,外孙女] |
表3. 两人家庭结构判断规则
if(条件) | weight (权重) | age | 家庭结构 | |
---|---|---|---|---|
age2X结果 | 条件 | 家庭结构结论 | ||
id age1来源于学生库 | 0.95 | age2X = age1 + 27 | sex1 = 男,sex2 = 男 | 父,子 |
sex1 = 女,sex2 = 男 | 父,女 | |||
sex1 = 男,sex2 = 女 | 母,子 | |||
sex1 = 女,sex2 = 女 | 母,女 | |||
0.05 | age2X = age1 + 50 | sex1 = 男,sex2 = 男,last name1 = last name2 | 祖父,孙子 | |
sex1 = 男,sex2 = 男,last name1! = last name2 | 外祖父,孙子 | |||
sex1 = 女,sex2 = 男,last name1 = last name2 | 祖父,孙女 | |||
sex1 = 女,sex2 = 男,last name1! = last name2 | 外祖父,孙女 | |||
sex1 = 男,sex2 = 女 | (外)祖母,孙子 | |||
sex1 = 女,sex2 = 女 | (外)祖母,孙女 |
表4. 概率依赖型两人家庭结构判断规则
录的地址相同时,可以初步判定为一个三人结构家庭。在此基础上进行家庭关系的判断,一般在不考虑权重的情况下按照年龄、性别和姓氏进行判断。具体的规则如表5所示。
对于标准数据库中通过地址关联,得到的具有相同地址的三条数据,如果其中两条数据中的年龄属性依照一定的概率来源于某一类型的个性化数据库,此时需要对权重进行设置,由于个性化数据库的类型较多,本文仅以老年人(夕阳红)个性化数据库为例,进行规则的设计,具体见表6。
上述规则作为标准数据中家庭融合的依据,可将标准化数据库中的数据按照家庭进行组合,并对家庭结构做出判断,为营销策略的制定提供决策支持。
本文将邮政行业的个性化数据库、杂志订阅数据库作为基础数据,根据可信度推理的原理,利用2中设计的算法和3中制定的融合规则,运用SQLsever2003平台,进行了模拟仿真实验。其中个性化数据库包含学生库和夕阳红库的5879条数据,杂志订阅库包含了杂志订阅者的9813条数据,同时针对杂志订阅库中的2856种杂志,自建了兴趣关键字库、行业关键字库、产品广告关键字库等三个数据库。
依据上述数据库中的数据,根据不同用户订阅的杂志信息,利用算法1和2得到了不同用户的兴趣和行业的可信度值。根据上述结果很容易可以看出,对于数据挖掘后的文本信息,可以利用不确定系统进行计算,从而得出定量数值,用于决策支持。不同类型的兴趣可信度值见表7,利用算法1计算出不同兴趣的可信度值,并按可信度值的大小进行排序,比如《北京大学教育评论》杂志的订阅者具有文学兴趣的可信度值为0.8,具有教育兴趣的可信度值为0.5,具有绘画兴趣的可信度值为0.1,同理可以计算出21种不同兴趣的可信度值。
不同类型行业的可信度值见表8:利用算法2计算出不同行业的可信度值,并按可信度值的大小进行排序。比如《财经界》杂志订阅者所属金融行业的可信度值为0.89,所属家居行业的可信度值为0.07,而所属制造行业的可信度值为0,同理可计算出25个行业的可信度值。
在上述可信度推理的基础上,将个性化数据库与杂志订阅数据库进行融合,得到了包含用户兴趣、从事行业、产品偏好等属性的标准数据库,利用3中的融合规则,从15,692条数据中挖掘得到862组两人结构家庭,533组三人结构家庭,123组四人结构家庭。具体家庭结构分布结果见图1。
if(条件) | weight (权重) | 家庭结构 |
---|---|---|
23 < (age1 + age2)/2 − age3 < 35,−10 < age1 − age2 < 10,min(age1,age2) > 23, max(age1,age2) < 50,sex3 = 男 | null(不考虑) | 男户主,妻子,儿子 |
23 < (age1 + age2)/2 − age3 < 35,−10 < age1 − age2 < 10,min(age1,age2) > 23, max(age1,age2) < 50,sex3 = 女 | 男户主,妻子,女儿 | |
sex1 = 男,sex2 = 男,sex3 = 男,23 < age1 < 50,23 < age1 − (age2 + age3)/2 < 35,−10 < age2 − age3 < 10 | 男户主,儿子1,儿子2 | |
23 < age1 < 50,23 < age1 − (age2 + age3)/2 < 35,−10 < age2 − age3 < 10,sex1 = 男,sex2!= sex3 | 男户主,儿子,女儿 | |
23 < age1 < 50,23 < age1 − (age2 + age3)/2 < 35,−10 < age2 − age3 < 10,sex1 = 女,sex2 = 男,sex3 = 男 | 女户主,儿子1,儿子2 | |
23 < age1 < 50,23 < age1 − (age2 + age3)/2 < 35,−10 < age2 − age3 < 10,sex1 = 男,sex2 = 女,sex3 = 女 | 男户主,女儿1,女儿2 | |
23 < age1 < 50,23 < age1 − (age2 + age3)/2 < 35,−10 < age2 − age3 < 10,sex1 = 女,sex2!= sex3 | 女户主,儿子,女儿 | |
23 < age1 < 50,23 < age1 − (age2 + age3)/2 < 35,−10 < age2 − age3 < 10,sex1 = 女,sex2 = 女,sex3 = 女 | 女户主,女儿1,女儿2 | |
23 < (age1 + age2)/2 − age3 < 35,min(age1,age2) > 50,sex3 = 男 | 父,母,男户主 | |
23 < (age1 + age2)/2 − age3 < 35,min(age1,age2) > 50,sex3 = 女 | 父,母,女户主 | |
(age1 + age2)/2 − age3 > 50,min(age1,age2) > 50,age3 < 18,last name1 = last name3,sex3 = 男 | 爷爷,奶奶,孙子 | |
(age1 + age2)/2 − age3 > 50,min(age1,age2) > 50,age3 < 18,last name1 = last name3,sex3 = 女 | 爷爷,奶奶,孙女 | |
(age1 + age2)/2 − age3 > 50,min(age1,age2) > 50,age3 < 18,last name1!= last name3,sex3 = 男 | 外公,外婆,外孙 | |
(age1 + age2)/2 − age3 > 50,min(age1,age2) > 50,age3 < 18,last name1!= last name3,sex3 = 女 | 外公,外婆,外孙女 |
表5. 三人家庭结构判断规则
if(条件) | weight (权重) | age | 家庭结构 | ||
---|---|---|---|---|---|
age3X结果 | 条件 | 家庭结构结论 | |||
id age1,id age2都来源于夕阳红库 | 0.65 | age3 = (age1 + age2)/2 − 23 | sex3 = 男 | 父,母,男户主 | |
sex3 = 女 | 父,母,女户主 | ||||
0.35 | age3 = (age1 + age2)/2 − 50 | sex3 = 男,last name1 = last name3 | 爷爷,奶奶,孙子 | ||
sex3 = 女,last name1 = last name3 | 爷爷,奶奶,孙女 | ||||
sex3 = 男,last name1!= last name3 | 外公,外婆,外孙 | ||||
sex3 = 女,last name1!= last name3 | 外公,外婆,外孙女 |
表6. 概率依赖型三人家庭结构判断规则
从上述结果可以看出,对于属性不完全或者不够丰富的数据库数据,很难为企业的营销决策提供有价值的参考,利用可信度推理算法将个性化数据库属性进行完善的同时,根据家庭融合规则,可以得到不同结构家庭单元信息,将其应用到企业营销决策中,不但节约了营销成本,增强针对性,对企业发展
信息来源 | 兴趣 | ||||||
---|---|---|---|---|---|---|---|
兴趣1 | 兴趣2 | 兴趣3 | 兴趣n | ||||
兴趣名称 | 可信度值 | 兴趣名称 | 可信度值 | 兴趣名称 | 可信度值 | …… | |
北京大学教育评论 | 文学 | 0.8 | 教育 | 0.5 | 绘画 | 0.1 | …… |
财经界 | 理财 | 0.6 | 经济 | 0.6 | 文学 | 0.2 | …… |
长三角 | 经济 | 0.9 | 理财 | 0.4 | 文学 | 0.1 | …… |
表7. 部分兴趣可信度值
信息来源 | 行业 | |||||||
---|---|---|---|---|---|---|---|---|
行业1 | 行业2 | 行业3 | 行业n | |||||
行业名称 | 可信度值 | 行业名称 | 可信度值 | 行业名称 | 可信度值 | 行业名称 | 可信度值 | |
北京大学 教育评论 | 教育/培训 | 0.97 | 医药/医疗器械 | 0.15 | 能源/矿产/ 采掘/冶炼 | 0.11 | …… | …… |
财经界 | 金融/保险/ 投资/基金/ | 0.89 | 家居/室内设计/ 装饰装潢/ | 0.07 | 加工制造 | 0 | …… | …… |
长三角 | 教育/培训 | 1 | 房产/建筑/建材/工程 | 0 | 能源/矿产/ 采掘/冶炼 | 0 | …… | …… |
船艇 | 教育/培训 | 0.86 | 汽车 | 0.17 | 加工制造 | 0.1 | …… | …… |
大众数码 | 通讯 | 0.92 | 娱乐/体育/休闲 | 0.23 | 医疗/护理/ 美容/保健 | 0 | …… | …… |
当代电视 | 通讯 | 0.88 | 娱乐/体育/休闲 | 0.21 | 广告/会展/公关 | 0.18 | …… | …… |
当代人 | 批发/零售 | 0.79 | 家居/室内设计/ 装饰装潢/ | 广告/会展/公关 | 0.02 | …… | …… | |
当代世界 | 加工制造 | 0.69 | IT业 | 0 | 通讯 | 0 | …… | …… |
表8. 部分行业可信度值
图1. 家庭结构分布图
意义重大。
针对多数企业客户数据不完善、关键数据属性缺失等情况,本文从两个方面进行了深入研究。一是数据属性的完善和数据库的标准化。首先通过可信度推理的方式增加数据的属性,对分散的数据库进行整合。文中主要通过对邮政行业的个性化数据库、杂志订阅数据库的挖掘与整合,将缺失的兴趣、行业等关键属性的数据在相应的数据库中进行了补充和完善,其中属性完善主要是根据不确定性推理,计算出相关属性的可信度值。二是家庭结构的识别。基于标准化的数据库,利用地址、年龄、性别、姓氏等属性,设计出了家庭结构的识别规则。首先是按照家庭成员的数量,对家庭结构进行了合理分类,整体划分为两人家庭、三人家庭、四人家庭以及多人家庭,然后根据地址属性来确定家庭结构,根据年龄、性别和姓氏等属性来进一步判断家庭关系,通过实验得出了较为理想的结果。与其他算法相比,文中算法更加有效,实验结果更加符合实际。
1) 2018河北省高校科技计划青年基金项目(编号QN2018304);2) 2018河北省人力资源和社会保障研究课题(编号JRS-2018-8087);3) 2018河北省人力资源和社会保障研究课题(编号JRS-2018-8088)。
靳艳峰,张慧锋,靳 伟,刘 羽,王雪平. 基于不确定性推理的家庭数据融合算法研究 Research of Family Data Fusion Pattern Based on Uncertainty Reasoning[J]. 计算机科学与应用, 2018, 08(09): 1317-1325. https://doi.org/10.12677/CSA.2018.89142
https://doi.org/10.1007/s10618-005-0026-2
https://doi.org/10.1016/j.is.2003.08.001