-->

客服中心

联系手机:13968834878(吴老师)

发表QQ:4271308

编辑QQ:25786532

编辑邮箱:zjdxjt5@163.com

联系地址:浙江杭州萧山区金城路185号

本站介绍

“薪火传承 思源致远”,杭州茴香医药科技有限公司栉风沐雨,历经19个春秋,成为一所“综合性、研究型”的一流综合型写作机构,并向一流写作服务机构稳步迈进。“论文撰稿一流精华,论文发表独家优势”,本公司以“宁失万贯,不失诚信,仰不愧于天,俯不怍于地”为宗旨,以“按时是我们诚信基础,录用是我们工作目标”为己任,致力于探索学术领域,攀登学术高峰,满足客户需求,凭借拥有国内多所著名高校人才资源优势,撰稿修改文章已有31700多篇在SCI、权威期刊、核心期刊上发表...更多

基于数据挖掘对垃圾短信识别模型的研究与应用—以某省移动公司为

2013-10-18 16:59 字体:   打印 收藏 

摘 要:本文基于运营商现有的平台,分析用户的通信行为,结合数据挖掘技术,提出一个新的垃圾短信识别模型。结合某省运营商短信运营数据对垃圾短信识别模型进行了实证研究,并从命中率和波动度两方面对模型进行验证,取得较好的效果。

关键词:垃圾短信过滤技术;相关性分析;特征选择;Logistic回归模型

0绪言 目前通信行业所采用的垃圾短信过滤的方法主要[1]有:第一,黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;第二,基于关键字规则的过滤技术,但是这种技术不能灵活识别和更新关键字;第三,基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤,有学者[2]、[3]提从词频的角度提出了基于贝叶斯分类器的垃圾短信过滤系统,还有基于文本分类的垃圾短信过滤方法。但是随着垃圾短信治理活动的逐步开展,垃圾短信的手段越来越隐蔽了,如一人多号、以谐音字代替敏感字眼、以字符将敏感字眼隔开等。这给垃圾短信治理工作带来了重重困难,优化拦截识别模型已迫在眉睫。 因此,本文提出融入客户行为研究和数据建模建立垃圾短信识别模型来取代目前的垃圾短信过滤技术,提高判断用户在发送垃圾短信的准确度和效率。 1垃圾短信识别模型 1.1垃圾短信识别模型简介 垃圾短信识别模型是通过对用户的通信行为,如用户的消费信息、交往圈、话单信息等的分析,建立Logistic回归模型预测其未来成为发送垃圾短信的用户的概率的模型。 1.2 建模指标的抽取 从黑名单和白名单中随机抽取一部分数据,形成建模样本组。在选定样本后,从数据仓库的全部客户数据中提取与该客户群相关的信息结合垃圾短信数据形成宽表[5]。并采用统计学的方法对指标进行分析。本文中对垃圾短信识别模型的基础变量的处理主要采用相关性分析[6]与特征选择分析[7]。 1.4模型的构建 在垃圾短信识别模型,假定有二值变量y,它表示用户是“垃圾短信用户”与“正常用户”,y=1表示“垃圾用户”,y=0表示“正常用户”,现在就是要预测y=1的概率P。一般而言,P值越大,该用户是垃圾短信用户的可能性越高;反之,则愈小。 Logistic 回归模型[7]: 其中:P=P(y=1)是二值变量中 y=1发生的概率,是需要预测的。是影响 y=1发生的 n 个预测变量。是需要估计的模型参数。 将采集的样本组以70%:30%的比例分为训练集和测试集,并根据训练集求出模型参数,根据上面的模型表达式,然后将测试集打入模型中求出预测概率P(y=1)的值。 1.5模型效果评估指标 对短信识别效果的评估,主要从2个角度对模型识别效果进行评估。(1)命中率: 即提取的用户中属于黑名单的用户占嫌疑黑名单用户的比率,反映垃圾短信识别的准确性。(2)波动度:即训练集的命中率与测试集命中率的差值,反映垃圾短信识别模型的稳定性 2垃圾短信识别模型的应用 本文以某省移动公司为例,进行了垃圾短信识别的实证分析。 2.1公司垃圾短信识别的现状和资源条件 2.1.1公司垃圾短信识别现状 现在所采用的垃圾短信的技术主要有:第一,10086999不良信息举报平台。第二,BOSS系统日常监控。第三,网管中心拦截平台。但是这些技术将带来以下的风险有误拦现象,还有漏拦现象 2.1.2资源条件 该公司拥有健全的数据仓库平台,相关的数据库软件,统计分析和数据挖掘工具,还有一定规模的外呼中心,能及时获得客户反馈数据。 2.2数据准备 2.2.1数据指标的选取 为了实现模型数据获取的精细化,根据用户在网时长的不同和数据的可获取性原则,将模型分成两类来构建:一类是网龄大于等于2个月,以月数据为主,补充相关的天数据。因为网龄小月2个月的用户,没有完整的月数据,在建模的时候以天数据为主,因此将网龄小于2个月的用户作为另一类。经过经验,对于网龄大于等于的目标用户,初步圈定了46个基础指标,如品牌、短信费用、点对点短信发送量等。而网龄小于2的用户群,圈定了29个基础指标,如前三天内发送短信数量,日均短息发送条数,日均被叫通话次数等。 2.2.2数据的预处理 经过对提取出来的变量的相关性检测,发现了部分变量存在明显的正相关现象,为了减少后期固化的数据量和提高建模的效率,剔除掉高相关性的指标,筛选后,网龄大于等于2的用户选取23个指标,而网龄小于2的用户选取17个指标。将相关性分析后形成的宽表进行特征选择分析,经过检验,网龄大于等于2个月所选取的指标有12个,包含入网时长、消费额、前三天内发送短信的集中时段、短信交往圈重合率等;而网龄小于2个月所选取指标4个,包含前三天内发送短信的集中时段、前三天内集中时段发送条数、前三天内高频时段个数、日均接收短信条数。 2.3模型的构建 以网龄大于等于2个月的样本数据为例,将样本数据导入模型,然后将样本数据按30%:70%的比例进行分区,建立Logistic回归模型,求出Logistic回归模型的的估计参数模型参数,以及y=1的概率,具体的值如下