作者:袁绵东,新炬网络高级技术专家。
近几年大数据的概念突然火爆起来,碎片化的数据通过关联产生巨大的效能,能够提供趋势预测,以及为日常生产提出指导意义。在信息大爆炸的今天,数据量空前膨胀,大数据就像是一把巨重的钝剑,只有用得好才能发挥出其应有的优势。
在传统的PC机互联网时代,你无法知道电脑另一端坐的是一个人还是一条狗。在苹果和安卓两大智能机阵营开启的移动互联网时代,依靠通信技术突飞猛进的发展,各类商业和社交应用,以及基于位置信息的应用百花齐放,实现多维度多方位的用户数据流转,可以做到PC机互联网无法达到的关联能力。
在移动互联网时代,我们每个人的手机终端如同一支探针,窥探着我们日常的生活习惯,记录着用户行为特征。我们用手机的行为均被网络记录下来,碎片化的上网记录可以抽象画出用户的信息样貌。更一步说,通过用户数据的资产运营管理,以数据为支撑进行精细化运作,从数据的采集、清洗、关联、建模构建用户的数据世界中心,从用户行为映射到虚拟的用户画像,并通过用户画像的标签特征,整合市场资源和用户需求的配对关系。
本文将基于移动互联网的信令数据,探讨从业务层面的用户行为如何勾勒出用户的信息画像,以及为用户贴上标签。从而支撑面向市场的营销推广,让信令的数据资产变现价值。
从数据稳定的相对性,可划分为静态数据和动态数据,静态数据为用户性别属性,用户使用套餐、用户职业等信息;而动态数据分为用户投诉记录数据、用户上网行为记录、用户电话短信的记录等。静态数据在移动运营商自建系统已有相关数据库的报表,如移动的BOSS系统(业务运营支撑系统);用户投诉的动态数据可来源于运营商自建的投诉管理系统,而用户上网行为记录以及用户电话短信等记录可以从信令进行提取,其中用户上网行为记录涉及到DPI的业务识别,从URL等报文解析成具体的业务标识。从移动互联网的的分析角度,应利用好运营商内部自建系统,通过对数据源的类别分析,明确数据的整体结构。
静态数据:用户实名等信息,可用于直观刻画用户特征,性格、年龄、职业、手机套餐等,是用户画像不可缺少的数据来源。
动态数据:用户投诉数据记录,描述用户对网络服务的满意程度,如某用户出现重复投诉的情况,相应的满意度应该是不高的,可能存在用户流失的风险;用户电话短信记录,可以关联用户的朋友圈范围,从联系人的互动次数评定亲密程度;用户的网络行为,通过用户上网等信令记录识别到具体的业务细项,并根据用户访问业务的特点贴上相应的用户标签。
通过DPI识别上网信令的业务,再细化建立标签体系,可以划分为业务分类的标签库和用户行为的标签库。由于标签没有严格的实时性,用户行为的标签建议在半个月更新一次,主要对CDR话单进行去重URL后筛选业务分类标签,对用户进行聚类筛选TOP业务作为用户的画像标签。
业务识别是动态变化的,也是一项长期的维护工作,需要日常完善业务细项以及新业务的出现及时更新识别库的内容,业务分类的标签库,主要根据URL内容细化业务,如以下样式。
编号 | URL | APP类型 | 业务大类 | 一级业务 | 二级业务 | 三级业务 |
1 | zhangmeng.baidu.com | UC浏览器 | 视频类 | 音乐 | 百度MP3音乐掌门人 | … |
2 | yalasol.com | 微信 | 视频类 | 音乐 | 亚拉索完全音乐空间 | … |
3 | meal.dayoo.com | 美食杰 | 浏览类 | 饮食 | 食全食美 | … |
… | … | … | … | … | … |
用户行为的标签库则通过用户的静态数据,以及用户上网行为记录,话单记录等按一定的条件筛选相应的标签。如位置类的标签,根据用户上班时间的位置更新TOP小区来判断工作地点,晚间休息时间的位置更新TOP小区来判断家庭地点,通过驻留小区的距离来标签是否为“土著”、“双城族”等。兴趣类的标签,如运动类的足球迷,根据用户是否使用过足球类APP、搜索过足球类关键字,浏览过足球类的网页贴上标签(通过用户访问URL关联业务识别库)。
一级分类 | 一级分类 | 二级分类 | 标签名 |
用户属性 | 用户属性 | 年龄 | 00后 |
90后 | |||
80后 | |||
70后 | |||
60后 | |||
60前 | |||
年龄保密 | |||
性别 | 男 | ||
女 |
一级分类 | 二级分类 | 标签名 |
兴趣类 | 旅游 | 旅游爱好者 |
咨询 | 资讯爱好者 | |
时尚爱好者 | ||
运动 | 运动爱好者 | |
足球迷 | ||
高尔夫球迷 | ||
阅读 | 阅读爱好者 | |
武侠小说迷 | ||
音乐 | 音乐爱好者 |
一级分类 | 二级分类 | 标签名 |
位置 | 位置 | 土著 |
长距离上班族 | ||
双城族 | ||
省内漂 | ||
省外漂 | ||
国漂族 | ||
消费类 | ARPU | 高价值用户 |
中价值用户 | ||
低价值用户 |
通过分析用户行为以及用户属性,并贴上相应的标签,通过标签表征了用户对该内容的兴趣、偏好、需求等,从而形成用户画像。但还需要在标签加上权重,不然用户浏览了一次恒大足球比赛,便贴上足球迷标签显然是不客观的。
通过用户标签精准还原用户画像,需要对标签进行加权计算,建立用户的兴趣、偏好指数,以及用户的需求度。如用户的消费行为具有时效性,当需求满足后标签的权重就下降,但不知道用户几时进行了消费,只能通过时间做为衰减因子,最近三天的标签比四天前的权重更大。大致有以下的加权公式计算权重。
标签权重=时间因子×网址因子×行为因子
关于加权因子,需要验证后统一制定标准,例如时间因子,当天标签的因子为1,每前一天因子减0.1;网址因子,专业主流类网站的因子比小众类网站的大,如优酷、土豆的比六间房的因子大;行为因子主要为用户的访问搜索次数,如业务TOP1的标签的因子为1,业务TOP2的标签因子为0.99。但存在的缺点是人工的加权因子调整,难以快速满足所有的标签特证,所以也有人提到用Logic Regression逻辑回归算法进行调整权重因子,但实现比较复杂,这里不进行算法引述。
以上是比较理想的情况,对计算和资源的开销也相对较大,在普通的用户画像系统,如每周更新一次数据,对本周用户的行为因素进行按业务TopN筛选,排前的标签即为该用户标签。
通过用户上网使用的URL等字段,关联细化的业务识别。目前建模方法主要对人、时间、地点、内容、行为类型等五维体系进行标签区分,逐步细化。
人:包括兴趣爱好、客户满意度、职业、性别、年龄、用户套餐等。
时间:用户活跃时间、作息习惯等。
地点:用户的公司位置、家庭位置、漫游情况等。
内容:内容偏好(用户标签)、关键字查询等。
行为类型:终端型号、高流量用户、双城族、土著等。
在一定周期内对用户的标签进行聚合,匹配静态维表,形成用户的基本画像。如以下图示,用户标签为周期内TOP业务的标签,搜索关键词为用户通过搜索的TOP关键词,活跃时间为业务请求较多的时段,日均流量为用户该周期内平均每天的总流量,兴趣圈子主要通过通话和短信常联的用户是否为同一类用户标签的人数,满意度主要根据投诉记录或短信评分回馈来判断。其它的标签为静态数据匹配生成。
用户的标签越多,数据的汇聚量就越大。用户画像主要以用户号码为索引,关联多张不同维度的根表。
通过对关键词的数据聚合,以关键词为索引统计使用的用户数,搜索量越大表示关键词的热度越高。关键词相关维表,包括用户、搜索次数、关键词类型(如音乐类、体育类)等字段,支持下钻到关键词的具体用户。应用功能不再敖述,可视需求而开发。
对APP业务识别维表数据聚合,筛选某用户在统计周期所出现的APPs使用记录,直观反映出用户桌面的APP应用情况,通过对手机桌面的应用图标可以辅助判断该用户的使用习惯。
在基于移动互联网的信令话单,通过DPI业务识别功能扩展业务CDR的标识内容。结合用户行为对CDR数据业务进行挖掘,形成用户标签库。在这个基础上,应用功能可以根据市场推广需求进行个性化开发。
本文提供一种用户画像的构建思路,对于标签库的内容应根据生产和市场需求形成体系,这是一个迭代优化的过程。在用户画像系统的搭建,主要难点在于应用APP识别、网页内容深度解析、用户动作解析等DPI识别,以及如何及时完善和维护标签库的内容。应用层面的功能,只需形成相应标签数据模型,而模型的设计相对简单,主要控制好用户标签等大表的字段冗容程度。回到本文的初衷,仅供抛砖引玉之用,一起讨探多维多源数据通过扩展业务标签还原用户画像,支撑面向市场的数据资产变现,实现从挖掘数据到开拓商业价值。
上一篇:分布式缓存Redis使用心得
下一篇:玩转tuxedo资源池