AppList数据处理

本文探讨了手机App数据的获取、结构以及如何通过特征提取和算法构建App的分类体系。介绍了App安装列表和安装序列的特点,以及如何利用包名、App名称和描述信息进行特征提取。此外,还提出了基于主动学习的分类方法,以及如何利用统计类特征、one-hot编码、item2vec和app2vec等技术进行App的分类和挖掘。

本文参考: 风控数据—手机App数据挖掘实践思路

引言

        作为移动互联网时代的主要载体,智能手机逐渐成为人们日常生活中不可或缺的一部分,改变着人们的生活习惯。比如,可以用“饿了么”点外卖,“支付宝”可以用来种树,“抖音”可以用来上厕所......强大的App给我们的生活带来了巨大的便利。

        正因为如此,App与用户之间存在着密不可分的联系,用户在频繁使用这些App过程中也积累了大量的个人历史数据。这些App数据能帮助我们更好地去理解用户,推测用户的性别、职业、收入、兴趣、偏好等属性,也就是所谓的KYC(Know your customer)

        现在来思考一些问题:如何获取数据?数据长啥样?数据如何和业务相结合去理解?可以采用什么算法实现高效提取信息?如何利用这块数据服务业务?

1. App数据长啥样?

       根据资料显示,当前手机App数据主要包括:App安装包名称(pkg_name)、App中文名(app_name)、App安装列表、App安装序列。其中pkg_name是App的唯一ID,app_name则因为下载渠道、版本更新、数据采集等因素影响导致不唯一(可能在不同时间点,不同渠道采集的App Name是不完全一样的)。例如,"企业微信"的pkg_name为“com.tencent.wework”,而app_name可能会有“企业微信”、“微信企业版”、“微信(企业版)”等多个值。

 

如何获取手机App package?可参考:实现获取appPackage和appActivity的方法

1. App安装列表(App List):指手机上安装的所有App的集合,一般用逗号隔开,如:“com.alibaba.android.rimet,com.tencent.mm,com.citiccard.mobilebank,com.icbc,com.hongxin1.rm”。可以认为是一个集合,因此是无序的。

2. App安装序列(App Seq):指手机上包含安装时间的App序列。如:["微信","1558014854044","com.tencent.mm",,"7.0.4"],分别代表App中文名、App安装时间戳、App包名称和版本号。由于可根据安装时间戳得到安装顺序,因此是有序的。

我们拿“微信”的package在腾讯应用宝中检索,那么就可以找到以下App描述数据

  1. 分类标签:标签精确表达了App的核心功能。但可能是开发者在发布App时从可选项中主观选择了一个标签,也有可能腾讯会在后期维护标签。标签不一定准确,但可作为一个重要的参考维度。
  2. 下载量:可作为判断App是否小众的一个参考维度。然而,能在应用宝上架的App一般是合规的;对于一些质量较差无法上架的app就无法获取到下载量。
  3. 应用描述:开发者对App的主要功能给出的描述性文本,可提取关键词、主题等内容。但如果只是根据关键词匹配,很容易出错。比如微信中藏有游戏中心入口,文本中出现“游戏”关键词,但这并不是一个游戏类App。

 2. App如何有效分类?

2.1 人工建立分类体系

        如何建立一个分类指标体系?下图是应用宝的App分类,其中有值得参考的内容。比如,直接把分类拿过来作为一级目录,进而再去思考二级目录,甚至三级目录,实现App多级目录精细化管理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值