一、研究背景与意义
当前我国移动应用市场规模持续扩大,中国互联网络信息中心(CNNIC)发布的第52次《中国互联网络发展状况统计报告》显示,截至2023年6月,我国移动互联网应用程序(APP)数量达260万款,覆盖社交、电商、金融、教育等多个领域,APP已成为人们日常生活与工作不可或缺的工具。然而,在APP产业快速发展的同时,APP备案管理工作面临严峻挑战。一方面,APP来源广泛,除主流应用商店外,存在大量第三方下载站点,导致APP管理范围难以全面覆盖;另一方面,部分APP存在未备案、备案信息不准确、违规使用域名与IP等问题,给网络安全与用户权益保护带来隐患。网络接入商缺乏有效技术手段区分普通网络流量及APP后台流量,无法对APP实际访问域名与其报备域名是否一致开展有效核验。本项目提出从APP流量角度进行备案信息核验的方法,重点是通过采集APP访问流量对APP访问的域名和IP地址进行核验,开展APP备案及备案信息准确性核验。通过开展安卓APP应用获取、APP拆包、APP流量抓包工具研究、基于算法的APP流量数据分析等研究,构建APP备案监测与核验一体化平台。
二、研究重点问题
本研究需重点攻克以下4个核心问题,这些问题直接影响APP备案信息核验技术体系的构建与应用效果:
问题1:全网APP高效汇聚难度大。现有安卓应用市场与第三方APP下载站点数量众多,且各站点网页结构差异大,导致难以实现APP的自动化下载。
问题2:APP流量数据精准采集与关键信息提取难。APP网络流量数据类型复杂,包含DNS解析、HTTP/HTTPS请求等多种数据且部分流量经过加密处理,关键信息提取难度增大。
问题3:APP备案信息核验准确性低。APP在运行过程中不仅访问自身后台服务,还大量集成第三方SDK服务,第三方服务的域名与IP易对备案信息核验造成干扰,是导致核验效率与准确性低的关键。
问题4:海量APP流量分析效率不足。当前APP数量庞大,单纯依靠人工进行流量分析,难以满足备案管理的时效性要求。
三、研究具体内容与实施过程
(一)多场景适配的APP全网自动化汇聚技术
针对现有APP下载站点网页结构差异大的问题,创新研发了多场景适配的APP全网自动化汇聚技术。该技术突破了传统单一下载方式的局限性,在以下方面实现了创新。
构建了动态网页解析与API接口识别融合的下载方案。针对静态HTML页面、JavaScript动态加载页面及API接口数据三种不同类型的网页结构,分别设计了对应的解析模块。对于静态页面,采用HTML解析器直接提取APP下载链接;对于动态加载页面,通过模拟浏览器渲染过程,执行JavaScript代码获取动态生成的下载链接;对于API接口数据,通过分析网络请求,识别API接口参数与返回格式,实现接口数据的批量获取。同时通过建立网页结构特征库,自动识别网页类型并调用对应解析模块,提高了下载的通用性与效率。
(二)多工具协同的APP流量数据采集与解密技术
在APP流量数据采集方面,提出了多工具协同的采集与解密技术,解决了不同场景下流量采集难、加密数据解析难问题。

图1 APP流量抓取实现原理
首先,构建了多抓包工具选型与配置自动化方案。深入研究了PCAPdroid、BurpSuite、Wireshark等主流抓包工具的功能特性与适用场景,实现数据捕获与解析。其次,优化了关键信息提取技术。基于正则表达式与语义分析技术,从流量数据中提取APP访问的域名、URL、IP地址、请求方法、响应状态码等信息,极大提高了准确率,为后续备案核验提供了精准的数据支撑。
(三)基于TF-IDF算法的第三方服务干扰排除与备案核验方法
针对APP集成第三方SDK服务导致备案核验干扰的问题,创新提出基于TF-IDF的算法排除无效域名的干扰与备案核验方法,显著提升了核验准确性。

图2 APP访问主域名判定方法
TF-IDF在识别手机域名访问主域名的场景中,发挥着多维度的关键作用。首先,它会将手机域名与主域名的文本内容转化为可分析的文档数据,通过计算词频(TF)反映词语在单个域名中的出现频率,结合逆文档频率(IDF)衡量词语在所有域名中的稀缺性,从而精准评估每个词语的域名代表性,筛选出高区分度的核心特征词,为后续识别工作筑牢基础。在此基础上,利用余弦相似度算法计算二者TF-IDF向量的相似程度,若相似度达到较高阈值,通常可判定该手机域名是主域名的子域名或业务关联域名。
(四)APP流量自动化分析方法
为解决APP流量自动化分析效率低的问题,构建了APP流量自动化分析方法。研发了APP自动化控制与流量分析系统。该系统分为流量采集模块与数据分析模块。流量采集模块集成了前文所述的多工具协同采集技术,实现流量数据的自动采集与解密。数据分析模块则调用智能核验模型,对采集的流量数据进行实时分析,生成备案核验结果。
四、结论
该研究围绕APP备案信息核验面临的“APP汇聚难、流量采集提取难、核验准确性低、分析效率不足”四大核心问题,通过四项关键技术创新,形成了一套完整的APP备案监测与核验解决方案,具体如下:
1.突破APP汇聚瓶颈。研发多场景适配的APP全网自动化汇聚技术,结合动态网页解析、API接口识别,实现了全网APP的高效汇聚与全面覆盖。
2.解决流量采集与提取难题。构建多工具协同的APP流量数据采集与解密技术,通过抓包工具自动化选型配置、跨工具数据融合及关键信息提取引擎,实现了复杂流量的精准采集与解析,为核验提供可靠数据支撑。
3.提升核验准确性。提出基于TF-IDF算法的第三方服务干扰排除与备案核验方法,通过词频-逆文档频率计算、余弦相似度匹配及机器学习分类,有效排除第三方SDK服务的域名干扰,实现备案信息与流量数据的精准匹配,显著提升核验准确性。
4.实现高效自动化分析。搭建APP流量自动化分析系统,集成自动化流量采集与智能核验模型替代人工分析,解决海量APP流量分析的时效性问题,形成“APP汇聚—流量采集—信息提取—智能核验”的一体化流程。
综上,该研究针对APP 备案核验四大核心痛点,以四项关键技术的研究形成全流程解决方案,大幅提升APP下载成功率与信息提取准确率,构建起可落地的一体化技术体系,为规范移动应用市场、保障网络安全与用户权益提供支撑,助力移动互联网生态安全有序发展。
作者简介:
张立坤,中国互联网络信息中心高级工程师,主要研究方向为网络空间测绘、大数据分析。
刘永祥,中国互联网络信息中心高级工程师,主要研究方向为域名安全、DNS攻击防护及网络空间测绘。
徐尧,中国互联网络信息中心工程师,主要研究方向为应用开发与大数据分析。
邵连伟,中国互联网络信息中心工程师,主要研究方向为大数据分析、跨平台技术。
编辑:芦笛(中国互联网络信息中心创新业务所)
842

被折叠的 条评论
为什么被折叠?



