跨境电商交易信息混合加密研究
1. 页面解析与交易语句预处理
在处理跨境电商交易网页数据时,首先要进一步确定页面是动态加载页面,还是需要进一步交互才能获取数据的页面。对于动态二次加载信息的页面,Htmlunit 提供了 WebClient.getOptions().setJavaScriptEnabled() 方法来解析 JavaScript 脚本;对于 Ajax,还提供了 webClient.setAjaxController() 方法来支持。所以,Htmlunit 可以直接解析动态二次加载信息页面。
从交易网页数据预处理后可得到交易语句集,但这些交易语句集包含很多噪声,如非交易语句、无效交易等。若直接分析提取交易语句,结果可能偏离实际情况,甚至得出错误结论。因此,需要再次对产品交易语句集进行过滤和清理。实际处理中,产品交易语句集的噪声主要体现在以下方面:
- 非交易噪声,如与交易语句无关的字符和解释性文本,会增加交易语句进一步分析的时间消耗,还会干扰交易语句的句法分析和观点提取。
- 电商平台的自动交易,如“默认好评”交易,对整个交易视图的提取和分析无意义。
- 部分商家或竞争对手为获取利益,发布宣传或诋毁某品牌产品的语句,甚至雇用水军发布虚假交易,会干扰交易整体视图的分析结果,需过滤掉。
针对不同类型的噪声,处理方法如下:
- 对于产品交易网页数据中的非交易语句,采用直接过滤法提取交易语句。
- 对于交易语句集中的噪声交易,如无关产品交易语句和非交易语句,先通过手动标记训练集得到垃圾交易集,再用逻辑回归建立机器学习模型识别这两类无效交易。
- 对于诽谤、推
超级会员免费看
订阅专栏 解锁全文
490

被折叠的 条评论
为什么被折叠?



