中文微博消费意图分析研究
1. 引言
随着互联网和移动设备的发展,微博服务(如新浪微博)在我们的生活中扮演着重要角色。在微博领域已经有大量的研究,例如情感分析和社交网络分析。本文聚焦于如何识别用户的消费意图,这对电子商务和其他商业领域有着重大影响。
一些用户的微博帖子包含消费意图,比如“今天我看到了Moto X的评测,有点感兴趣,想买”。这类信息有助于制造商收集潜在消费者,提高广告投放的准确性。然而,社交媒体数据的意图识别研究在国内外都处于起步阶段。普通可分类文本包括传统博客、论坛等,而微博具有及时性、主题包容性强的特点,每条最多包含140字。用户表达自由,消息中包含噪声数据,如表情符号、英文混合书写和URL等。此外,中文语法丰富复杂,不同组合意义多样,这使得处理中文文本更加困难。使用能训练正常文本的机器学习方法来分类不规则的微博帖子,难以取得理想结果,尤其是对于跨领域的消息。
意图可分为显性和隐性。显性意图会在帖子中明确表述,如“我想买iPhone 5”,无需推断。而隐性意图,如“iPhone怎么样,好用吗”,不同人可能有不同理解,这类隐性微博帖子常用于计算广告或推荐系统。
2. 相关工作
2.1 网络搜索领域的意图研究
最相关的研究是在网络搜索领域获取用户意图,但该任务是对用户使用搜索引擎时输入的2 - 3个单词的文本进行分类,与本文工作不同。
2.2 社交媒体情感分类研究
Go和Bhayani尝试对Twitter进行情感分类,他们使用远程监督以在Twitter上实现高精度,即额外信息(如表情符号)可作为特征。Striam和Fuhry提出了一种新的特征选择方法来处理
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



