中文意见挖掘与在线拍卖数据采集研究
在当今信息爆炸的时代,对文本意见的挖掘以及在线拍卖数据的有效采集变得愈发重要。中文意见挖掘面临着诸多独特挑战,而在线拍卖数据的大量增长也使得数据收集工作变得复杂且耗时。下面将详细介绍相关的研究方法和实验结果。
中文意见挖掘方法
中文意见挖掘存在不少技术挑战,自然语言中的意见表达往往微妙而复杂,尤其是中文评论。负面评论可能包含许多看似积极的表述,反之亦然。针对这一问题,研究提出了两种互补的方法。
基于中文情感词的方法
- HowNet情感词词典 :HowNet是一个在线常识知识系统,提供了全面的中文情感词词典,包括积极和消极的意见形容词、情感形容词、程度副词和否定副词等。例如,有3730个积极意见形容词(如“ӵಪ/承认”)和3116个消极意见词(如“Ԙੑ/丑陋”)。并且,HowNet会根据程度副词的强度进行量化,如“٤ӈ”权重为2,“ޓ”权重为1.5。
- 句子极性计算 :为处理中文意见分类的微妙性,采用了中间步骤来确定句子极性。首先将整个评论分解为句子,然后合成每个句子的极性以形成整个文本的最终分类结果。对于每个句子,提取一个四元组 :
- S:意见的主体或对象,名词或代词。
- P:语义极性,+1或 -1,表示HowNet中情感词的极性。
- D:程度修饰词,HowNet中给出的权重值。
- N:否定修饰词,-1或 +1,表示是否存在否定修饰词。
例如,“ޓۚྖ”对应的四元组为<, +1, 1.5
超级会员免费看
订阅专栏 解锁全文
455

被折叠的 条评论
为什么被折叠?



