2018-3-3 论文(网络评论中非结构化信息的表示与应用研究)笔记一

文章立脚点:

大量网络评论的出现,使得产品制造商或消费者很难跟踪己购产品用户的意见和建议,这就给他们的决策造成了额外的困难。

文章思路;

将网络评论中的非结构化信息处理成结构化信息

文章的总体的脉络

首先研宄评论分词、词性标注以及对歧义词、未登录词、禁用词的处理方法,然后分析比较传统特征抽取模型的优缺点,并在此基础上提出基于迭代思想的网络评论特征抽取模型,然后利用模糊认知图的知识表示和推理机制,充分考虑特征项之间、特征项与类别之间、类别与类别之间的因果关系和相互影响,提出基于模糊认知图的网络评论表示模型。在此基础上,利用分类器对网络评论进行分类,提出基于证据理论的网络评论综合评价模型。最后,收集来自于互联网的大量客户评论内容,并利用提出的模型和方法进行相应实验,得到了有效的实验结果,进而验证了模型的有效性。


研究背景:


研究意义:


文章主要内容:


论文研究路线:


特征提取的三种方式:



汉语文本的切分方式:


汉语相比较英语难切分:

(1)汉语的多意,一个汉字自己是一种意思,和另一个组合是一种意思,在和另外一个有是另一种

(2)英语中粗略的可以使用分隔符,作为分词的依据

(3)英语文本是小字符集上的已经充分分开的词串,而汉语文本是大字符集上的连续字符串,并且次与此之间没有明显的符号分割(比如空格符)

歧义字段分类以及目前切片策略


未登录词:

没有录入词典中作为切分的词(可以通过统计是否常用来更新词典中的词)

禁用词:

没有意义的词。其遵循的规则如下:


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值