观点文本中的建议挖掘探索
1. 建议的文本单元
早期的建议提取研究通常将句子作为建议的基本单元。但在实际操作中,句子可能会缺失上下文信息,或者指代前一句中提到的内容。而且,社交媒体文本中的标点使用常常不准确,这使得自动分句方法难以有效处理此类文本。部分研究甚至对训练集句子进行了手动分割。
2014年,有人提出了一种解决方案,构建了一个酒店评论数据集,将评论分割成陈述,确保每个陈述只包含一种情感。他们将陈述定义为至少是一个从句,最多是评论中一个有独立意义的句子,并提供了自动将观点文本分割成此类陈述的算法。
2. 建议的受益人
社交媒体上与产品和服务相关的建议主要针对两类利益相关者:制造商/供应商或其他消费者。以往的建议挖掘研究通常一次只关注一类受益人。我们将针对其他客户的建议称为客户对客户(CTC)建议。不同受益人的建议在语言特征上可能存在差异。
3. 建议的定义
《牛津英语词典》将“建议”定义为“提出供考虑的想法或计划”。其同义词包括提议、提案、推荐、建议、提示等。在一般情况下,这个定义能清晰地区分建议与其他类型的文本。但在观点句子中识别建议时,人们往往会将大多数句子视为建议。
此前的一项调查选取了酒店和电子产品评论中的20个句子,对应20种观点表达类型,让10位外行标注员判断这些句子是否为CTC建议。结果显示,除了“建议”和“推荐”类别外,其他类别的建议大多是隐含形式,即给出建议的意图未明确表达。由于人类能够自然地从给定陈述或信息中推断出建议,标注员并未区分隐含和明确形式的建议。但在自动检测中,从隐含形式推断建议具有挑战性。因此,我们提出了两种建议形式:
- 明确
超级会员免费看
订阅专栏 解锁全文
1007

被折叠的 条评论
为什么被折叠?



