基于方面的旅游评论情感分析框架

基于方面的情感分类框架的旅游移动应用用于旅游评论

摘要

旅游评论是旅行者了解旅游景点的信息来源。然而,一些评论不相关,成为噪声数据。基于方面的情感分类方法在抑制噪声方面已显示出潜力。但是,关于自动方面识别的研究较少,尤其是对隐式、不频繁和共指方面的识别,导致了错误分类。本文提出了一种基于方面的情感分类框架,不仅能高效地识别方面,还能以高准确率完成分类任务。该框架已实现为一个移动应用程序,帮助游客在城市中找到最佳的餐厅或酒店,并在真实世界数据集上进行了实验评估,取得了优异的结果(85%的识别率和90%的分类准确率)。

I. 引言

旅游业是一个不断发展的产业,对全球各国的重要性日益增加[1]。随着智能手机的普及,游客在游览景点时会在各种社交平台和网站上分享他们的情感。这些情感为读者提供了关于旅游地点的广泛视角。然而,由于情感的多样性和复杂性,读者可能会对是否前往该旅游地点感到困惑。情感分类方法[2]-[6]可帮助将情感组织为正面和负面。然而,每个旅游地点都有多样的方面,简单的二元结果往往不够充分。因此,基于方面的情感分类方法[7]-[20]可能更为有用。例如,观点“食物美味,但场所脏”包含两个方面:“食物”和“场所”。其中,“食物”因正面词“美味”而被分类为正面;“场所”因词语“脏”而被分类为负面。这些方法包括两个基本任务:(1)方面识别;(2)对已识别的方面进行正面或负面的情感分类。这两项任务都是具有挑战性的[21]。

与方面识别的第一项任务相关的有三个问题:(1)识别隐式方面,例如:“昨天我们去了XX餐厅,每道菜都油腻、湿软且非常咸。”这句话隐式地表达了关于一个重要方面“食物”的观点,而该方面并未在原文中提及。(2)识别共指的方面,即在观点中通过不同词汇或同义词提及的相同方面,例如氛围(atmosphere)和环境(ambiance)是共指的方面,因为它们均指向同一方面。(3)识别出现频率较低但仍然重要的方面,例如窗帘和床对于酒店而言虽属不太常见的方面,但却十分重要。在针对已识别方面的第二项基于方面的情感分类任务中,主要问题在于诸如自我介绍、以往访问细节等不相关句子会影响对旅游地点各方面情感的准确预测。

本文通过引入先进的机器学习算法,提出了一种有效的基于方面的情感分类框架。该框架包含两个主要元素:(1)基于决策树的方面识别方法,使读者能够识别显式、隐式和低频方面,并对旅游情感中的共指称方面进行分组;(2)使用机器学习算法的基于方面的情感分类,该部分包含三个阶段。第一阶段,采用斯坦福基本依存关系方法[22]筛选给定情感句子中情感词与方面之间的句段;第二阶段,利用筛选后的短语构建诸如N-元语法和词性标注等特征;最后,应用机器学习算法识别特征,将关于方面的观点分类为正面或负面。评估采用10折交叉验证进行,以限制过拟合等问题[23]。

本文旨在利用机器学习算法识别和分类旅游情感中提到的方面。这些情况在日常生活中非常普遍,决策通常由多个相互关联的标准作出。在提出的框架中,机器学习通过不同方面和情感词对给定的情感进行分类,例如在餐厅评论中,审稿人喜欢食物但不喜欢服务。该算法通过关于各个方面的情感词或短语对评论进行分类。

从旅游网站收集了真实的酒店和餐厅评论,用于评估数据集大小、时间、特征大小、特征类型和特征加权方法对提出框架性能的影响。实验表明,基于方面的情感分类框架非常有效。评估并比较了五种机器学习算法,分别为:朴素贝叶斯多项式模型(NBM)[24]、支持向量机(SVM)[25]、最大熵(ME)[26]、随机森林树(RFT)[27]和模糊格推理(FLR)[28]。这些机器学习算法还与其他相关方法进行了比较[7],[11],[18],[20]。比较结果表明,使用提出的框架后性能显著提升。

在餐厅数据集和酒店数据集上分别以NBM取得了88.08%和90.53%的准确率。此外,所提出的基于方面的情感挖掘框架已实现为一个移动应用。它允许用户按方面查看旅游情感。

本文的其余部分组织如下。第二节介绍了基于方面的情感挖掘概述。第三节讨论了方面识别与分类模型。第四节展示了在真实世界数据集上的实验结果,并对提出的框架与相关方法进行了比较评估。第五节和第六节介绍了移动应用及其分析。最后,第七节对全文进行总结。

II. 相关工作

本节回顾了旅游领域中基于方面的情感分类的相关工作。重点关注的两个领域是:(1)方面识别,以及(2)基于方面的情感分类。

A. 方面提取

在基于方面的情感分类中,方面识别是最重要的任务。现有方法主要分为三类:基于规则、基于种子词和基于主题模型[21]。基于规则的方法通常依赖于从重要性、频率和出现情况中导出的提取规则。

Marrese-Taylor et al.[8]-[9]提出了一种两阶段方法,首先对句子应用词性标注器,然后提取名词作为方面。Hai et al.[10]为旅游领域使用了内在领域相关性(IDR)和外在领域相关性(EDR)得分。Afzaal et al.[11]提出了一种使用FURIA机器学习算法的改进型基于规则的方法。然而,FURIA无法生成足够的规则来提取充足的方面,且无法提取低频方面。

基于种子词的方法利用种子词与情感词之间的语法关系来识别方面[12]-[13]。自举法已被应用于量化种子词与评论词之间的重叠和依赖关系[14]。Zhu et al.[15]使用自举法来识别重要方面。他们在区分方面时考虑了两类术语:(1)词性标注器和(2)N-元语法。与基于规则的方法类似,基于种子词的技术缺乏识别低频方面的能力。

基于主题模型的技术假设每种情感都是不同主题的混合,且每个点都是各个词语上的概率分布。例如,Wu和Ester[16]假设关于餐厅和酒店的每种情感都与一个方面相关联,并使用增强的生成技术来识别这些方面。Xianghua et al.[17]应用滑动窗口从旅游评论中识别方面,但某些方面的初始步骤不准确。Xueke et al.[18]应用潜在狄利克雷分配进行主题建模,但基于主题模型的方法受限于“共现事件”(即术语在不同情境中共现的频率),导致大量“非-特定”和“非实质”观点被拉拢并集中在一起。

上述方法的主要局限性在于未能去除不相关方面,以及未能处理评论中共-指称方面的问题。后者指的是个体使用不同的表达方式来描述相似的方面。此外,还存在一些方面并未在评论中直接出现,而是通过评论对特定方面的态度来体现。例如,“食物”在“味道也很好”这句话中是一个隐式的方面。

B. 基于方面的情感分类

基于方面的情感分类旨在确定给定文本中关于各个方面的观点在两个或多个类别(如好、坏或五星)中的倾向。Wang et al.[14]使用潜在评级回归(LRR)将相关词语组织到评分尺度上的五个不同评分之一。Xueke et al.[18]在使用自然语言处理工具包进行句子分割和词性标注器预处理后,利用支持向量机在真实世界数据集上预测关于“员工”、“食物”和“氛围”等特定方面的观点。Pontiki at el.[19]-[20]使用带线性核的支持向量机(SV分类器)进行二分类,结果表明该方法具有鲁棒性和稳定性。De Albornoz et al.[7]将调查评分表示为特征强度向量(VFI),并使用住宿审核来验证其方法。Afzaal et al.[11]提出一种三阶段模糊基于方面的分类方法,将情感划分为正面和负面。

监督机器学习的一个局限性是,必须对评论数据进行标注才能训练分类器。一些数据已经带有审稿人分配的标签。由审稿人标注的数据可能包含噪声,例如自我介绍、过往经历等不必要细节,这些会对分类产生负面影响。否则,就需要进行手动标注,而这一过程繁琐且昂贵。

III. 提出的框架

示意图0

图1展示了用于方面识别和分类的提出的框架的概述。在步骤1(数据收集)中,从多个社交媒体平台和网站收集关于酒店和餐厅等旅游景点的旅游评论。步骤2(数据预处理)抑制噪声和冗余,并将清理后的评论转换为句子。步骤3(方面识别)使用混合方面识别方法从预处理的数据集中提取方面。步骤4(分类)利用机器学习将识别出的方面分类为正面或负面情感。

A. 数据收集

在数据收集中,使用爬虫和应用程序编程接口(API)从流行的社交媒体网站收集评论。每个领域的数据集包含不同数量的评论。在餐饮领域,有2000条评论,其中1000条为正面评论,1000条为负面评论。在酒店领域,有4000条评论,包括2000条正面评论和2000条负面评论。伦敦被选为案例研究中的目标城市。

B. 数据预处理

数据预处理消除了数据中固有的冗余和歧义,并将评论转换为句子,以促进句子级别的基于方面分类。首先,通过识别分隔符(例如句号、感叹号或问号)来提取句子。接着,删除冗余信息,例如重复的句子。最后,纠正歧义、模糊或拼写错误的术语。清理后的餐厅和酒店数据集分别包含3787和7802个句子。

C. 方面识别

方面识别方法的目标是识别对游客重要且相关的方面。本文提出了一种混合方面识别方法,能够从关于旅游景点的评论中识别显式和隐式方面。算法1下面描述了该方法的工作流程。该算法将所有情感句子作为输入进行方面识别,然后处理输入句子,并为每个句子分配相应的方面作为输出。

示意图1

算法1的第1-7行从情感句子中识别显式方面。对每个句子应用斯坦福词性标注器[29]以获得词性标注词典(第2和第3行)。然后,除名词(NN)和名词短语外,其余词性标注均被丢弃,用作显式方面(第4-6行)。第8-14行使用WordNet[30]将所有具有相同含义或指向同一方面的共指方面(例如 location、place和venue)以及同义词(例如 atmosphere和environment)进行分组。第15行应用一个规则库来提取在所有句子中出现>10次的相关方面。在此阶段,大多数句子已被分配显式方面。接下来,对于隐式方面识别,如图2和图3所示,在餐厅和酒店领域使用决策树。句子通过一元分词器分割成词语,作为相应决策树的输入。第16行显示了将词语作为条件、将分配的方面作为类别的用法。第17-23行随后从决策树中找出隐式方面。最后,第24行返回所有已分配的方面。

示意图2

D. 基于方面的意见分类

分类过程包括三个基本阶段。首先,丢弃那些对指定方面没有情感的句子。其次,使用N-元语法和词性标注从情感句子中提取特征。最后,利用提取出的特征训练分类器。

丢弃观点句子 :许多评论中的句子是不相关的,因为它们不包含情感信息,例如“我点了鱼、鸡肉和甜点”。对每条评论句子应用斯坦福基本依存关系[22]算法,以找出情感词(形容词)与方面之间的依存关系。如果某个方面与情感词没有任何依存关系,则该方面将从句子中移除。

特征提取 :从每个数据集中提取四种类型的特征。它们是N-元语法(N = 1,2,3)和词性标注,通过三个步骤获得。第一步是分词,对于词性标注,仅从数据集中提取动词、副词和形容词。第二步是去除停用词。最后一步是正确处理否定,例如,“I do not like rice”将形成三个二元特征:“I do+not”,“do+not like”,“not+like rice”。

分类器训练 :机器学习算法通过考虑所有方面及其与情感词的关联,将消费者评论中的每个方面分类为正面或负面。例如,在一条餐厅评论中,游客喜欢食物但不喜欢服务。该评论的类别取决于与各个方面相关联的情感词和短语。当考虑多个方面时,情况变得更加复杂;而机器学习算法非常高效且具有帮助性。本文研究中所涉及的五种流行的机器学习算法如下所述。

Naïve Bayes Multinomial :朴素贝叶斯分类器是一种简单的概率分类器,源自贝叶斯定理的应用,但在特征之间具有强独立性假设。这种独立性假设意味着对于给定类别c,观察到从݂ଵ到݂௡的特征的概率可以计算为如下简单乘积形式:[24]
݌൫݂ଵ,…,݂௡หܿ൯ ൌ ෑ݌ሺ݂௜|ܿሻ

௜ୀଵ
ሺ1ሻ
使用朴素贝叶斯对T样本进行分类时,处理形式为 [24]的后验概率会变得更加简单:
his means that when a new ex
݌൫ܿ|݂ଵ,…,݂௡൯ ∝ ݌ሺܿሻ݌ሺ݂ଵ|ܿሻ…݌ሺ݂௡|ܿሻ ሺ2ሻ Although the independence assumptions 尽管在实际应用中很少甚至从不成立,朴素贝叶斯分类器已被发现即使对于某些复杂任务也表现良好。此外,朴素贝叶斯分类器具有可扩展性,因为其所需的参数数量与特征数量呈线性关系。朴素贝叶斯模型的一个合理扩展是多项式朴素贝叶斯,它允许每个特征分布 ݌ሺ݂௜|ܿሻ为多项分布。该方法对文本中词语等易于计数的数据效果良好。

支持向量机 :SVM试图通过在多维特征空间中定义具有超平面的决策边界来分离数据点。支持向量是特征空间中最接近决策边界的那些数据点。尽管SVM可用于多类别分类问题,但其本质上是一种二分类方法,其中未见过的文档向量被分配到由超平面分隔的两个类别之一。给定一个包含标签对ሺݔ௜, ݕ௜ሻ, ݅ ൌ 1,2,...的训练集,其中 ݔ௜ ∈ ܴ௡ 和ݕ ∈ ሼ1,െ1ሽ௟,SVM涉及形式为[25]的优化问题:
݉݅݊ ݓ, ܾ, ࣟ 1 2
்ܹܹ൅ܥ෍ ࣟ௜ ௟

ܵݑܾ݆݁ܿݐݐ݋ݕ௜ሺݓ ் ∅ሺܺ௜ሻ ൅ ܾሻ ൒ 1െࣟ௜, ሺ3ሻ ࣟ௜ ൒ 0 where W contains weights assigned to 特征, ࣟ模型添加了错误校正,C是一个正则化参数。优化问题是最小化ଵ ଶ
்ܹܹ൅ ܥܲ ∑ ࣟ௜, ௟ ௜ୀଵ 其中ݕ ௜ ሺݓ் ∅ሺܺ௜ ሻ൅ ܾሻ 的值必须大于1െ ࣟ ௜ ,且ࣟ需要接近零。训练向量ݔ ௜ 通过∅映射到更高维空间。在当前上下文中,书面评论必须转换为数值向量。然后将这些向量归一化,使其保持在0到1的范围内。

最大熵 :该算法使用条件分布约束来建模训练数据的特征。最大熵(ME)值由[26]给出:
ܲ ொ ሺܿ|݀ሻ ൌ 1 ܼሺ݀ሻ expቆ෍ ߣ ௜,௖ ௜
݂ ௜,௖ ሺ݀, ܿሻቇ ሺ4ሻ
where ܲ ொ entd被分类为类别‘c’的概率, ݂ ௜ ,௖ ሺ݀, ܿሻሻ 是特征和类别c的特征/类别函数, ߣ ௜ ,௖ 是估计参数,而Z(d)是归一化因子。用于分类
ሺܿ|݀ሻ is the probability of docum

IV. 评估

本节展示了将基于方面的 sentiment 分类框架应用于从热门旅游网站获取的评论的实验结果。

A. 方面识别

餐厅和酒店数据集均被用于测量每个数据集中正确识别的方面的比例。提出的方面识别方法在餐厅数据集中正确识别了80%的方面,在酒店数据集中正确识别了85%的方面。识别器发现的方面类型的细分也值得关注。图4展示了在餐厅和酒店数据集中发现的方面类型的细分情况。在餐厅数据集中,最常见的识别方面是显式(频繁和不频繁)方面,占所有识别方面的60%。其次是隐式方面,占23%,而共指方面占所有已识别方面的17%。同样,在酒店数据集中,显式方面(常见和不常见)最常出现,占比为52%,其次是隐式方面,占32%,共指方面再次位列第三,占16%。

示意图3

B. 基于方面的情感分类

为了衡量基于方面的情感分类性能,每种算法都在不同规模的数据集、不同的特征加权方法和不同的特征类型上进行了评估。同时测量了在不同规模数据集上的分类时间,以评估每种方法的相对延迟。结果如表I和图5-9所示。表I显示基于方面的情感分类准确率,展示了五种机器学习方法在评估中的表现。对于两个数据集而言,NBM均取得了最佳性能;其在餐厅数据集上的分类准确率达到88.08%,在酒店数据集上达到90.53%。

表I 分类器性能

分类器 准确率 精确率 召回率 F值
餐厅数据集
NBM 88.08% 0.88 0.88 0.88
SVM 87.02% 0.87 0.87 0.87
ME 85.74% 0.85 0.85 0.85
RFT 87.42% 0.87 0.87 0.87
FLR 77.96% 0.78 0.78 0.78
酒店数据集
NBM 90.53% 0.90 0.90 0.90
SVM 89.93% 0.89 0.89 0.89
ME 83.83% 0.84 0.84 0.84
RFT 87.79% 0.88 0.88 0.87
FLR 80.12% 0.80 0.80 0.80

图5显示了基于方面的情感分类结果绘制的ROC曲线。它再次表明,NBM在两个数据集上的五种机器学习算法中表现最佳。图6展示了预测评论标签所需时间。NBM在两个数据集上速度最快,而FLR最慢,突显了与构建和应用模糊格规则相关的方法的复杂性。图7展示了四种特征类型(一元特征、二元特征、三元组和词性标注)对基于方面的情感分类性能的影响。结果显示,在两个数据集上,一元特征和词性标注与NBM结合效果最佳。图8展示了特征加权方法(如存在、词频和TF-IDF)对基于方面的情感分类性能的影响。结果表明,在两个数据集上,存在与NMB结合效果最佳。图9展示了不同数据集大小对基于方面的情感分类性能的影响。餐厅评论被分为四个部分,分别为500、1000、1500和2000条评论,酒店评论被分为四个部分,分别为1000、2000、3000和4000条评论。使用NBM时,餐厅数据集在1000条评论的部分取得了最佳结果,而酒店数据集在4000条评论的部分表现最好。

示意图4

示意图5

示意图6

示意图7

示意图8

C. 比较评估

然后将新型机器学习框架与旅游领域中的现有方法进行了比较。表II和表III分别展示了在方面识别和基于方面的情感分类方面的比较结果。结果表明,提出的框架在这两项任务中均优于其他方法。

表II 比较:方面识别

参考文献 显式方面 隐式的方面 Co-指称的方面? 丢弃不相关方面? 方法 结果 %
de Albornoz J. C. 等人,2011[7] High Null Null Y Y 规则基于
Mukherjee, A. 等人,2012[13] High Low Null N Y 种子基于
向华, F. 等人,2013 [17] High中 Null N N LDA基于 73
Afzaal, M. et 等,2016 [11] High Low Low Y N FURIA基于
提出(餐厅数据集) High中 High Y Y 混合Tree基于 80
提出(酒店数据集) High中 High Y Y 混合Tree基于 85

表III 比较:基于方面的情感分类

参考文献 数据规模 方法 结果%
德阿尔博诺斯,J.C.等人,2011 [7] 1500 逻辑回归 71.7
Xueke, X. 等人,2013 [18] 3214 支持向量机 83.9
Pontiki, M. 等, 2015 [20] 320 最大熵 78.69
Afzaal, M. 等,2016 [11] 4000 模糊逻辑推理 86.02
提出(餐厅数据集) 2000 朴素贝叶斯多项式 88.08
提出(酒店数据集) 4000 朴素贝叶斯多项式 90.53

所提出的方法在计算复杂度和性能方面表现出色。逻辑分类具有较低的复杂度,但如表III所示,其表现较差。支持向量机表现良好,但复杂度较高。同样,阿法尔等人虽然取得了准确的结果[11],但依赖于高度复杂的三阶段模糊分类器。相比之下,朴素贝叶斯具有较低的复杂度(只需计算每个类别中各特征值的频率),而多项式扩展并未显著增加复杂度。同时,NBM相较于其他方法取得了更优的结果。

V. 移动应用实现

提出的框架已使用开源技术实现为一个移动应用程序。该移动应用的架构如图10所示。它分为两个部分,即移动端和服务器端,服务被用作通信链路以在两端之间同步数据。同步功能可根据用户偏好传输数据,避免在移动设备上存储大量不必要的数据。移动中间件是主要的处理单元,在其中实现了算法,用于利用移动电话已有的用户丰富信息进行本地基于方面的情感分析。它还负责本地存储与服务器存储之间的数据同步。这种设置的优势在于,不仅能够通过及时提供有用信息来优化消费者体验,而且即使移动设备超出范围或断开连接时,也能对这些信息进行处理。

示意图9

移动应用涵盖了伦敦的情况,游客使用其他旅游工具来寻找城市中最佳的餐厅和酒店。移动应用的工作流程如图11所示。图11(a)展示了伦敦市地图上以不同颜色标注的餐厅和酒店的位置图标。点击任意餐厅或酒店的位置图标后,应用程序将跳转至酒店或餐厅详情页面。图11(b)显示了酒店详情页,包括酒店名称、图片以及相应的方面列表。该列表展示了前八个方面以及更多可加载内容方面按钮。通过选择任何方面,应用程序将重定向到方面详情页面,如图11(c)所示。

示意图10

图11(c)显示了有关所选方面的有用信息。饼图显示了关于房间方面的正面和负面情感的百分比。在页面底部,折线图将情感划分为四个时间段(3月-5月、6月-8月、9月-11月和12月-2月),并显示每个时间段内关于房间方面的正面和负面情感数量。页面左侧显示了正面和负面情感的总页数,并配有“点击此处阅读情绪”按钮。点击此按钮后,应用程序将跳转至房间方面的情绪详情页面,如图11(d)所示。游客可以在该页面上阅读有关房间方面的情感内容。如果他们只想查看该方面的负面或正面情感,还可以应用筛选器。

图11(e)显示了旅游组织在分析其餐厅或酒店评论时的界面。他们可以上传电子表格格式的未标记数据集并进行分析。通过点击“开始分析”按钮,移动应用会使用提出的框架自动识别方面,并将情感分类为正面或负面。分析完成后,移动应用会快速显示结果,接近即时,因此适用于消费类应用。

图11(f)展示了允许用户根据其偏好设置应用程序的设置界面。该应用程序引入了两种偏好设置:“基于旅游景点和方面的偏好”和“基于位置的偏好”。在基于旅游景点和方面的偏好中,用户可以选择希望在地图上查看的旅游景点类型以及希望分析的方面。例如,如果用户选择酒店作为旅游景点,并且只想分析价格和房间方面,则移动应用将在地图上显示酒店,并针对所选的价格和房间方面对每个酒店进行分析。在基于位置的偏好中,用户可以选择仅查看其当前位置附近的旅游地点,并可以控制以英里为单位设置区域大小。

VI. 应用程序能耗与性能分析

本节对移动应用的能耗和性能进行了分析。移动应用分析的思想来源于不同的研究。Oliveira et al.[32]提出了一种比较不同设备能耗的方法。Phan et al.[33]提出了一种用于移动应用性能分析的基准测试。为了实现多样性,本分析使用了来自不同制造商、不同生产年份以及具有不同内存和中央处理器规格的三台设备,具体信息如表IV所示。设备3为2015年制造,代表了一种旧设备,用以验证应用程序的向后兼容性。

表IV 实验中使用的设备及其特性

Year 硬盘 RAM CPU 电池(mAh)
设备1 2018 16 GB 2 GB 1.4 GHz四核 3000
设备2 2018 8 GB 1 GB 1.2 GHz 四核 1200
设备3 2015年 4 GB 512 MB 1.2 GHz 四核 2000

示意图11

移动应用在每台设备上运行至少20分钟,且电池为充满电的电池,以确保设备不会进入省电模式。实验期间没有其他应用程序处于活动状态。实验结果表明,设备1消耗了102毫安时(mAh)的能量,相当于电池总容量的3.4%。另一方面,设备2和设备3的能耗高于设备1(设备2约为136 mAh,设备3约为141 mAh)。20分钟被视为用户在单一场景下连续使用应用程序可能达到的上限。实际上,大多数使用情况在几分钟内即可完成。

此外,确保移动应用的性能不会下降,并且能够在不同厂商、不同规格的设备上平稳运行,这一点非常重要。图12(b)展示了对移动应用性能分析的结果,其中测量了五个不同函数在每台设备上的响应时间。结果表明,与设备1相比,设备2和设备3的响应时间略有增加,但它们仍能在最多1500毫秒内输出正确结果。

VII. 结论

本文提出了一种基于方面的 sentiment 分类框架,用于将关于方面的意见/评论分类为正面或负面。在此框架中,提出了一种基于树的方面提取方法,从游客意见中提取显式和隐式方面。该方法从评论文本中提取高频名词和名词短语,然后使用 WordNet 对相似名词进行分组。在评论上采用决策树,其中评论词语作为树的内部节点,提取出的名词作为叶节点。首先,通过在每个句子上应用斯坦福基本依存关系,去除无观点和不相关的句子。接着,从剩余句子中利用 N-元语法 和 词性标注 提取特征以训练分类器。最后,应用机器学习算法对提取的特征进行分类器训练。一旦模型得到充分训练,所学习到的模型即用于分类关于提取的方面的情感分为正面或负面。

在来自餐厅和酒店评论网站以及社交媒体平台的真实世界数据集上进行了实验,以评估提出的框架。对比评估结果表明,该提出的框架优于旅游领域中现有的方法。具体而言,在方面识别任务中,该提出的方法在餐厅数据集上正确识别了80%的相关方面,在酒店数据集上识别了85%。在基于方面的情感分类任务中,所评估的五种机器学习算法中,NBM取得了最佳结果。其在餐厅数据集上正确分类了88.08%的方面,在酒店数据集上准确率达到90.53%。

最后,所提出的基于方面的情感挖掘框架已作为移动应用实现,供消费者使用。该移动应用提供了一种用户友好的方式,通过方面分析旅游情感。旅行消费者可以使用他们的智能手机,在访问任何旅游地点时获取有用且抑制噪声的信息,以帮助他们做出决策。

未来研究将侧重于可扩展性以及加快总体响应时间,以进一步改善用户体验。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值