机器学习(10)-NLP自然语言处理大量餐馆评论

本文介绍了一个使用NLP技术分析1000条餐厅评论的案例,目标是通过自然语言处理算法自动判断评论是正面还是负面。首先解释了NLP的基本概念和应用场景,然后详细阐述了数据导入、文本清理(包括去除数字、标点、虚词和词根化)以及生成稀疏矩阵的过程。接着提到了使用朴素贝叶斯进行训练,并给出了预测结果的计算方法。文章提供了源码和数据集的下载链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.NLP是什么

自然语言处理
用于对文本的分类
用于对中英文的互相翻译
用于打字时候的自动纠错
垃圾邮件过滤

1.1本次的目标
这次学习是1000个英文的对一餐馆的评价,以及手动分类的结果,看一下是正面还是负面的评价。
用NLP算法自动辨别评价的好坏,当在拿到一个评价时,就可以自动进行好坏的分类了。
这次要做的就是对评论就行分类,完成以后可以拓展到文本文章英文报道等进行应用。
1.2观察数据
在这里插入图片描述
打开评论的tsv文件(文本很特殊,特殊的表单符号被处理)1正面评论、2负面评论,都是手动添加

2.NLP源码分析

2.1.导入数据,利用panda
导入tsv文件,分隔符是‘Tab’,就是‘\t’
quoting = 3:去除引号

dataset = pd.read_csv('R_Reviews.tsv', delimiter = '\t', quoting = 3)

从Spyder中的Variable explorer查看导入的数据
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值