机器学习（10）-NLP自然语言处理大量餐馆评论

qq_38248958

于 2019-01-14 17:20:27 发布

阅读量1.4k

点赞数

分类专栏：机器学习（派神）文章标签：机器学习 NLP 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_38248958/article/details/86480752

版权

本文介绍了一个使用NLP技术分析1000条餐厅评论的案例，目标是通过自然语言处理算法自动判断评论是正面还是负面。首先解释了NLP的基本概念和应用场景，然后详细阐述了数据导入、文本清理（包括去除数字、标点、虚词和词根化）以及生成稀疏矩阵的过程。接着提到了使用朴素贝叶斯进行训练，并给出了预测结果的计算方法。文章提供了源码和数据集的下载链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.NLP是什么

自然语言处理
用于对文本的分类
用于对中英文的互相翻译
用于打字时候的自动纠错
垃圾邮件过滤
…
1.1本次的目标
这次学习是1000个英文的对一餐馆的评价，以及手动分类的结果，看一下是正面还是负面的评价。
用NLP算法自动辨别评价的好坏，当在拿到一个评价时，就可以自动进行好坏的分类了。
这次要做的就是对评论就行分类，完成以后可以拓展到文本文章英文报道等进行应用。
1.2观察数据
在这里插入图片描述
打开评论的tsv文件（文本很特殊，特殊的表单符号被处理）1正面评论、2负面评论，都是手动添加

2.NLP源码分析

2.1.导入数据，利用panda
导入tsv文件，分隔符是‘Tab’，就是‘\t’
quoting = 3：去除引号

dataset = pd.read_csv('R_Reviews.tsv', delimiter = '\t', quoting = 3)

从Spyder中的Variable explorer查看导入的数据
在这里插入图片描述

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。