
自然语言处理
文章平均质量分 72
今天喝奶茶了嗎
女生也可以试着学好编程
展开
-
基于MLP进行文本分类
最近学习了基于Pytorch框架下的MLP、CNN、RNN网络模型,利用在GitHub上获取的商品评论数据进行文本分类实验。本文介绍了如何在Pytorch框架下建立MLP对数据进行二分类,数据集大致如下:1、导入模块import pandas as pdimport numpy as npimport jiebaimport kerasimport reimport spacyfrom keras.preprocessing.text import Tokenizerimport gen原创 2021-10-14 20:34:41 · 3217 阅读 · 4 评论 -
Python分析国家领导人新春贺词建立主题模型
自然语言处理作业(5.16)本次作业的要求是分析国家领导人从2013年到2021年的新春贺词的主题,对文本数据进行预处理,建立主题模型,模型验证,模型可视化等操作,最后通过主题模型总结出从中获得的信息。具体实现过程如下:1、数据预处理本次实验的文本数据为国家领导人从2013年到2021年的新春贺词,利用os模块对数据进行批量读取,对文本数据中的换行符和空格进行replace处理。然后,除了spaCy本身自带的停用词列表,自定义多加入两个停用词“年”和“国家”,再对其进行停用词处理。代码如下:data翻译 2021-05-17 17:18:18 · 656 阅读 · 0 评论 -
实现spaCy训练词性标注模型
自然语言处理第5次作业(4.19)作业要求:根据提供的文本数据(中文),对文本内容进行标注,然后采用spacy的方法进行训练一个新的模型,最后输出test.txt的词性结果。实现过程如下:首先,对于给定的训练集数据利用spaCy模块进行nlp处理,初始化一个标签列表和文本字符串,将文本分词后用/号隔开,并储存文本的词性标签到标签列表中,代码如下:...原创 2021-04-27 17:08:28 · 1205 阅读 · 1 评论 -
实现spaCy实体标注模型
自然语言处理作业(4.26)作业要求:从去年爬虫大作业中抽取至少200篇中标公告,选取其中至少150篇公告标注中标公司,然后使用spaCy训练一个实体抽取模型,然后用其余50篇公告进行测试。(时间为10天)实验步骤:获取数据(方法不限:去年的爬虫、直接复制粘贴);数据清洗(去重、去网络格式等);标注实体(中标公司,建议多人分配);划分训练集和测试集;spaCy模型训练;测试集测试模型现根据上述实验步骤逐步说明完成情况:1、获取数据和数据清洗去重和删除网络格式(比如 原创 2021-04-27 16:40:01 · 1172 阅读 · 1 评论 -
使用Gensim库对文本进行词袋、TF-IDF和n-gram方法向量化处理
自然语言处理作业(4.5)本次作业的要求是:通过处理部分新闻文本数据的test.txt,使用spacy和Gensim模块包在进行数据预处理后,使用词袋、TF-IDF和n-gram三种方法向量化,并分别输出成三份txt。对于存有部分新闻文本的test.txt文件,先对该文件进行去除停用词等相关处理如下:import spacyfrom spacy.lang.zh.stop_words import STOP_WORDSimport pandas as pdfrom gensim import co原创 2021-04-09 15:01:24 · 1718 阅读 · 3 评论 -
利用spaCy对中文文本分词和去除停用词处理
自然语言处理作业(3.28)本次作业的要求是利用Python中的spaCy模块对《天龙八部》小说进行文本预处理,实现过程如下:1、对文本进行分词处理并去除停用词保存成一个txt首先,在导入spaCy相关模块后,需要加载中文处理包。然后读取小说数据,对天龙八部小说进行nlp处理,既包括:分词、向量化、词性标注、语法解析和命名实体识别,并对小说用符号“/”进行分隔。最后通过is_stop函数判断分词中的词语是否为停用词,去除掉停用词后把结果写入txt文件中,具体代码如下:import spacyimp原创 2021-03-30 16:52:10 · 4242 阅读 · 3 评论 -
利用百度API进行淘宝评论关键词提取
自然语言处理作业(3.20)本次作业是使用Python根据百度API编写一个关于自然语言处理的项目,我选择了自然语言处理技术中的评论观点抽取方面,通过手机淘宝购物的评论并对其进行分析,把关键词进行提取,方便买家快速了解该商品的相关特点,具体实现过程如下:1、创建相关新应用首先,需要登录百度AI平台,创建一个关于自然语言处理技术的应用(领取免费额度),获得AppID、API Key和Secret Key如下:然后下载Python的SDK,然后可以通过阅读API的使用手册和自然语言处理技术的观点抽取相原创 2021-03-20 17:24:12 · 2093 阅读 · 1 评论 -
Python模拟简易版淘宝客服机器人
自然语言处理作业(3.14)对于课堂上基于规则编写的客服问答机器人,从一下几个方面进行优化:1、货物信息储存到MySQL数据库中在现实情景中,购物信息的数据一般会储存到数据库中,方便在进行问答时才访问数据库获取相关信息,可以用Python中的sqlalchemy包把表格导入到MySQL数据库中:import pymysqlimport pandas as pdimport sqlalchemy as sqlafrom sqlalchemy.orm import sessionmakerimp原创 2021-03-15 11:39:21 · 2642 阅读 · 0 评论