- 博客(11)
- 收藏
- 关注
原创 基于MLP进行文本分类
最近学习了基于Pytorch框架下的MLP、CNN、RNN网络模型,利用在GitHub上获取的商品评论数据进行文本分类实验。本文介绍了如何在Pytorch框架下建立MLP对数据进行二分类,数据集大致如下:1、导入模块import pandas as pdimport numpy as npimport jiebaimport kerasimport reimport spacyfrom keras.preprocessing.text import Tokenizerimport gen
2021-10-14 20:34:41
3197
4
原创 推荐系统笔记
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-09-22 16:28:35
178
翻译 Python分析国家领导人新春贺词建立主题模型
自然语言处理作业(5.16)本次作业的要求是分析国家领导人从2013年到2021年的新春贺词的主题,对文本数据进行预处理,建立主题模型,模型验证,模型可视化等操作,最后通过主题模型总结出从中获得的信息。具体实现过程如下:1、数据预处理本次实验的文本数据为国家领导人从2013年到2021年的新春贺词,利用os模块对数据进行批量读取,对文本数据中的换行符和空格进行replace处理。然后,除了spaCy本身自带的停用词列表,自定义多加入两个停用词“年”和“国家”,再对其进行停用词处理。代码如下:data
2021-05-17 17:18:18
644
原创 实现spaCy训练词性标注模型
自然语言处理第5次作业(4.19)作业要求:根据提供的文本数据(中文),对文本内容进行标注,然后采用spacy的方法进行训练一个新的模型,最后输出test.txt的词性结果。实现过程如下:首先,对于给定的训练集数据利用spaCy模块进行nlp处理,初始化一个标签列表和文本字符串,将文本分词后用/号隔开,并储存文本的词性标签到标签列表中,代码如下:...
2021-04-27 17:08:28
1186
1
原创 实现spaCy实体标注模型
自然语言处理作业(4.26)作业要求:从去年爬虫大作业中抽取至少200篇中标公告,选取其中至少150篇公告标注中标公司,然后使用spaCy训练一个实体抽取模型,然后用其余50篇公告进行测试。(时间为10天)实验步骤:获取数据(方法不限:去年的爬虫、直接复制粘贴);数据清洗(去重、去网络格式等);标注实体(中标公司,建议多人分配);划分训练集和测试集;spaCy模型训练;测试集测试模型现根据上述实验步骤逐步说明完成情况:1、获取数据和数据清洗去重和删除网络格式(比如 
2021-04-27 16:40:01
1155
1
原创 使用Gensim库对文本进行词袋、TF-IDF和n-gram方法向量化处理
自然语言处理作业(4.5)本次作业的要求是:通过处理部分新闻文本数据的test.txt,使用spacy和Gensim模块包在进行数据预处理后,使用词袋、TF-IDF和n-gram三种方法向量化,并分别输出成三份txt。对于存有部分新闻文本的test.txt文件,先对该文件进行去除停用词等相关处理如下:import spacyfrom spacy.lang.zh.stop_words import STOP_WORDSimport pandas as pdfrom gensim import co
2021-04-09 15:01:24
1683
3
原创 利用spaCy对中文文本分词和去除停用词处理
自然语言处理作业(3.28)本次作业的要求是利用Python中的spaCy模块对《天龙八部》小说进行文本预处理,实现过程如下:1、对文本进行分词处理并去除停用词保存成一个txt首先,在导入spaCy相关模块后,需要加载中文处理包。然后读取小说数据,对天龙八部小说进行nlp处理,既包括:分词、向量化、词性标注、语法解析和命名实体识别,并对小说用符号“/”进行分隔。最后通过is_stop函数判断分词中的词语是否为停用词,去除掉停用词后把结果写入txt文件中,具体代码如下:import spacyimp
2021-03-30 16:52:10
4207
3
原创 利用百度API进行淘宝评论关键词提取
自然语言处理作业(3.20)本次作业是使用Python根据百度API编写一个关于自然语言处理的项目,我选择了自然语言处理技术中的评论观点抽取方面,通过手机淘宝购物的评论并对其进行分析,把关键词进行提取,方便买家快速了解该商品的相关特点,具体实现过程如下:1、创建相关新应用首先,需要登录百度AI平台,创建一个关于自然语言处理技术的应用(领取免费额度),获得AppID、API Key和Secret Key如下:然后下载Python的SDK,然后可以通过阅读API的使用手册和自然语言处理技术的观点抽取相
2021-03-20 17:24:12
2064
1
原创 Python模拟简易版淘宝客服机器人
自然语言处理作业(3.14)对于课堂上基于规则编写的客服问答机器人,从一下几个方面进行优化:1、货物信息储存到MySQL数据库中在现实情景中,购物信息的数据一般会储存到数据库中,方便在进行问答时才访问数据库获取相关信息,可以用Python中的sqlalchemy包把表格导入到MySQL数据库中:import pymysqlimport pandas as pdimport sqlalchemy as sqlafrom sqlalchemy.orm import sessionmakerimp
2021-03-15 11:39:21
2603
原创 深圳二手房房源市场研究(下)
PartⅡ:数据可视化前言数据可视化深圳各区二手房情况房子朝向分布户型与总价的关系楼层与总价的关系结论房价分布情况前言根据上一篇文章,利用Python对房天下网站中深圳十个区的二手房房源信息进行了爬取,并保存到了本地。然后对数据集进行重复值检查、缺失值检查、分列处理、异常值检查等清洗操作,得到了新数据集,现对其进行可视化分析,研究深圳二手房房源的整体情况,并从分析结果给出相关建议。数据可视化深圳各区二手房情况首先,本文从深圳各区二手房平均单价、平均总价和数量这三个方面入手,分别绘制各区的对比图如下
2021-03-06 16:50:14
684
原创 深圳二手房房源市场研究(上)
这里写自定义目录标题研究背景数据集数据清洗如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入研究背景随着近年来经济的飞速发展,北上广深这四大都市全方位均有突出的表现,工作机会多,生活质量高,发展前景可观。但是要在这些城市定居不是一件容易的事,所以二手房便成为了大部分来大城市打拼人们的选择。通过Pytho
2021-03-04 19:52:28
325
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人