- 博客(9)
- 收藏
- 关注
原创 python去除文本停用词(jieba分词+哈工大停用词表)
停用词表上github搜索中文停用词就有很多版本,百度、哈工大等。(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上)https://github.com/goto456/stopwords代码import jiebaimport json# 读取停用词列表def get_stopword_list(file): with open(file, 'r', encoding='utf-8') as f:
2021-05-06 11:00:03
21987
1
原创 解决Ubuntu18.04 安装 Pycharm 输入中文(亲测)
需求由于本人的项目要处理中文领域的NLP相关问题,需要训练BERT模型,为避免Windows 出现蓝屏的情况,所以选择了使用Ubuntu来跑代码。又由于处理的中文领域,不可变要在写代码过程使用中文,所以需要在Pycharm平台上输入中文。下面分享我解决的方法运行平台:Ubuntu 18.04Pycharm 社区版 2019.03.01我也测试了几个Pycharm 版本,20年的版本大概率不行,大家不妨多测试。我是看了这篇博客()后# 系统设置Ubuntu系统中:选择设置——>区域和
2021-01-07 17:00:49
1570
4
原创 LCSTS中文摘要数据集预处理
本文章主要参考了该博客,并在其上做了适当修改和补充。感谢作者。https://blog.youkuaiyun.com/u012495579/article/details/103697824文章目录前言一、安装bs4和tqdm?二、完整代码代码部分跟是在文章头的博客基础上做了修改。三、修改部分总结前言LCSTS数据集中三个部分PART_I.txt 共计2400591对 摘要-文本对PART_II.txt 共计10666对 摘要-文本对PART_III.txt 共计1106对 摘要-文本
2020-12-16 17:58:24
2882
6
原创 Tensorflow 2.0 Cbow skip-gram
文章目录前言1 发现问题2 论文工作3 CBOW模型3.1 框架结构总览3.2 网络结构3.2 CBOW(示例):4 skip-gram模型4.1 框架结构总览4.2 网络结构4.3 代码如下(示例):5 总结6 想方设法证明总结6.1 设计语义-预料数据集。6.2 探索 维度 - 训练数据量 - 精确度 三者的关系6.3 与已有模型精确度比较前言下文参考以下论文,该论文发表于2013年。1 发现问题1)之前的研究多数把单词word(中文是分词的结果)作为原子单元,词与词之间没有相似度的
2020-09-27 20:41:16
1151
1
原创 Tensorflow2.0 复现 NNLM
说明阅读论文"A Neural Probabilistic Language Model" made by Yoshua Bengio.al,2003 。通过Tensorflow2.0 进行复现。论文在百度学术免费下载。文章目录说明前言一、什么事语言模型Lanuage Model,有什么用?二、目标函数1.计算联合概率分布2.简化计算过程2.神经网络架构2.1 理解网络架构一个.m文件只有一个主函数,且正常情况下主函数函数名应该与文件名相同。test.m文件:function [m,n] = test(x,y)%test functionend子函数:(1)如果有的函数很短就几行代码,不想多创建一个.m文件,且只对某些函数使用。可以允许在一个.m文件中创建多个子函数。(2)子函数也之间可以相互调用。子函数与子函数、子函数与主函数之间数...
2020-04-20 17:01:13
7699
1
原创 遗传算法的选择阶段———“轮盘赌”法
**遗传算法的选择阶段———“轮盘赌”法**个体被选中的概率与累积概率成正比(累积概率也与适应度函数值成正比)。首先,计算各个个体的选择概率,设群体的规模为N,表示其中N个个体的适应值。则第i个个体被选中的概率由下式给出:伪代码:选择一个个体进入种群(如要选择多个个体请加外循环)(a) R=random(0,1), S=0, I=0【R表示从0~1随机选一个数】(b) IF S...
2020-03-26 16:18:05
27221
10
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅