Champion_Feng-优快云博客

原创 python去除文本停用词（jieba分词+哈工大停用词表）

停用词表上github搜索中文停用词就有很多版本，百度、哈工大等。（自行下载，下面推荐一个，现在github windows平台应该要一些操作或fanqiang才能上，linux系统能直接上）https://github.com/goto456/stopwords代码import jiebaimport json# 读取停用词列表def get_stopword_list(file): with open(file, 'r', encoding='utf-8') as f:

2021-05-06 11:00:03 21987 1

原创解决Ubuntu18.04 安装 Pycharm 输入中文(亲测)

需求由于本人的项目要处理中文领域的NLP相关问题，需要训练BERT模型，为避免Windows 出现蓝屏的情况，所以选择了使用Ubuntu来跑代码。又由于处理的中文领域，不可变要在写代码过程使用中文，所以需要在Pycharm平台上输入中文。下面分享我解决的方法运行平台：Ubuntu 18.04Pycharm 社区版 2019.03.01我也测试了几个Pycharm 版本，20年的版本大概率不行，大家不妨多测试。我是看了这篇博客（）后# 系统设置Ubuntu系统中:选择设置——>区域和

2021-01-07 17:00:49 1570 4

原创 LCSTS中文摘要数据集预处理

本文章主要参考了该博客，并在其上做了适当修改和补充。感谢作者。https://blog.youkuaiyun.com/u012495579/article/details/103697824文章目录前言一、安装bs4和tqdm？二、完整代码代码部分跟是在文章头的博客基础上做了修改。三、修改部分总结前言LCSTS数据集中三个部分PART_I.txt 共计2400591对摘要-文本对PART_II.txt 共计10666对摘要-文本对PART_III.txt 共计1106对摘要-文本

2020-12-16 17:58:24 2882 6

原创 Tensorflow 2.0 Cbow skip-gram

文章目录前言1 发现问题2 论文工作3 CBOW模型3.1 框架结构总览3.2 网络结构3.2 CBOW（示例）：4 skip-gram模型4.1 框架结构总览4.2 网络结构4.3 代码如下（示例）：5 总结6 想方设法证明总结6.1 设计语义-预料数据集。6.2 探索维度 - 训练数据量 - 精确度三者的关系6.3 与已有模型精确度比较前言下文参考以下论文，该论文发表于2013年。1 发现问题1）之前的研究多数把单词word（中文是分词的结果）作为原子单元，词与词之间没有相似度的

2020-09-27 20:41:16 1151 1

原创 Tensorflow2.0 复现 NNLM

说明阅读论文"A Neural Probabilistic Language Model" made by Yoshua Bengio.al，2003 。通过Tensorflow2.0 进行复现。论文在百度学术免费下载。文章目录说明前言一、什么事语言模型Lanuage Model,有什么用？二、目标函数1.计算联合概率分布2.简化计算过程2.神经网络架构2.1 理解网络架构![在这里插入图片描述](https://img-blog.csdnimg.cn/20200921162051333.png?x

2020-09-22 11:21:45 735 1

原创基于遗传算法的多阈值图像分割

目录1 摘要2 介绍3Otsu阈值分割3.1经典Otsu法3.2多阈值Otsu法3.3 多阈值Otsu法24 遗传算法设计4.1 个体编码4.2 交配操作4.2.1 单位置单点交叉4.2.2 多位置单点交叉4.3 变异操作4.4 选择操作3.5 适应度函数设置5 测试结果分析5.1 测试一5.2 测试二5.3 测试三5.4 测试四6 结论7 参考8 代码部分8.1 测试脚本ga_muti_thre...

2020-07-08 08:01:48 7856 5

原创 Matlab的子函数和嵌套函数

主函数：（1）一个.m文件只有一个主函数，且正常情况下主函数函数名应该与文件名相同。test.m文件：function [m,n] = test(x,y)%test functionend子函数：（1）如果有的函数很短就几行代码，不想多创建一个.m文件，且只对某些函数使用。可以允许在一个.m文件中创建多个子函数。（2）子函数也之间可以相互调用。子函数与子函数、子函数与主函数之间数...

2020-04-20 17:01:13 7699 1

原创遗传算法的数学基础——模式定理

模式定理通过数学公式对遗传算法进行理论分析。

2020-04-01 16:29:24 3222

原创遗传算法的选择阶段———“轮盘赌”法

**遗传算法的选择阶段———“轮盘赌”法**个体被选中的概率与累积概率成正比（累积概率也与适应度函数值成正比）。首先，计算各个个体的选择概率，设群体的规模为N，表示其中N个个体的适应值。则第i个个体被选中的概率由下式给出：伪代码：选择一个个体进入种群（如要选择多个个体请加外循环）(a) R=random(0,1), S=0, I=0【R表示从0~1随机选一个数】(b) IF S...

2020-03-26 16:18:05 27221 10

小平的霍格沃兹博客