
自然语言处理
自塾
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sklearn中的tf-idf计算详解
教科书上的tf-idf公式是长这样的:tf×idf(i,j)=tfij×idfi=nij∑knkj×log(∣D∣1+∣Di∣)tf \times idf(i,j) = tf_{ij} \times idf_i = \frac {n_{ij}}{\sum_{k}{n_{kj}}} \times log\left(\frac{|D|}{1+|D_i|}\right)tf×idf(i,j)=tfij...原创 2020-05-05 23:36:44 · 5663 阅读 · 4 评论 -
如何把Excel中的文字保存为txt文件?
使用Python做NLP任务的时候,经常会清洗数据,做成txt文件,每一行代表一篇文章。但是,采用pd.read_csv(‘新华社数据.csv’, encoding = ‘GB2312’, error_bad_lines=False) 这种方法会出现报错,无法识别位置XXX处的字符。而csv文件是可以用Excel打开的,作为备选,可以从Excel中提取文本。VBA代码如下:Sub zhuantx...原创 2020-03-30 23:09:10 · 1233 阅读 · 0 评论 -
macOS 安装tensorflow
电脑系统如下:安装tensorflow有很多坑,费了好大劲才安装上。废话不多说,上代码。打开终端,输入下面的代码,只有一行:pip install --user -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow==2.1.0解释一下上面这行代码:–user 的意思是安装到用户目录下,因为没有root权限。tensorflow的...原创 2020-02-23 11:47:29 · 1176 阅读 · 0 评论 -
python + flask + ajax 网页版摘要提取
项目简介,做一个网页版的摘要提取程序,就是第一句加最后一句。主要是体现网页端的输入和输出。最后的效果是这样的:项目结构:项目文件层级如下static --> js -->jquery-3.4.1.min.jstemplates --> back.htmlajax.pyprocess.pyjquery-3.4.1.min.js 这个文件不需要我们动,直接在网上下载...原创 2020-02-22 19:31:39 · 214 阅读 · 0 评论 -
网页版的摘要提取器
项目简介:制作一个网页版的摘要提取器,这个摘要提取器可以接收一篇文章,提取这篇文章的第一句和最后一句,然后拼在一起作为摘要在网页上输出。效果如下:项目的结构是一个index.html模板文件,放在templates文件夹下。一个app.py,放在和templates文件夹同级路径下,还有一个process.py,放在和app.py同级路径下。app.py文件如下:from flask_wt...原创 2020-02-22 13:25:32 · 1175 阅读 · 0 评论 -
把训练好的词向量模型可视化
意思相近的词语,在向量空间中的距离应该越近。对于一个高维词向量,我们无法直观地观察两个词的距离,于是我们就需要把词向量降维处理,变成二维的,就可以画出来了。输入是一个训练好的词向量模型。输出是一张图片,把每个词都标记在上面。from gensim.models import Word2Vecfrom random import samplefrom pylab import mplmod...原创 2020-02-19 23:29:14 · 2077 阅读 · 0 评论 -
训练词向量
训练一个词向量,输入是一个txt文档,这个txt文档需要已经分好了词。只需要几行代码就能得到训练好的词向量。import multiprocessing采用并行计算from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentenceinp = 'corpus_zh.txt' #这个TXT文档需要...原创 2020-02-19 23:16:03 · 278 阅读 · 0 评论