nlp
Elenore1997
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
英语停用词(转载)
英语停用词转载 2017-07-20 11:03:50 · 1424 阅读 · 0 评论 -
Colab | Google drive授权及工作路径
谷歌爸爸的colab让我们有了免费使用gpu的机会,在此感谢磕头哐哐哐!(不过每次只能连续使用12小时的GPU,搜了一下也有人说会随机断开连接,避免你长时间使用,但我至今还未遇到这个问题)这篇文章主要介绍如何更改工作路径和挂载google drive。本文参照robinfly所写博客:【colab入坑系列 · 一】Google drive授权及工作路径,如果有侵权问题请联系删除。Google...转载 2019-04-27 01:09:16 · 6515 阅读 · 1 评论 -
jupyter notebook使用虚拟环境
首先进入已创建的虚拟环境activate you_env接着安装nb_condaconda install nb_conda就ok啦,打开jupyter notebookjupyter notebook原创 2019-04-17 16:45:28 · 319 阅读 · 0 评论 -
使用nltk报错:ModuleNotFoundError: No module named 'nltk.book'; 'nltk' is not a package
明明使用nltk.download()把book给下载下来了,可是仍然报错:ModuleNotFoundError: No module named 'nltk.book'; 'nltk' is not a package原因很简单。。你的python文件也不能命名为nltk……(滑稽)...原创 2019-04-01 10:31:41 · 2935 阅读 · 1 评论 -
分词 | 双向匹配中文分词算法python实现
摘要本次实验内容是基于词典的双向匹配算法的中文分词算法的实现。使用正向和反向最大匹配算法对给定句子进行分词,对得到的结果进行比较,从而决定正确的分词方法。算法描述正向最大匹配算法先设定扫描的窗口大小maxLen(最好是字典最长的单词长度),从左向右取待切分汉语句的maxLen个字符作为匹配字段。查找词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来,并将窗口向右移动这个单词的长...原创 2018-10-22 16:36:00 · 4385 阅读 · 7 评论 -
分词 | 概率最大中文分词python实现
摘要概率最大分词是分词的其中一种算法,通过选出句子中所有的候选词,计算它们的累计概率,在不同的词语组合中选出累计概率最大的组合作为最终的分词结果。这里使用python进行实现。算法描述首先解释一下累计概率怎么计算:假如待分词的句子为“对外经济技术合作与交流不断扩大。”,候选词可能有“对”、“对外”、“外”、“经济”等。对于每个词的累计概率,等于它原来的概率乘上累计概率最大的左邻词的概率,即P...原创 2018-10-22 16:21:09 · 2687 阅读 · 1 评论 -
多项式回归:正规方程参数θ的推导过程
多变量线性回归代价函数为:其中: 正规方程是通过求解下面的方程来找出使得代价函数最小的参数:设有m个训练实例,每个实例有n个特征,则训练实例集为: 其中表示第i个实例第j个特征。特征参数为:输出变量为:故代价函数为:进行求导,等价于如下的形式:求导公式:其中第一项:第二项: 该矩阵求导为分母布局下的标量/向量形式:...转载 2018-09-04 19:07:20 · 1720 阅读 · 2 评论 -
mongodb初体验
关于在终端的mongodb的简单操作原创 2017-05-13 16:05:05 · 477 阅读 · 0 评论 -
使用Moses脚本进行数据预处理
文章将介绍在机器翻译时需要使用到的数据预处理方法,包括tokenize、truecase、bpe等等,好的预处理方法才能提升机器翻译的质量。下文会以en-de双语为例进行讲解。Moses这是Moses的github地址,它是一个统计机器翻译模型,我们主要使用里面的perl脚本进行数据预处理。所以确保电脑上已经安装配置好了perl(ubuntu自带)。Normalize punctuation...原创 2019-04-23 23:28:30 · 4704 阅读 · 0 评论
分享