
技术
hikaru_go
这个作者很懒,什么都没留下…
展开
-
使用theano写mini-batch训练的BiLSTM
mini batch, lstm, theano原创 2017-04-03 09:32:05 · 673 阅读 · 0 评论 -
stanford-segmenter的使用
对于中文的自然语言处理任务来说,分词似乎已经是第一步了,因为深度学习想要使用词向量的话,分词基本是第一步,除非我们基于单个中文单词,当然这看具体的模型了。所以我们需要一个好的分词工具,stanford-segmenter就是一个不错的分词工具,当然也有很多优秀的其他分词工具,具体用哪个看个人爱好,本文将介绍stanford-segmenter的使用。我使用的工具包是“stanford-segme原创 2017-04-04 21:07:46 · 2315 阅读 · 0 评论 -
提取灵格斯里ld2格式词典的内容
作为一个NLPer,拥有越多文本相关的资源当然越好,词典资源就是其中之一,面对灵格斯里面那么多的词典,怎么提取出其中的内容是个问题,之前在网上搜了一些相关的信息,最终找到一个java代码通过该代码可以直接将灵格斯里.ld2格式的词典内容提取出来,具体的做法应该是根据.ld2的词典格式进行分析,从而得到其中的内容,感谢“Copyright (c) 2010 Xiaoyun Zhu”和“@author原创 2017-04-04 21:32:34 · 11550 阅读 · 6 评论 -
stanford-postagger的使用
在自然语言处理的很多任务上,词性信息基本上已经是一个必不可少的特征信息,但是我们很多情况下又没有能力写一个postagger,这时我们就需要利用其他词性标注的工具包,而stanford-postagger就是一个很不错的工具包,这次我简要说一下stanford-postagger这个包。具体地,我用的版本是stanford-postagger-full-2015-04-20。由于该工具包是用jav原创 2017-04-04 20:48:39 · 3962 阅读 · 0 评论