
NLP
j-o-l-i-n
半路出家机房扫地僧,沉迷火炉炼丹和修仙。精通徒手写bug,曾出版《如何一秒爆显存》。
展开
-
NLP之路-python爬虫
解决了IDE中文显示的问题,通过print(soup.head.title).encode('gb18030')解决了中文路径无法打开的问题,通过file=open(u"D:/users/nancy/share/sae6depart/6系资料/python/crawl.txt","w")import urllibfrom urllib import urlopenc=urrllib.u原创 2014-09-27 15:37:23 · 1256 阅读 · 0 评论 -
为什么牛顿法下降的速度比梯度下降的快
梯度法是从初值开始按照负梯度方向一步一步走,确定方向、确定步长、再确定方向、再确定步长.只顾眼前情况,大局观念差~牛顿法是令目标函数梯度等于零,直接解方程,求方向,目的就是一步就跨到最优解,只不过由于求解是近似的,导致这一步走得不太准,还需要在迭代,但是已经能说明目标观念很强了~http://zuoye.baidu.com/question/5e1c59091fb9dc8e8264转载 2015-04-17 15:55:01 · 1650 阅读 · 0 评论 -
用博文中的方法-r -d "\t"试了下conlleval测试crf++的输出
看到这篇 http://argcv.com/articles/2104.c 觉得不错后来到官网上看了下http://www.cnts.ua.ac.be/conll2000/chunking/output.html最后用博文中的方法-r -d "\t"试了下crf++的输出,跟自己程序算的结果真是一模一样呢=。=好开心。。。。。。原创 2015-05-12 15:58:56 · 2669 阅读 · 1 评论 -
Entopix对开源NLP解释的很详尽
http://entopix.com/so-you-need-to-understand-language-data-open-source-nlp-software-can-help.htmlSo, you need to understand language data? Open-source NLP software can help!Understanding language转载 2015-05-24 13:02:32 · 686 阅读 · 0 评论 -
超棒的一遍综述性博客
原文: http://licstar.net/archives/328Deep Learning in NLP (一)词向量和语言模型Posted on 2013 年 7 月 29 日by licstar 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 De转载 2015-09-01 19:38:57 · 3022 阅读 · 0 评论 -
《How to Generate a Good Word Embedding?》导读(转)
http://licstar.net/archives/620《How to Generate a Good Word Embedding?》导读Posted on 2015 年 7 月 21 日by licstar 自认为这是一篇有用的文章,因此在发表之前先放到 arXiv 上,供大家参考,请批评指正。 论文地址:http://arxiv.org/abs/15转载 2015-09-01 19:53:38 · 584 阅读 · 0 评论 -
nnlm 中的 Softmax
原本是用来柔化输出值,减小值之间的差。p[i]=exp(y[i]);S是所有p[i]的和;但是当我们需要 L=p[i]/S,而全体p[i]都是0,就会报错,所以实际中我们采用的是:p[i]=exp(y[i]-max_y_i);用来归一化p[i]到0~1之间. 论文在此:http://www.jmlr.org/papers/volume3/bengio03a/bengi原创 2015-09-03 19:34:01 · 454 阅读 · 0 评论 -
迄今为止我所见过的将BP算法最好的PPT
http://www.cedar.buffalo.edu/~srihari/CSE574/Chap5/Chap5.3-BackProp.pdf原创 2015-09-03 00:56:40 · 2370 阅读 · 0 评论 -
Penn Treebank词性标记集
转载的编号 缩写 英文 中文1 CC Coordinating conjunction 并列连接词2 CD Cardinal number 基数3 DT Determiner 限定词4 EX Existential there 存在型there5 FW Foreign word 外文单词6 IN Preposition/subord, conjunction 介词/从属转载 2015-11-17 14:08:32 · 1393 阅读 · 0 评论 -
【转载】随机游走及马尔科夫链(本体映射相关)
http://blog.youkuaiyun.com/songzitea/article/details/18087401转载 2016-03-03 10:47:36 · 2047 阅读 · 0 评论 -
Install Rouge and Pyrouge for python 2.7 (conda virtual env) on Linux 64
Install Rouge and PyrougeStep 1: Create a new conda virtual envconda create -n py27env python=2.7 pipsource activate py27env# use " source deactivate" to deactivate the env原创 2017-08-23 17:32:48 · 2599 阅读 · 0 评论 -
安装openfst 和 threx的经过
http://www.cslu.ogi.edu/~sproatr/Courses/TextNorm/tutorial.html话说原文里面在给openfst的./configure的时候加了个=true,千万不要加这个“=true”另外,在configure threx的时候不要开启readline原创 2015-04-01 18:44:54 · 4233 阅读 · 0 评论 -
encoder.cpp(340) [feature_index.open(templfile, trainfile)]feature_index.cpp(174) [max_size == size]
http://www.linuxdiyf.com/linux/8637.html转载 2015-03-07 03:20:33 · 4661 阅读 · 1 评论 -
NLP之路-Dataset大全
The Enron dataset seems to be popular, email often has privacy restrictions, and the Enron set has no restrictions. The Enron stuff will be 2001 and earlier.The Enron datasets at CMU:http://原创 2014-11-11 01:08:45 · 1637 阅读 · 0 评论 -
NLP之路-warm up
今天做了一些小的尝试,算作技术铺垫原创 2014-09-28 17:14:17 · 1152 阅读 · 0 评论 -
NLP之路-语言学网络资源
Bablefish Online Translator : http://www.bablefishfx.com/translate-plugin/转载 2014-09-28 15:25:53 · 589 阅读 · 0 评论 -
NLP之路-Deep Learning in NLP (一)词向量和语言模型
这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。@王威廉:Steve Renals算了一下icassp录取文章转载 2014-09-29 14:52:36 · 1288 阅读 · 0 评论 -
NLP之路-Deep Learning for NLP 文章列举
From:http://www.xperseverance.net/blogs/2013/07/2124/转载 2014-09-29 14:41:53 · 879 阅读 · 0 评论 -
NLP之路-查看获取文本语料库
继续学习NLP in Python#coding=UTF-8#上面一句解决中文注释编码错误问题import nltk#查看获取到的文本语料库nltk.corpus.gutenberg.fileids()#给书名附一个简短的名字emmaemma=nltk.corpus.gutenberg.words('austen-emma.txt')#192427len(emma)#同样利用原创 2014-09-30 11:19:59 · 1664 阅读 · 0 评论 -
在NPP运行Python报错:SyntaxError: Non-ASCII character '\xe5' in file的解决方法
SyntaxError: Non-ASCII character '\xe5' in file原创 2014-09-30 11:10:33 · 874 阅读 · 0 评论 -
NLP之路-实验nltk中的raw 和 words
原创 2014-10-02 17:41:09 · 1101 阅读 · 0 评论 -
NLP之路-继续书本上的实验
#coding=utf-8import nltkfrom nltk.corpus import brownnews_text=brown.words(categories='news')fdist=nltk.FreqDist([w.lower() for w in news_text])modals1=['can', 'could', 'may','might','mu原创 2014-10-02 22:40:34 · 482 阅读 · 0 评论 -
NLP之路-一点小语言工具函数
统计工具#coding=utf-8def lexical_diversity(my_text_data): word_count=len(my_text_data) vocal_size=len(set(my_text_data)) diversity_score=word_count/vocal_size return diversity_score my_text_data=原创 2014-10-10 21:23:09 · 798 阅读 · 0 评论 -
用正则表达式给email分句
public List SpliteToSentences(string para, List segrules) { string input = para; List quotePos = new List(); int pos = 0; while (pos < input.Len原创 2014-11-02 19:45:48 · 689 阅读 · 0 评论