自然语言处理(NLP)网上资源整理 (转)

本文汇总了2011年Google精彩论文、最佳论文奖、Watson专刊及多个领域的资源链接,涵盖自然语言处理、机器学习、信息检索等方面,提供丰富的学术资料和技术工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


1.       Google在研究博客中总结了他们2011年的精彩论文《Excellent Papers for 2011》,包括社会网络、机器学习、人机交互、信息检索、自然语言处理、多媒体、系统等各个领域,很精彩的论文集锦。http://googleresearch.blogspot.com/2012/03/excellent-papers-for-2011.html

或者zibuyu的BLOG http://blog.sina.com.cn/s/blog_574a437f0100y6zy.html

2.       Best paper awards for AAAI,ACL, CHI, CIKM, FOCS, ICML, IJCAI, KDD, OSDI, SIGIR, SIGMOD, SOSP, STOC, UIST,VLDB, WWW http://jeffhuang.com/best_paper_awards.html

3.       IBM R&D Journal 刚发布了关于Watson的专刊《This is Watson》。总共17篇论文。http://ieeexplore.ieee.org/xpl/tocresult.jsp?isnumber=6177717&punumber=5288520

4.       Web Data Mining作者刘兵维护的一个专题资源:Opinion Mining,Sentiment Analysis, and Opinion Spam Detection 。http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html

5.       Statistical Machine Translation http://www.statmt.org/

Statistical Machine TranslationTutorial Reading http://cseweb.ucsd.edu/~dkauchak/mt-tutorial/

Philipp Koehn主页 http://homepages.inf.ed.ac.uk/pkoehn/

6.       Profile Hidden Markov Model Resources http://webdocs.cs.ualberta.ca/~colinc/cmput606/

Hidden Markov Model (HMM) Toolbox forMatlab http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html

7.       CRF http://www.inference.phy.cam.ac.uk/hmw26/crf/

Conditional Random Field (CRF)Toolbox for Matlab http://www.cs.ubc.ca/~murphyk/Software/CRF/crf.html

FlexCRFs: Flexible Conditional RandomFieldshttp://flexcrfs.sourceforge.net/

8.       Transfer Learning 包含papers、talks、software等http://www.cse.ust.hk/TL/index.html

9.       Topic Model,Topic Modeling Bibliography http://www.cs.princeton.edu/~mimno/topics.html

David M. Blei的主页 http://www.cs.princeton.edu/~blei/publications.html Matlab Topic Modeling Toolbox 1.4 http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm

LDA GIBBS Java源码 http://arbylon.net/resources.html

GibbsLDA++: A C/C++ Implementation of Latent Dirichlet Allocation http://gibbslda.sourceforge.net/

10.   科学网—推荐系统的循序进阶读物(从入门到精通) - 张子柯的博文http://blog.sciencenet.cn/home.php?mod=space&uid=210641&do=blog&id=508634

11.   SVM入门 http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html

12.   斯坦福大学自然语言处理实验室整理的NLP资源 http://www-nlp.stanford.edu/links/statnlp.html

13.   Stanford University InformationRetrieval Resources http://nlp.stanford.edu/IR-book/information-retrieval.html

14.   Software Tools for NLP http://www-a2k.is.tokushima-u.ac.jp/member/kita/NLP/nlp_tools.html

实验室主页

1.       The Stanford NLP Group http://nlp.stanford.edu

2.       The Berkeley Natural LanguageProcessing Group http://nlp.cs.berkeley.edu

3.       University of Tokyo TsujiiLaboratory http://www.nactem.ac.uk/tsujii/publications.cgi?lang=en

4.       Korea University NLP http://nlp.korea.ac.kr/ http://nlp.korea.ac.kr/new/

5.       中国科学院计算技术研究所自然语言处理研究组 http://nlp.ict.ac.cn/new/

6.       清华大学自然语言处理组 http://nlp.csai.tsinghua.edu.cn/site2/

7.       HIT-SCIR http://ir.hit.edu.cn/

8.       苏州大学自然语言处理实验室 http://nlp.suda.edu.cn/

个人主页

1.       David M. Blei, (Princeton) LDA,http://www.cs.princeton.edu/~blei/publications.html

2.       Noah Smith, (CMU),以自然语言处理、机器学习为基础研究computationalsocial science。http://www.cs.cmu.edu/~nasmith/

3.       Philipp Koehn (University ofEdinburgh) http://homepages.inf.ed.ac.uk/pkoehn/

4.       Dekang Lin (University ofAlberta) http://webdocs.cs.ualberta.ca/~lindek/

5.       Michael Collins(ColumbiaUniversity) http://www.cs.columbia.edu/~mcollins/

6.       Dekai WU(HKUST) http://www.cs.ust.hk/~dekai/

7.       Pascale Fung (HKUST) http://www.ee.ust.hk/~pascale/

8.       Alessandro Moschitti (Universityof Trento) http://disi.unitn.it/moschitti/

9.       Xiaojin (Jerry) Zhu (Universityof Wisconsin-Madison) http://pages.cs.wisc.edu/~jerryzhu/

10.   Eugene Charniak (BrownUniversity) http://www.cs.brown.edu/~ec/

过去半年以来,自然语言处理领域进化出了一件神器。此神器乃是深度神经网络的一种新模式,该模式分为:embed、encode、attend、predict四部分。本文将对这四个部分娓娓道来,并且剖析它在两个实例中的用法。 人们在谈论机器学习带来的提升时,往往只想到了机器在效率和准确率方面带给人们的提升,然而最重要的一点却是机器学习算法的通用性。如果你想写一段程序来识别社交媒体平台上的侮辱性帖子,就把问题泛化为“需要输入一段文本,预测出文本的类别ID”。这种分类与识别侮辱性帖子或是标记电子邮件类别之类的具体任务无关。如果两个问题的输入和输出类型都一致,那我们就应复用同一套模型的代码,两者的区别应该在于送入的训练数据不同,就像我们使用同一个游戏引擎玩不同的游戏。 笔者用spaCy和Keras实现了自然语言推理的可分解注意力模型。代码已经上传到github 假设你有一项强大的技术,可以预测实数稠密向量的类别标签。只要输入输出的格式相同,你就能用这项技术解决所有的问题。与此同时,你有另一项技术,可以用一个向量和一个矩阵预测出另一个向量。那么,现在你手里就握着三类问题的解决方案了,而不是两类。为什么是三类呢?因为如果第三类问题是通过矩阵和一个向量,得到一个类别标签,显然你可以组合利用前两种技术来解决。大多数NLP问题可以退化成输入一条或多条文本的机器学习问题。如果我们能将这些文本化为向量,我们就可以复用现有的深度学习框架。接下来就是具体的做法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值