写在前面
刚刚上手NLP,整理一些资料,不全是自己的研究方向,但是先记着,万一以后有用呢。
基本上每个资源都贴了链接。啾咪~
目录
前言
- 【知乎】初入NLP领域的一些小建议
- 【知乎】如何写一篇合格的NLP论文
- nlp-roadmap思维导图 (Github地址)
一、书籍/资料
1.1 数学基础相关
- 《应用线性代数》——斯坦福大学的Stephen Boyd教授和UCLA的L. Vandenberghe教授合著的《应用线性代数》,他们两位分别在各自学校开设了对应的课程,来教授该书的内容。美国数学协会 Reviews的评价称,这本书可以作为将线性代数应用到数据科学中的第一本教科书。
(1)斯坦福课程主页
(2)UCLA课程主页 - 机器学习数学全书——本来自宾夕法尼亚大学计算机系教授 Jean Gallier 主编的面向机器学习的 “数学全书”,内容涵盖线性代数、概率统计、拓扑学、微积分、最优化理论等面向 ML 的数学知识,共计 1900 余页。
1.2 编程相关(Python)
- 《Think Python 2e》最新版中文翻译——Python初学者的不二入门教材
1.3 机器学习相关(深度学习/神经网络)
- 《模式识别与机器学习(PRML)》
- 邱锡鹏老师的神经网络与深度学习
- 一份深度学习笔记:dl-notes
- 强化学习圣经:《强化学习导论》第二版
- 吴恩达《Machine Learning Yearning》
- 李航老师《统计学习方法》(强烈推荐)
- 《机器学习实战》(强烈推荐)
- 最全深度强化学习资料(永久更新)——本仓库由“深度强化学习实验室(DeepRL-Lab)”创建,希望能够为所有DRL研究者,学习者和爱好者提供一个学习指导。
- [译] 面向机器学习的特征工程
1.4 NLP相关
- Speech and Language Processing (3rd ed. draft) 这本书的作者Daniel Jurafsky和James H. Martin都是NLP领域的神牛。自然语言处理入门必备。现在作者第三版正在起草中,预计2020年会完成。第二版有中文版,可以在京东上买。
- Natural Language Processing with Python 学习NLTK很好的书。
学习资料:zYx.Tom 同学的NLP读书笔记和NLTK中文注释代码
学习资料:《Python自然语言处理》学习代码的中文注释版本
工具书:Python 3 Text Processing with NLTK 3 Cookbook (这本书还没有找到网上有pdf的版本) - NLP研究入门之道 ——推荐清华大学刘知远老师的Github项目:NLP研究入门之道。下面是这个项目的摘要:
现在市面上有很多介绍自然语言处理技术的书,介绍深度学习技术的书,介绍各种深度学习框架的书,但似乎还没有一本书,系统地介绍如何入门NLP科研,如何了解NLP学术圈概貌,如何阅读文献,如何选题,如何设计实验,如何写论文,如何做报告,如何选方向,如何在本科做好科研训练,如何读好博士生,等等。我自己在读博时走了不少弯路,现在做了老师,非常希望能够把走来的路上收获的经验和教训,分享给大家,希望更多的青年学生能够更快、更顺、更好地入门NLP科研,为NLP发展出力,享受创新的快乐。
- Embeddings in Natural Language Processing Theory and Advances in Vector Representation of Meaning
二、课程资料
- 斯坦福cs224n
课程官网
B站链接:【官方】【中英】CS224n 斯坦福深度自然语言处理课 @雷锋字幕组
学习资料:2019斯坦福CS224n深度学习自然语言处理课程视频和相关资料分享 - 斯坦福自然语言处理经典入门课程(coursera)(我爱自然语言处理整理) 由Dan Jurafsky 和 Chris Manning 教授授课。可以到B站关注UP主 AINLPer,是专门做NLP的大神。
- 复旦NLP实验室NLP上手教程
- 旧金山大学2019夏季自然语言处理课程——该课程采用Python教学,使用Jupyter Notebooks,将用到sklearn,nltk,pytorch和fastai。
三、相关博主
-
我爱自然语言处理 强烈推荐,顺便可以关注一下它的公众号
AINLP年度阅读收藏清单(2019年) -
上海交大高开远的博客:kaiyuan_sjtu
-
【微信公众号】夕小瑶的卖萌屋
四、中文NLP
- 【文章】中文分词十年又回顾: 2007-2017
- 【资料】NLP 中文自然语言处理相关资料
- 【资料】中文分词文章索引和分词数据资源分享
- 【项目实践】NLP - 15 分钟搭建中文文本分类模型
- 【项目实践】NLP - 基于 BERT 的中文命名实体识别(NER)
- 【工具】Jiagu深度学习自然语言处理工具
(知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类)
4.1 数据集
- 【资源】大规模中文自然语言处理语料
- 【资源】Chinese Word Vectors 中文词向量
- 【数据集】ChineseNlpCorpus
这是Github上面的一个项目,是中文自然语言处理数据集,很实用。
4.2 中文分词
-
【工具】中文分词工具评估
五、论文/文章/博客/Github项目
词向量/Word Embedding
- 【知乎】nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert
- 【论文】Embedding从入门到专家必读的十篇论文
- 【文章】王喆的机器学习笔记:万物皆Embedding,从经典的word2vec到深度学习基本操作item2vec
- 【文章】word2Vec总结——两篇Word2Vec原始论文的总结
Graph Embedding
- 【文章】王喆的机器学习笔记:深度学习中不得不学的Graph Embedding方法
BERT
部分资料参考自52nlp公众号:BERT相关论文、文章和代码资源汇总
- 【Github】谷歌Github地址:BERT
- 【Github】BERT-pytorch
- 【Github】Ideas from google’s bert for language understanding: Pre-train TextCNN
- 【Github】BERT实战,多标签文本分类:Multi-label Classification with BERT; Fine Grained Sentiment Analysis from AI challenger
- 【Github】BERT实战,命名实体识别:Use Google’s BERT for named entity recognition
- 【Github】【中文项目】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
【相关阅读】简单高效的Bert中文文本分类模型开发和部署 - 【博客】NLP自然语言处理]谷歌BERT模型深度解析
- 【博客】一步步理解bert
- 【博客】高开远——BERT源码分析PART I、PART II、PART III
- 【论文】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- 【论文】 【这个Github项目主要整理了一些与BERT有关的论文集】Awesome BERT & Transfer Learning in NLP
- 【论文】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文的中文翻译——本资源完整的翻译了论文,并且给出了论文中所有引用资料的网络连接,方便对 BERT 感兴趣的朋友们进一步研究 BERT。
- 【知乎】【NLP】Google BERT详解
- 【知乎】从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
- 【知乎】BERT 的演进和应用
- 【知乎】高开远——当BERT遇上知识图谱
- 【PPT】新浪微博机器学习部AI Lab的资深算法专家张俊林博士11月7日关于BERT的PPT分享:预训练在自然语言处理的发展: 从Word Embedding到BERT模型【百度网盘地址】
- 【简书】BERT fine-tune 终极实践教程
PyText
基于PyTorch的深度学习NLP框架
机器翻译
- 【论文】Machine Translation Reading List 清华大学NLP组整理的机器翻译必读论文清单
- 【课程】Machine Translation Class
HMM
命名实体识别 NER
- 【论文笔记】命名实体识别论文(高开远)
其他
- 【博客】深度学习实践:从零开始做电影评论文本情感分析
- 【项目实践】Your-first-machine-learning-Project—End-to-End-in-Python 这是一个完整的,端到端的机器学习项目,非常适合有一定基础后拿来练习,以提高对完整机器学习项目的认识
- 【文章】【数据增强】NLP中一些简单的数据增强技术
六、NLP与知识图谱
- 【知乎】知识图谱从哪里来:实体关系抽取的现状与未来
- 【知乎】知识图谱构建技术综述与实践
- 【文章】知识图谱存储与查询:自然语言记忆模块(NLM)
- 【文章】医疗领域知识图谱构建-关系抽取和属性抽取
- 【文章】多知识图谱的融合算法探索