
NLP
文章平均质量分 79
Chase_Ray
慢慢来,基础要扎实
展开
-
ngram语言模型—基于KneserNey及Modified Kneser Ney平滑
ngram语言模型—基于KneserNey平滑 参考NLTK源码编写的更加清爽的基于KneserNey及Modified Kneser Ney平滑的 字粒度 ngram模型。原创 2019-12-19 11:14:37 · 3229 阅读 · 3 评论 -
hmm分词
HMM分词原创 2019-12-06 09:03:18 · 471 阅读 · 0 评论 -
论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction
本文,我们综述了NLPCC 2018的语法修正(GEC)任务。详细的定义了任务的说明、训练数据以及评估方法。我们还总结了参与者的处理方法。这些方法证明了汉语语法纠错的水平。数据以及评估工具在https://github.com/zhaoyyoo/NLPCC2018_GEC提供下载。原创 2019-11-20 15:07:28 · 3177 阅读 · 2 评论 -
牛津公开课-作业2 文本分类
牛津公开课-作业2 文本分类预处理读取文档处理文本,分词,去停用词处理标签整理文本与标签做个简单的标签统计向量化文本拆分训练集与测试集定义模型训练可视化查看混淆矩阵使用 Oxford CS - Deep NLP 2017 https://www.cs.ox.ac.uk/teaching/courses/2016-2017/dl/ 使用到的库 from sklearn.metrics import ...原创 2019-10-28 16:13:05 · 313 阅读 · 0 评论 -
牛津NLP公开课-作业1word2vec
牛津NLP公开课-作业1word2vec 对英文问题进行分词预处理 词频统计后,而后分别使用 word2vec、FastText进行训练对比两者的不同 最好进行t-SNE和k-Means的聚类可视化原创 2019-10-27 22:10:14 · 640 阅读 · 0 评论 -
jieba 使用笔记
jieba 使用笔记 叙述了jieba分词的一些常用方法原创 2019-10-27 16:15:17 · 2164 阅读 · 0 评论 -
正则表达式详解
正则表达式详解 在做NLP的语言预处理时需要用到许多正则表达式,因此在这做一个笔记,方便用时查阅 如果用的时 PyCharm 这里有一个快速查阅 re 的方法 (CTRL+F/R)使用查找功能时 点击Regex 就能弹出一个正则表达式的摘要 便于快速查阅 内容相对丰富 ...原创 2019-10-25 21:33:32 · 315 阅读 · 1 评论 -
中文分词方法汇总笔记
中文分词方法和工具汇总笔记 从分词难点、分词方法:传统基于字典基于词典的分词方法、、基于机器学习的分词方法进行总结原创 2019-10-23 16:09:40 · 1411 阅读 · 0 评论 -
自然语言处理NLP知识梳理
NLP相关知识梳理研究和应用领域研究难点学科掌握一般处理过程获取语料语料预处理特征工程模型训练模型评估模型上线应用模型重构(非必须) 感谢知乎 @华天清 的总结 研究和应用领域 自动分词 词性标注 句法分析 文本分类 信息抽取 文本生成 语音识别和生成 信息检索 问答系统 机器翻译 情感分析 自动摘要 文字蕴含 研究难点 单词的边界难界定 词义的消歧 句法的模糊性 有瑕疵的或不规范的输入 ...原创 2019-10-21 10:45:31 · 1235 阅读 · 0 评论