- 博客(12)
- 收藏
- 关注
原创 ngram语言模型—基于KneserNey及Modified Kneser Ney平滑
ngram语言模型—基于KneserNey平滑参考NLTK源码编写的更加清爽的基于KneserNey及Modified Kneser Ney平滑的 字粒度 ngram模型。
2019-12-19 11:14:37
3209
3
原创 论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction
本文,我们综述了NLPCC 2018的语法修正(GEC)任务。详细的定义了任务的说明、训练数据以及评估方法。我们还总结了参与者的处理方法。这些方法证明了汉语语法纠错的水平。数据以及评估工具在https://github.com/zhaoyyoo/NLPCC2018_GEC提供下载。
2019-11-20 15:07:28
3146
2
原创 牛津公开课-作业2 文本分类
牛津公开课-作业2 文本分类预处理读取文档处理文本,分词,去停用词处理标签整理文本与标签做个简单的标签统计向量化文本拆分训练集与测试集定义模型训练可视化查看混淆矩阵使用Oxford CS - Deep NLP 2017https://www.cs.ox.ac.uk/teaching/courses/2016-2017/dl/使用到的库from sklearn.metrics import ...
2019-10-28 16:13:05
306
原创 牛津NLP公开课-作业1word2vec
牛津NLP公开课-作业1word2vec 对英文问题进行分词预处理 词频统计后,而后分别使用 word2vec、FastText进行训练对比两者的不同 最好进行t-SNE和k-Means的聚类可视化
2019-10-27 22:10:14
631
原创 正则表达式详解
正则表达式详解在做NLP的语言预处理时需要用到许多正则表达式,因此在这做一个笔记,方便用时查阅如果用的时 PyCharm 这里有一个快速查阅 re 的方法(CTRL+F/R)使用查找功能时 点击Regex 就能弹出一个正则表达式的摘要 便于快速查阅 内容相对丰富...
2019-10-25 21:33:32
312
1
原创 机器学习评价指标
机器学习评价指标机器学习评价指标混淆矩阵准确率 (ACC)精确率 (precision)召回率(recall)F1 分数机器学习评价指标对于二类分类器/分类算法,评价指标主要有accuracy, [precision,recall,F-score,pr曲线],ROC-AUC曲线,gini系数。对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。对...
2019-10-22 18:25:01
571
原创 自然语言处理NLP知识梳理
NLP相关知识梳理研究和应用领域研究难点学科掌握一般处理过程获取语料语料预处理特征工程模型训练模型评估模型上线应用模型重构(非必须)感谢知乎 @华天清 的总结 研究和应用领域自动分词词性标注句法分析文本分类信息抽取文本生成语音识别和生成信息检索问答系统机器翻译情感分析自动摘要文字蕴含研究难点单词的边界难界定词义的消歧句法的模糊性有瑕疵的或不规范的输入...
2019-10-21 10:45:31
1222
原创 k-近邻算法 kNN
机器学习基础篇—k-近邻算法01概述工作原理一般流程python 实现概述k-近邻算法(kNN)采用策略不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用于数值型合标称型数据工作原理给定一个含有分类标签的样本集(如[小红——女,小明——男])输入不含标签的新数据将新数据的每个特征与样本集中对应的特征进行比较提取样...
2019-10-18 21:54:31
308
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人