
NLP
文章平均质量分 63
微知girl
我是NLP相关方向研究生,小白一枚,梦想自己有一天能混成业界大牛,文章或代码有任何错误欢迎指出,不胜感激~ 如果觉得对您有用请关注点赞,(#^.^#) 希望大家能一起探讨相关方面问题,互相学习,互相进步,(●'◡'●)~~
展开
-
xgb参数
链接:XGBoost参数调优完全指南(附Python代码) - 知识天地 - 博客园通用参数这些参数用来控制XGBoost的宏观功能。1、booster[默认gbtree]选择每次迭代的模型,有两种选择:gbtree:基于树的模型gbliner:线性模型2、silent[默认0]当这个参数值为1时,静默模式开启,不会输出任何信息。 一般这个参数就保持默认的0,因为这样能帮我们更好地理解模型。3、nthread[默认值为最大可能的线程数]这个参数用来进行多线程控...转载 2022-01-12 23:27:28 · 2773 阅读 · 0 评论 -
过采样(代码实现)
过采样import numpy as npimport itertoolsy_origin = [1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1]y_origin = np.array(y_origin)NUM_LABELS = 2def to_one_hot(data, depth): return (np.arange(depth)==data[:, None]).astype(np.int32)def over_sample( y_origin.原创 2021-02-26 18:55:34 · 1477 阅读 · 1 评论 -
python jieba分词的tmp_dir报错问题
跑代码报错:PermissionError: [Errno 1] Operation not permitted: '/tmp/tmpnrj1wcjg' -> '/tmp/jieba.cache'E0224 18:18:16.665461 140223449036608 __init__.py:156] Dump cache file failed.错误原因:jieba想要在系统根目录创建缓存文件/tmp/jieba.cache来存储模型,然而当前用户没有权限。 问题多在使用服务器,非r原创 2021-02-26 18:24:16 · 3248 阅读 · 0 评论 -
归一化 标准化
1)概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率;2)SVM、线性回归之类的最优化问题需要归一化,是否归一化主要在于是否关心变量取值;3)神经网络需要标准化处理,一般变量的取值在-1到1之间,这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh激活函数比sigmod激活函数要好些,因为tanh双曲正切函数的取值[-1,1]之间,均值为0.4)在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的影响就原创 2021-02-23 16:42:28 · 865 阅读 · 0 评论 -
训练集、验证集、测试集的作用和区别
一、概述简单说,训练集就是用来训练模型用的,验证集为了验证模型的效果,测试集用来最终评测。所以基于这个,那训练数据的时候,就不要使用验证集和测试集的相关信息,包括统计均值方差特征等,但是验证集可以在模型训练过程中进行模型调参,就是手动调一些外部参数,像是epoch、learningrate、dropoutprob等。二、详述详细介绍下,参考:https://blog.youkuaiyun.com/ytusdc/article/details/86488537训练集(train set)——...原创 2021-02-20 18:32:57 · 17471 阅读 · 0 评论 -
小样本few shot
这里简单介绍各种方案,想了解具体的内容可以直接翻到最后看相关链接,或搜索其他介绍!部分内容目前理解较为浅显,有错漏,希望大佬们多多指出,不吝赐教!!模型层面方法:https://www.sohu.com/a/305112618_500659主要分三种:ModelBased、MetricBased、OptimizationBasedModelBased主要思想是让模型学到构建特征的方法,从而对于新的类别能有好的效果,且不需重新训练模型MetricBased对样本进...原创 2021-01-18 13:50:18 · 633 阅读 · 0 评论 -
LSTM+CRF中CRF详解
LSTM+CRF这里CRF的使用和常规的CRF是有所不同的以tensorflow为例,训练采用tf.contrib.crf.crf_log_likelihood得到转移矩阵,测试采用tf.contrib.crf.viterbi_decode获取最大标签,没有用到特征模板。参考tensorflow笔记3:CRF函数:tf.contrib.crf.crf_log_likelihood()相关讨论及其他链接参见下面(有时间再整理):如何理解LSTM后接CRF?LSTM+CRF详解一文理解...原创 2021-01-06 13:09:34 · 1134 阅读 · 0 评论 -
过拟合欠拟合
欠拟合欠拟合在训练集和测试集上的性能都较差欠拟合出现原因模型复杂度过低 特征量过少欠拟合的情况比较容易克服,常见解决方法有增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强 减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数 使用非线性模型,比如核SVM 、决策树、深度学习等模型 调整模型的容量(capacity),通俗地,原创 2020-12-25 23:03:53 · 332 阅读 · 0 评论 -
LIC2020 百度语言与智能技术竞赛(一)——语义解析冠军方案
说明:我没参加,就是看了冠军的分享,写一下观后感,如有侵权,非常抱歉,请跟我联系!一、介绍篇1.1链接视频链接:http://mbd.baidu.com/webpage?type=live&action=liveshow&source=h5pre&room_id=4008201814LIC比赛链接:http://lic2020.cipsc.org.cn/1.2排名测试集1比赛结果最终排名榜单:1.3冠军队伍介绍团队名:xy(训练...原创 2020-12-15 18:38:11 · 1168 阅读 · 0 评论 -
期望最大化EM
感觉期望最大化是个比较绕的东西,一直都知道,它是NLP很基础的知识,但是貌似每次都理解不透,看了忘,忘了看。经常见到,确又不能表述的清清楚楚。这次决定下点功夫能把它说明白。希望我这篇不是让你能了解整个森林的文章,而是让你了解森林概貌的文章,细节问题请自己去深究~~本人才疏学浅,如果有问题,请不吝赐教~~废话说完了,进入正文~~~一、EM思想1.1EM算法思想EM算法是常用的在含有隐变量的情况下,估计模型参数的利器(训练完成后最终还可以求得隐变量的参数值)。其基本思...原创 2020-12-11 16:26:55 · 194 阅读 · 0 评论 -
NLP几个值得看的博主账号
博客园简枫, https://www.zhihu.com/column/pengshuang,文章不多,但是都精,有时间都可以看下。专栏慢慢学NLP专栏夕小瑶的卖萌屋机器学习札记优快云涛声依旧,https://blog.youkuaiyun.com/stpeace,优快云目前全网排名第一,文章中包含很多干货,可以有时间多看看。偏算法,java ,面试等内容。一个处女座的程序猿,https://blog.youkuaiyun.com/qq_41185868,CSD...原创 2020-12-03 14:19:33 · 575 阅读 · 0 评论 -
聚类算法(七)—— Kmeans(含标签聚类和文本聚类代码)
聚类算法相关:聚类算法(一)——DBSCAN聚类算法(二)—— 优缺点对比聚类算法(三)—— 评测方法1聚类算法(三)—— 评测方法2聚类算法(三)—— 评测方法3(代码)聚类算法(四)—— 基于词语相似度的聚类算法(含代码)聚类算法(五)——层次聚类 linkage (含代码)聚类算法(六)——谱聚类 (含代码)写了那么多聚类文章,没写Kmeans感觉不太厚道,但是相对来说目前Kmeans介绍的博文很多,相对来说逻辑也比较简单,所以这里我贴一篇个人感觉写的...原创 2020-12-02 15:52:34 · 8563 阅读 · 1 评论 -
NLPCC2020讲习班系列(一)—— 多模态
pdf下载链接:https://download.youkuaiyun.com/download/katrina1rani/13053896介绍后续补充....原创 2020-12-02 14:50:26 · 262 阅读 · 0 评论 -
分类算法 —— 相关链接
分类算法(一)—— 概述分类算法(二)—— FastText(原理介绍)分类算法(二)—— FastText分类算法(三)—— LR NB SVM KNN 调用示例分类算法(四) —— SVM分类算法(五) —— xgboost 安装分类算法(六)——softmax和sigmoid,二分类、多分类、多标签分类关系分类算法(七)—— 短文本分类我这里的介绍目前还在机器学习阶段,深度学习的算法都还没有介绍到(后续会慢慢补充),下面推送下博客园的一些深度学习文本分类的介...原创 2020-12-02 10:34:16 · 170 阅读 · 0 评论 -
时序模型(一)—— TCN 时间卷积网络
https://blog.youkuaiyun.com/qq_27586341/article/details/90751794原创 2020-11-27 13:55:00 · 15174 阅读 · 0 评论 -
语义相似度匹配(二)—— ESIM模型
语义相似度匹配(一)—— DSSM模型一、概述论文来源:TACL 2017论文链接:Enhanced LSTM for Natural Language Inference参考文献:短文本匹配的利器-ESIMhttps://zhuanlan.zhihu.com/p/47580077https://blog.youkuaiyun.com/qq_36733823/article/details/101907000 (高校计算机大赛附代码)https://blog.csdn.n...原创 2020-11-26 19:18:26 · 2963 阅读 · 0 评论 -
语义相似度匹配(一)—— DSSM模型
一、简介论文:Learning Deep Structured Semantic Models for Web Search using Clickthrough Data微软13年提出的计算文本相似度的深度学习模型,核心思想是将query和doc映射到到共同维度的语义空间中,通过最大化query和doc语义向量之间的余弦相似度,从而训练得到隐含语义模型,达到检索的目的。DSSM有很广泛的应用,比如:搜索引擎检索,广告相关性,问答系统,机器翻译等。网络框架如下:二、 原理对输入文本的原创 2020-11-25 14:53:13 · 3658 阅读 · 0 评论 -
Uplift model
智能营销增益模型(Uplift Modeling)相关链接:智能营销增益模型(Uplift Modeling)的原理与实践https://blog.youkuaiyun.com/jinping_shi/article/details/105583375uplift model学习笔记https://www.cnblogs.com/zichun-zeng/p/8330358.html一文读懂uplift modelhttps://zhuanlan.zhihu.com/p/100821498...原创 2020-11-24 17:17:21 · 500 阅读 · 0 评论 -
UniLM解读
UniLM是一种语言模型,类似BERT,但是比BERT优的点在哪里,它不仅能很好处理NLU的问题,也能很好处理NLG的问题,可以解释为一种既能阅读又能自动生成的预训练模型。一、概述UniLM,(统一预训练语言模型),对应论文:Unified Language Model Pre-training for Natural Language Understanding and GenerationUniLM 是在微软研究院在BERT的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型。使用原创 2020-11-24 12:43:13 · 6278 阅读 · 0 评论 -
BERT(一)—— BERT transformer attention 详解
attentionhttps://zhuanlan.zhihu.com/p/43493999https://zhuanlan.zhihu.com/p/27769667 attention 代码https://www.zhihu.com/question/68482809 attention 原理https://zhuanlan.zhihu.com/p/31547842 √https://zhuanlan.zhihu.com/p/53682800 attention +transform...原创 2020-11-24 12:41:16 · 415 阅读 · 0 评论 -
分类算法(七)—— 短文本分类
深入做文本分类的同学都知道,短文本分类相对来说比较难。因为较短的文本包含的信息较少,有时候模型很难学到关键特征。 参考https://www.zhihu.com/question/326770917/answer/698646465,指出:对于短文本,CNN配合Max-pooling池化(如TextCNN模型)速度快,而且效果也很好。因为短文本上的关键词比较容易找到,而且Max-pooling会直接过滤掉模型认为不重要特征。具体工作机制是:卷积窗口沿着长度为n的文本一个个滑动,类似于n-gr...原创 2020-11-02 14:01:07 · 2183 阅读 · 0 评论 -
序列标注(三)——模型对比
序列标注模型(一)——HMM序列标注模型(二)—— CRF原创 2020-10-12 21:57:12 · 267 阅读 · 0 评论 -
知识图谱(一)—— 简介
整理相关连接:https://m.sohu.com/a/163278588_500659/?pvid=000115_3w_ahttps://blog.youkuaiyun.com/coder_oyang/article/details/88376537?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-10.channel_param&depth_1-utm_source=distribute原创 2020-09-30 15:54:29 · 2248 阅读 · 0 评论 -
知识图谱 概念与技术 第四章
知识图谱 概念与技术肖仰华等编著 中国工信出版集团 电子工业出版社第四章 关系抽取概述基于学习的抽取基于模式的抽取开放关系抽取概述关系抽取-> 关系实例->知识图谱的边①人工 --> 代价大,人工仅对关系进行少量的增补和修改②关系数据库中转换规则获取关系实例(人工定义规则相应映射规则完成自动转换)--》结构化数据规模有限,无法获取更广泛存在的结构化数据应用: 关系抽取 上游应用 构建知识图谱,下游应用:文本理解、问答系统、聊天机...原创 2020-09-28 17:48:56 · 798 阅读 · 0 评论 -
知识图谱 概念与技术 第三章
知识图谱 概念与技术肖仰华等编著 中国工信出版集团 电子工业出版社第三章 词汇挖掘与实体识别知识图谱中的实体识别基本思路: 当一个词汇在某个上下文表达的是某个预定义概念时,则是一个实体。 例如“刘德华是中国香港男歌手” 中“刘德华”属于“人物”等价关系、等级关系、相关关系等价关系:简写等等级关系:子类,细分等相关关系:上下位关系、索引关系等 (例如“复旦大学 ”和“985院校“为上下位关系短语抽取短语:描述一个完整、不可分割的语义单元短语质量评估:频...原创 2020-09-28 17:38:35 · 635 阅读 · 0 评论 -
序列标注模型(一)——HMM
二话不说,先上代码import torchclass HMM(object): def __init__(self, N, M): """Args: N: 状态数,这里对应存在的标注的种类 M: 观测数,这里对应有多少不同的字 """ self.N = N self.M = M # 状态转移概率矩阵 A[i][j]表示从i状态转移到j状态的概率原创 2020-07-08 09:54:37 · 1188 阅读 · 0 评论 -
分类算法(五) —— xgboost 安装
win7下 xgboost安装踩了一堆坑,记录一下参考链接:https://blog.youkuaiyun.com/u013738531/article/details/70299611 总体概述,扫一眼,跳到下个链接 https://blog.youkuaiyun.com/ychanmy/article/details/50972530 首先按照这个逻辑一步步安装(具体一点看http://www.th7.cn/sy...原创 2018-06-13 19:21:59 · 213 阅读 · 0 评论 -
分类算法(四) —— SVM
SVM 算法一种效果比较好的分类算法,相对来说训练速度较其他方法可能慢一些# -*- encoding=utf-8 -*-from sklearn import svmfrom sklearn import neighbors, linear_modelfrom sklearn import metricsfrom sklearn.feature_extraction.text imp...原创 2018-06-05 14:20:31 · 419 阅读 · 0 评论 -
分类算法(三)—— LR NB SVM KNN 调用示例
# -*- encoding=utf-8 -*-from sklearn import svmfrom sklearn import neighbors, linear_modelfrom sklearn import metricsfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.nai...原创 2018-06-05 14:05:41 · 1590 阅读 · 0 评论 -
分类算法(二)—— FastText
原理介绍 fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。 fastText的架构和word2vec中的CBOW的架构类似,因为它们的作者都是Facebook的科学家Tomas Mikolov,而且确实fastText也算是words2ve...原创 2018-06-05 14:02:18 · 1891 阅读 · 0 评论 -
分类算法(一)—— 概述
机器学习分类算法有很多,LR、SVM、贝叶斯、随机森林、FastText、KNN、DL、GBDT等,相关变种更是数不胜数。 个人认为SVM还是比较有效的方法,可以作为基准,当然这些方法都各有优劣。不同分类算法的优缺点介绍了svm、LR、贝叶斯、决策树等分类方法的优缺点。 后面相关专题会对不同分类方法进行简单介绍,以及Python调用相关代码。...原创 2018-06-05 13:46:47 · 714 阅读 · 0 评论 -
文档相似度算法 Simhash
这篇文档简单介绍一下Simhash算法一. Simhash 计算文档相似度的算法, 比如用在搜索引擎的爬虫系统中,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费。有 时候我们需要处理类似的文档,比如新闻,很多不同新闻网的新闻内容十分相近,标题略有相似。如此问题,便可以应用Simhash 文档相似度算法,查 看两篇文档相似程度,删去相似度高的web文档。二.原创 2015-09-08 17:37:21 · 4848 阅读 · 0 评论 -
机器学习 之 贝叶斯分类(下)
这部分介绍贝叶斯进行文档分类的实例内容还没来得及整理,之后会放上去发现坚持是一个很好的习惯,而我总是不能按照自己的安排做下去,想着一周看两种机器学习算法,现在的节奏一周一种都没搞定。。。未完待续.........原创 2015-09-08 17:14:47 · 295 阅读 · 0 评论 -
机器学习 之 贝叶斯分类(中)
序列数据的单骰子模型原创 2015-08-27 22:04:07 · 299 阅读 · 0 评论 -
机器学习 之 贝叶斯分类(上)
贝叶斯分类原创 2015-08-25 21:17:23 · 634 阅读 · 0 评论 -
聚类算法(六)——谱聚类 (含代码)
聚类算法相关:聚类算法(一)——DBSCAN聚类算法(二)—— 优缺点对比聚类算法(三)—— 评测方法1聚类算法(三)—— 评测方法2聚类算法(四)—— 基于词语相似度的聚类算法(含代码)聚类算法(五)——层次聚类 linkage (含代码)原理参考https://blog.youkuaiyun.com/qq_24519677/article/details/82291867后续整理代码参考https://github.com/leekeiling/Clust...原创 2020-09-07 17:17:34 · 4817 阅读 · 3 评论 -
聚类算法(五)——层次聚类 linkage (含代码)
一 原理基本工作原理给定要聚类的N的对象以及N*N的距离矩阵(或者是相似性矩阵),层次式聚类方法的基本步骤(参看S.C. Johnson in 1967)如下:1. 将每个对象归为一类,共得到N类,每类仅包含一个对象.类与类之间的距离就是它们所包含的对象之间的距离.2. 找到最接近的两个类并合并成一类,于是总的类数少了一个.3. 重新计算新的类与所有旧类之间的距离.4. 重复第2步和第3步,直到最后合并成一个类为止(此类包含了N个对象).根据步骤...原创 2020-09-07 15:11:03 · 15544 阅读 · 1 评论 -
聚类算法(三)—— 评测方法3(代码)
聚类算法(一)——DBSCAN聚类算法(二)—— 优缺点对比聚类算法(四)—— 基于词语相似度的聚类算法聚类算法(三)—— 评测方法1聚类算法(三)—— 评测方法2import pandas as pdimport mathdef load_cluster_pred(file_name): df = pd.read_excel(file_name, 0) word_pred_dic = {} cluster_pred_dic = {} for re原创 2020-09-03 11:26:10 · 902 阅读 · 0 评论 -
聚类算法(四)—— 基于词语相似度的聚类算法(含代码)
转载请注明出处简单了解了下目前的一些聚类算法,聚类算法(一)——DBSCAN聚类算法(二)—— 优缺点对比目前了解的太少了,后面再进一步调研吧 /(ㄒoㄒ)/~~然后当时就自己拍脑袋写了个基于词语相似度的聚类算法,主要一开始的时候,需求跟聚类还不太一样,类似于词语相似度,扩充词典那样,后来需求变啊变,就变成聚类了,索性就改吧改吧代码,拍出来一个算法原理1. 词与词之间相似度计算,可以用word2vec、fasttext词向量、词林相似度等等等等2. 初始化,可以...原创 2020-09-03 10:51:57 · 10178 阅读 · 8 评论 -
文本表示(三)—— fasttext 词向量调用代码
模型训练分类算法(二)—— FastText原理介绍分类算法(二)—— FastText(原理介绍)词向量调用代码:import fasttextmodel_path = 'vec.bin' # model是分类模型训练得到的modelmodel=fasttext.load_model(model_path)w = model.get_word_vector('词向量')print(len(w))sentence_w=model.get_sentence_vector('...原创 2020-09-03 10:45:01 · 1392 阅读 · 4 评论