
自然语言处理
想努力的人
世界很好
展开
-
学习的网址记录
智能问答系统产品设计详解http://www.woshipm.com/pd/3414748.html原创 2020-11-03 16:43:05 · 142 阅读 · 0 评论 -
知识蒸馏中的知识
https://www.cnblogs.com/jins-note/p/9679450.html1. T参数是什么?有什么作用?T参数为了对应蒸馏的概念,在论文中叫的是Temperature,也就是蒸馏的温度。T越高对应的分布概率越平缓,为什么要使得分布概率变平缓?举一个例子,假设你是每次都是进行负重登山,虽然过程很辛苦,但是当有一天你取下负重,正常的登山的时候,你就会变得非常轻松,可以比别人登得高登得远。同样的,在这篇文章里面的T就是这个负重包,我们知道对...转载 2020-11-03 14:07:16 · 796 阅读 · 0 评论 -
nlp相关知识
输入编码不管是GPT还是Bert,都是用的BPE的编码方式,BPE是Byte-Pair Encoding的简称,是介于字符和词语之间的一个表达方式,比如hello,可能会被拆成“he”, "ll", "o", 其中BPE的字典是从语料中统计学习到的。原始Bert中,采用的BPE字典是30k, Roberta中增大到了50K,相对于Bertbase和Bertlarge会增加15M/20M的参数。...原创 2020-10-14 10:56:31 · 183 阅读 · 0 评论 -
深度语义匹配模型
1、https://blog.youkuaiyun.com/coraline_m/article/details/78796786论文题目: Text Matching as Image Recognition2、https://www.cnblogs.com/guoyaohua/p/9229190.htmlDSSM:深度语义匹配模型(及其变体CLSM、LSTM-DSSM)3、https://blog.youkuaiyun.com/Ding_xiaofei/article/details/81067275?utm_原创 2020-09-02 10:14:58 · 337 阅读 · 0 评论 -
大规模特征向量检索算法总结 (LSH PQ HNSW)
大规模特征向量检索算法总结 (LSH PQ HNSW)向量检索基本概念向量从表现形式上就是一个一维数组。我们需要解决的问题是使用下面的公式度量距离寻找最相似的 K 个向量。欧式距离: 两点间的真实距离,值越小,说明距离越近; 余弦距离:就是两个向量围成夹角的 cosine 值,cosine 值越大,越相似; 汉明距离:一般作用于二值化向量,二值化的意思是向量的每一列只有 0 或者 1 两种取值。 汉明距离的值就两个向量每列数值的异或和,值越小说明越相似,一般用于图片识别; 杰卡.转载 2020-08-21 11:00:15 · 5261 阅读 · 0 评论 -
TensorFlow神经网络中遇到的一些问题
1、如何在TensorFlow中处理大型(>2GB)嵌入查找表import tensorflow as tfembedding_weights = tf.Variable(tf.constant(0.0, shape=[embedding_vocab_size, EMBEDDING_DIM]), trainable=False, name='embedding_weights')sess = tf.Session(config=tf.ConfigProto(log_divice_p.原创 2020-08-05 14:10:17 · 413 阅读 · 0 评论 -
文本分类 tricks
tricks模型训练好后,分类训练集和验证集中以很高的置信度做出错误决策的样本,然后去做这些bad cases的分析,如果发现错误标注有很强的规律性,则直接写一个脚本纠正(只要确保纠正后的标注正确率比纠正前明显高就行),如果没有什么规律,但是发现模型高置信度做错这些样本大部门都是标注错误的话,就直接删除这些样本,...原创 2020-04-15 17:07:21 · 424 阅读 · 0 评论 -
nlp学习领悟
数据理解:长句子相对于短句子,存在一个特性,长句子比短句子有更多的单词,因此长句子在保持原有的类别标签的情况,能吸收更多的噪声。原创 2020-01-03 14:08:21 · 206 阅读 · 0 评论 -
CRF++
https://blog.youkuaiyun.com/lilong117194/article/details/83106711 ----命名实体识别—CRF++地名识别(这篇文章很详细)http://www.hankcs.com/nlp/the-crf-model-format-description.html -----CRF++模型格式说明https://taku910.github.i...原创 2019-07-12 19:19:42 · 1447 阅读 · 0 评论 -
NLP基本功-文本相似度 | AI产品经理需要了解的AI技术通识
转自:https://zhuanlan.zhihu.com/p/33567268前言:本文作者Insight ,是我们“AI产品经理大本营”成员,下面是他分享的第3篇文章,欢迎更多有兴趣“主动输出”的朋友们一起加入、共同进步。一、背景介绍因为之前做过个性化推荐相关的项目,最近产品的其中一个模块也需要用到文本相似度,趁此机会做一个全面的整理。优快云及各类技术博客上有很多文本相...转载 2019-05-30 16:48:26 · 548 阅读 · 0 评论 -
python模块
synonyms:中文近义词工具包pyahocorasick:字符串匹配方法原创 2019-05-14 15:56:19 · 179 阅读 · 0 评论 -
用双向lstm+CRF做命名实体识别(附tensorflow代码)——NER
转自:https://www.lookfor404.com/%E7%94%A8%E5%8F%8C%E5%90%91lstmcrf%E5%81%9A%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB%E9%99%84tensorflow%E4%BB%A3%E7%A0%81-ner%E7%B3%BB%E5%88%97%EF%BC%88%E5%9...转载 2019-04-19 15:18:43 · 5842 阅读 · 0 评论 -
CRF学习笔记
转自:https://hit-computer.github.io/2017/06/10/CRF/到条件随机场(CRF),就不得不提最大熵(ME),可以说这两是最常见的概率无向图模型,并且同时都在NLP很多问题中大显身手,比如,在NLP中最基础的词性标注任务中,就经常使用ME和CRF。由于ME和CRF建模思想不同,也就导致ME和CRF是从不同角度来解决词性标注问题的,ME是将这一问题看作是分类...转载 2019-04-19 10:29:11 · 432 阅读 · 0 评论 -
L1正则化和L2正则化
在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况。正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。如果将模型原始的假设空间比作“天空”,那么天空飞翔的“鸟”就是模型可能收敛到的一个个最优解。在施加了模型正则化后,就好比将原假设空间(“天空”)缩...转载 2019-04-17 09:52:28 · 590 阅读 · 0 评论 -
keras的LSTM相关原理及参数理解
首先看下:https://blog.youkuaiyun.com/puredreammer/article/details/82708981理解:units参数是指他们的输出参数,把lstm中cell中的几个连接看成是前馈神经网络层,发现h和x输入的结合能够被前馈神经网络层输出对应的维度,h和输出的维度相同,千万要理解下面的黄框框是一个前馈神经网络,这样才能好理解。我前面一直理解h的维度会发生变化上,进入...转载 2018-11-16 16:16:26 · 5788 阅读 · 1 评论 -
jieba分词的一些源码解析网站
https://zhuanlan.zhihu.com/p/25303529http://blog.youkuaiyun.com/rav009/article/details/12220977http://www.cnblogs.com/Finley/p/6358097.htmlhttp://www.cnblogs.com/en-heng/p/6164145.htmlhttp://b转载 2017-05-05 15:27:30 · 539 阅读 · 0 评论 -
JAVA.LANG.OUTOFMEMORYERROR: JAVA HEAP SPACE错误及处理办法
在跑斯坦福corenlp的demo时出现的JAVA.LANG.OUTOFMEMORYERROR: JAVA HEAP SPACE错误,在run configurations—Arguments-VM arguments添加下面的参数,虚拟机的内存使用情况:-XX:-UseGCOverheadLimit -Xmx3000m原创 2017-04-24 15:02:46 · 587 阅读 · 0 评论 -
CRF条件随机场----中文分词
【中文分词】条件随机场CRF之前介绍的MMEM存在着label bias问题,因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW:比较有意思的是,这篇文章的二作与三作同时也是MEMM的作者。1. 前言本节将遵从tutorial [2] 的论文结构,从概率模型(Probabilistic Mod转载 2017-05-06 16:08:06 · 2714 阅读 · 0 评论 -
HMM算法-viterbi算法的实现及与分词、词性标注、命名实体识别的引用
转自:http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.htmlHMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,转载 2017-05-02 17:18:14 · 3000 阅读 · 0 评论 -
crf的Python实现代码
作者:金良(golden1314521@gmail.com) csdn博客:http://blog.youkuaiyun.com/u012176591对数域操作函数class Logspace: def __init__(self): self.LOGZERO =np.nan def eexp(self,x): if np.isnan(x): ...转载 2017-05-08 15:15:29 · 5029 阅读 · 2 评论 -
斯坦福分词训练步骤
首先浏览官网的FAQ:https://nlp.stanford.edu/software/segmenter-faq.html D:\eclipse-workspace\Stanford_segmenter\导入的包>java-cp stanford-segmenter-3.7.0.jar -mx15g edu.stanford.nlp.ie.crf.CRFClassifier-pro原创 2017-04-26 11:45:17 · 1588 阅读 · 0 评论 -
哈工大ltp,分词,词性标注,命名实体识别技术的特征提取
1、分词的特征提取给定一个字符判断: 1、标点符号 2、数字 3、中文数字 4、字母 等等2、词性标注的特征提取: 1、后缀 2、部首特征 3、词重叠特征3、命名实体识别特征提取: 1、词的位置 2、词性原创 2017-08-11 14:24:47 · 6263 阅读 · 1 评论 -
最大熵模型简介------写得很好,
转载自:https://vimsky.com/article/714.html这篇文章是结合论文http://www.cqvip.com/Main/Detail.aspx?id=7707219对博文:http://www.cnblogs.com/hexinuaa/p/3353479.html加入自己的理解做了简化重写,另外本文末尾附上了最大熵模型的实现。 一个例子 我们通过一个简单的转载 2017-08-11 18:30:30 · 776 阅读 · 0 评论 -
NLP学习参考
原创 2018-03-20 12:12:25 · 207 阅读 · 0 评论 -
玩转fasttext
http://albertxiebnu.github.io/fasttext/转载 2018-11-05 10:46:18 · 241 阅读 · 0 评论 -
相对熵
KL距离(相对熵)KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)对应的每个事件,若用概率分布 Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用D(P||Q转载 2016-10-20 20:00:59 · 1247 阅读 · 0 评论