
nlp
nlp
ws_nlp_
这个作者很懒,什么都没留下…
展开
-
如何使用LR处理多分类问题
LR是一个判别模型,可以说相当于用一条直线来划分一个平面进行分类,单一条直线只能进行一个分类。所以当选取LR作为模型进行多分类时,可以考虑使用多个直线来判断。原创 2020-12-18 19:46:48 · 650 阅读 · 2 评论 -
textCNN最简易的理解
一个36个词的文本embedding之后36*128卷积层,3种卷积核(长度分别为2,3,4),宽度为词的embedding长度128,每种卷积核为2个卷积之后,36 * 128 与 4 * 128 卷积,得到34个 4 * 128的向量,4*128的图内部计算得到一个值,卷积得到 34 * 1 的向量将34 * 1的向量进行max pooling得到1* 1的向量最后有几个卷积核,就是几维向量最后进行一个分类参考自:https://www.cnblogs.com/bymo/p/9675..原创 2020-12-03 20:27:42 · 440 阅读 · 0 评论 -
什么是meta信息
meta信息是指数据本身的信息,比如说一个文件的meta信息,可能包括了文件的创建时间,文件大小等等,与文本本身的信息有所不同。原创 2020-11-21 14:49:41 · 2195 阅读 · 0 评论 -
如何理解深度学习中的logits
大体上理解,你可以把logits理解成为归一化的概率,归一化之后就是softmax,logits单数其实就是logit,不能理解成log-it的函数,实际公式是log(p/1-p)原创 2020-06-28 11:23:46 · 1316 阅读 · 0 评论 -
NLP中的必备英文单词
deactivate 使无效原创 2020-06-23 11:08:12 · 495 阅读 · 0 评论 -
使用LSH来计算余弦相似度
A.学习LSHLSH-余弦相似度详解原理,在余弦空间中构造一条直线当两个向量在直线一边时,认为这两个向量较相似。那么我们有两个向量A,B,和一条直线a。假设A在直线a上方,标记为1B在直线a下方,标记为0因此我们认为A和B不相似。为了更准确的估计,我们构造了多条直线b,c,d,e那么A的标记可能为,1,1,1,0,0B的标记为,0,1,1,0,0直观上来看A和B就比较相似了目的:用近似来简化计算假如每个向量有1000维度,有1000个向量那么我们想找所有近似,就要两两计算要10原创 2020-05-27 10:24:09 · 1709 阅读 · 1 评论 -
前馈神经网络中的“前馈”指的是什么意思
“前馈”是指整个网络中无反馈,信号从输入层向输出层单向传播,可用一个有向无环图表示其实我们常用的网络,都是前馈神经网络,从输入到输出是一个有向图,中间不会有环或者反向传播。当然,我们在训练前馈神经网络的时候,会用到反向传播进行参数调整。但仍不影响整个网络的有向和前馈性质。...原创 2020-06-06 11:41:41 · 4832 阅读 · 0 评论 -
简单jieba分词的使用方法
首先在终端安装pip install jieba然后在python中使用import jiebatext = ‘我爱你中国’seg_res = jieba.cut(text, cut_all=True)seg_list = [i for i in seg_res]print(seg_list)#最后输出的结果:[‘我爱你’, ‘中国’]总结,给出的结果是jieba里面的一个类,如果需要返回list结果,还需要进行类似上文的转换。...原创 2020-06-05 10:39:35 · 299 阅读 · 0 评论 -
如何使用DBSCAN进行聚类
from sklearn.cluster import DBSCANimport numpy as npX = np.array([[1, 2], [2, 2], [2, 3],[8, 7], [8, 8], [25, 80]])clustering = DBSCAN(eps=0.3, min_samples=2).fit(X)print(clustering.labels_)import就不解释了第三行构造数据第四行进行聚类,eps是近邻距离,不是边界距离,min表示每类最少数量最后一行原创 2020-06-04 17:02:26 · 490 阅读 · 0 评论 -
Faiss的原理以及Faiss与Lsh的对比(整理版)
方法原理IVF原理:使用聚类方法减少搜索范围流程训练:将库向量进行128个(K个)聚类,保存聚类中心和每个类中的向量预测:将预测向量与128个聚类中心对比,找到所属聚类中心,只在同类的库向量中进行查询预测计算开销K次(D维)每个预测向量与K个聚类中心进行相似度计算,原向量维度128维(D维)PQ原理:使用聚类方法优化距离计算将每个向量切分成4组(M组)向量,对每组进行聚类,利用聚类中心来代替库向量的位置计算查询向量与所有聚类中心的距离,利用查表方法来代替计算向量距离流程训练:将库原创 2020-06-04 12:27:01 · 2669 阅读 · 0 评论