
自然语言处理
文章平均质量分 70
来自文家市的那个小孩
天生优秀, 无法从良
展开
-
每天一个知识点——Normalization
学习过程的记录与总结,有些是个人的理解,不一定全对,欢迎讨论和指正原创 2023-08-10 11:42:43 · 1652 阅读 · 0 评论 -
句子表征|Poly-Encoders
目录一、论文背景二、模型架构三、实验结果论文:Poly-Encoders: Architectures And Pre-Training Strategies For Fast And Accurate Multi-Sentence Scoring一、论文背景 计算两个句子相似度有两种技术架构:Bi-Encoder(俗称双塔)和Cross-encoder,这两个的区别在于交互的时机,Bi-Encoder构架input_text和candidate分别训练,直到最后预...原创 2021-12-30 18:14:04 · 913 阅读 · 0 评论 -
句子表征|Condenser: A Pre-training Architecture for Dense Retrieval
一、模型背景二、模型架构三、实验结果四、Funnel-Transformer和U-Net介绍:作者认为他的思路来源于Funnel-Transfomer(漏斗型),而Funnel-Transfomer来源于U-net。Funnel-Transformer:出发点是解决transformer性能瓶颈,因为它在每一层的每一个token都得做self-attention,随着句子长度的增加,计算量呈现平方级的增长,这就制约了它对长句句子表征的学习表达。之前的解决方案主要分为模型后处理和非后处原创 2021-12-30 13:11:36 · 1728 阅读 · 0 评论 -
菜鸟驿|多分类的精准率和召回率
在二分类中,结果的评价指标有召回率、准确率和f1值,将结果分为四类TP(true positive)、TN(true negative)、FP(false positive)、FN(false negative),那么三个指标的计算表达式分别是 二分类可以指定正例和负例, 那么在多分类任务中,这三个指标又将如何刻画呢,F1_measure依赖于recall和precision,跟二分类相同,下面就介绍一下准确率和召回率的计算,假设原始数据如表格所示:真实...原创 2021-08-12 12:35:43 · 2544 阅读 · 0 评论 -
BERT结构
先上两张图,具体细节有待后面补充转载 2021-03-08 14:39:22 · 256 阅读 · 0 评论 -
文本比较算法Ⅲ——计算文本的相似度
在“文本比较算法Ⅰ——LD算法”中,介绍了编辑距离的计算。 在“文本比较算法Ⅱ——Needleman/Wunsch算法”中,介绍了最长公共子串的计算。 在给定的字符串A和字符串B,LD(A,B)表示编辑距离,LCS(A,B)表示最长公共子串的长度。 如何来度量它们之间的相似度呢? 不妨设S(A,B)来表示字符串A和字符串B的相似度。那么,比较合理的相似度应该满足下列性质。 性质一:0≤S(A,B)≤100%,0表示完全不相似,100%表示完全相等 性质二:S(A,B)转载 2021-03-03 17:47:31 · 1245 阅读 · 1 评论 -
奇异值分解的来龙去脉
转载 2021-02-18 16:33:30 · 292 阅读 · 0 评论 -
教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模
本文是一篇关于主题建模及其相关技术的综述。文中介绍了四种最流行的技术,用于探讨主题建模,它们分别是:LSA、pLSA、LDA,以及最新的、基于深度学习的 lda2vec。在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其主题。在文档集合中学习、识别和提取这些主题的过程被称为主题建模。在本文中,我们将通过 4 种最流行的技术来探讨主题建模,它们分别是:LSA、pLSA、LDA,以及最新的、基于深度学习的 ld.转载 2021-02-18 16:09:15 · 1010 阅读 · 0 评论 -
隐含语义索引——快速教程(Latent Semantic Indexing(LSI)---A Fast Track Turorial)
摘要: 这个快速教程提供了为查询和文档打分与使用SVD(奇异值分解)和term count model来对结果排名的说明。这个教程可以用作一个SVD的快速引用。LSI教程系列在下面的网址下描述:http://www.miislita.com/information-retrieval-tutorial/svd-lsi-tutorial-1-understanding.html关键字: latent semantic indexing, LSI, singular v...转载 2021-02-18 15:45:18 · 506 阅读 · 0 评论