
自然语言处理
文章平均质量分 94
clvsit
人生不是戏剧,而我亦非主角
展开
-
RoPE 相对位置编码解读与外推性研究
RoPE(Rotary Position Embedding)位置编码是大模型中最常见的位置编码之一,是论文 Roformer: Enhanced Transformer With Rotary Position Embedding 提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。谷歌的 PaLM 和 Meta 的 LLaMA 等开源大模型都是 RoPE 位置编码。原创 2024-05-16 22:49:40 · 3891 阅读 · 0 评论 -
FlashAttention V1 学习笔记
Flash Attention 是一种新型的注意力机制,旨在解决传统 Transformer 模型在处理长序列数据时面临的计算和内存效率问题。它通过一系列创新的技术优化,显著提高了注意力机制的计算速度和内存使用效率,同时保持了精确的结果,不依赖于近似计算。原创 2024-04-11 13:12:27 · 1458 阅读 · 0 评论 -
Word2Vec 的一些理解
Hierachical Softmax 思想Hierachical Softmax 的基本思想:将词典中的每个词按照词频大小构建出一棵 Huffman 树,保证词频较大的词处于相对较浅的叶子节点,词频较低的词处于相对较深的叶子节点。这样就将原本的 |V| 分类问题转换为了 log |V| 次的二分类问题。|V| 分类问题:log |V| 分类问题:原本需要计算 |V| 次,现在只需要沿着 Huffman 树的路径进行计算,计算量变为 log |V|。需要注意的是根节点无编码(无词语)。原创 2021-10-24 22:02:32 · 473 阅读 · 0 评论 -
基于 BK 树的中文拼写纠错候选召回
最近在研究中文拼写纠错,在查阅资料的时候看到了这篇文章《从编辑距离、BK树到文本纠错 - JadePeng - 博客园》,觉得 BK 树挺有意思的,决定深入研究一下,并在其基础上重新整理一遍,希望能够对各位读者大大们有所帮助。前置知识本节介绍实现基于 BK 树的中文拼写纠错候选召回所需要的前置知识,包括文本纠错的主流方案、编辑距离和 BK 树等相关概念。文本纠错目前业界主流的方案仍然是以 pipeline 的方式:“错误检测 -> 候选召回 -> 候选排序”的步骤依次进行。以平安寿险纠错原创 2021-03-22 22:44:01 · 1192 阅读 · 2 评论 -
Google Bert 框架简单蒸馏实践
预训练语言模型,然后对下游任务进行微调已成为自然语言处理的新范例。预训练语言模型(PLM),例如 BERT、XLNet、RoBERTa 在许多 NLP 任务中都取得了巨大的成功。但是,PLM 通常具有大量的参数,并且需要较长的推断时间,因此很难在移动设备上进行部署。此外,最近的研究也证明了 PLM 中存在冗余。因此,在保持性能的同时减少 PLM 的计算开销和模型存储至关重要且可行。本篇博客主要讲述论文《Distilling the Knowledge in a Neural Network》以及如何将论原创 2020-06-14 22:48:26 · 1551 阅读 · 14 评论 -
基于词向量的相似度短语挖掘
本篇博客介绍了基于词向量的相似度短语挖掘方法,通过Word2Vec、ELMo 等词向量模型将词语映射到词向量空间,然后选择一批启动词,使用类似DBSCAN算法的方式不断从词向量空间中搜索相似度较高的新词,不断地迭代,直到找不到新的相似度较高的词语。原创 2020-06-09 14:41:00 · 2623 阅读 · 0 评论 -
Google Bert 框架训练、验证、推断和导出简单说明
关于 Google Bert 框架的使用介绍,包括训练、验证、推断和导出。原创 2020-05-24 14:45:37 · 2330 阅读 · 7 评论 -
DFA 算法
DFA算法的简单介绍以及DFA算法在关键词匹配中的应用,如何简单地使用 Python 3.X 去实现 DFA 算法,来帮助我们从文本中抽取关键词,以及对敏感词进行识别。原创 2020-05-03 22:43:02 · 58818 阅读 · 6 评论 -
新词发现
新词发现也可称为未登录词识别,严格来讲,新词是指随时代发展而新出现或旧词新用的词语。同时,我认为特定领域的专有名词也可归属于新词的范畴。何出此言呢?通常我们会很容易找到通用领域的词表,但要找到某个具体领域的专有名词则非常困难,因此特定领域的专有名词相对于通用领域的词语即为新词。换言之,“新”并非只是时间上的概念,同样可以迁移到领域或空间上。因此,新词发现不仅可以挖掘随时间变化而产生的新词,也可以挖...原创 2020-01-05 22:39:07 · 8255 阅读 · 2 评论 -
关键词抽取算法 TF-IDF
TF-IDF(term frequency-inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。顾名思义,TF-IDF 算法由两部分组成:TF 和 IDF。接下来,我...原创 2020-01-05 14:10:09 · 1333 阅读 · 0 评论