NLP
文章平均质量分 91
flying_1314
2025持续分享前沿文章~敬请期待~
当前主要侧重,图神经网络,大模型相关论文讲解,后续大家如果有感兴趣的方向,欢迎评论区讨论
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自然语言处理分享系列-词语和短语的分布式表示及其组合性(二)
摘要:本文探讨了Skip-gram模型中负采样和高频词子采样技术的优化方法。负采样新发展作为分层softmax ставка替代方案, titular 通过3/4次方调整unigram分布作为噪声 recommend 分布效果最佳。高频词子采样显著提升训练速度并改善低频词表示质量。实证表明,负采样在类比任务上优于分层softmax,而短语表示通过词向量加性组合展现出线性语义特性。研究团队开源了训练代码,在 Themen 大规模数据训练拆卸下,模型性能显著提升。原创 2025-10-23 23:52:59 · 777 阅读 · 0 评论 -
自然语言处理分享系列-词向量空间中的高效表示估计(三)
本文研究比较了不同词向量模型在语义和句法任务中的表现。通过构建包含近2万测试问题的评估集,发现Skip-gram模型在语义任务中表现最优,CBOW模型在句法任务中领先。实验表明,增加训练数据量和词向量维度能提升性能,但存在收益递减点。研究还展示了词向量代数运算在类比推理等任务中的应用潜力,如"巴黎-法国+意大利=罗马"这类关系推理准确率约60%。采用分布式训练框架后,模型可在万亿级语料上训练,性能较传统方法提升显著。词向量技术为机器翻译、信息检索等NLP任务提供了重要基础。原创 2025-10-12 11:42:02 · 679 阅读 · 0 评论 -
自然语言处理分享系列-词语和短语的分布式表示及其组合性(一)
本文提出改进的连续Skip-gram模型,通过高频词下采样和负采样优化,显著提升词向量质量和训练效率。针对传统词向量无法表示短语的局限性,提出数据驱动的短语识别方法,将短语作为独立单元处理。模型展现出向量加法组合性,如"Russia"+"river"≈"Volga River"。采用分层softmax的二叉树结构,计算复杂度从O(W)降至O(logW),其中霍夫曼树编码进一步加速高频词处理。这些改进使模型能在单机一天内处理千亿级词汇量。原创 2025-10-12 11:40:55 · 1109 阅读 · 0 评论 -
自然语言处理分享系列-词向量空间中的高效表示估计(二)
本文探讨了通过神经网络学习词分布式表示的不同模型架构。重点分析了前馈神经网络语言模型(NNLM)和循环神经网络语言模型(RNNLM)的计算复杂度与优化策略,包括层次softmax等效率提升方法。随后提出两种新的对数线性模型:连续词袋模型(CBOW)通过平均上下文词向量预测当前词;连续Skip-gram模型则采用动态窗口策略,以当前词预测周边词。这些模型在保持表示质量的同时显著降低了计算复杂度,为大规模语料处理提供了高效解决方案。原创 2025-10-08 16:33:22 · 621 阅读 · 0 评论 -
自然语言处理分享系列-词向量空间中的高效表示估计(一)
本文提出两种新型模型架构,用于从超大规模数据中高效计算词向量表示。实验表明,新方法在词汇相似性任务上准确率显著提升,仅需不到一天即可处理16亿词数据,且计算成本大幅降低。词向量在语法和语义相似性度量上达到当前最优性能。研究突破了大语料训练限制,支持百万级词汇表,并通过向量偏移技术揭示词间多重关系。相比传统神经网络语言模型,该方法更高效实用,为自然语言处理任务提供了优质词向量基础。原创 2025-10-08 14:26:11 · 1299 阅读 · 0 评论 -
自编码/自回归/seq2seq 真的理解了吗?
宏观来讲,当今的天下,可以说是transformer的天下,今天下三分,分别是 自编码(Autoencoder),自回归(Autoregressive),和怎么理解呢?encoder(左派)自编码代表:bertseq2seq代表:bart自回归代表:gpt上面那个图大家看了可能就会首先有个宏观的了解,接下来,会稍微细节简单说一下,之后相关的文章也会跟进。原创 2024-03-25 23:45:15 · 1486 阅读 · 1 评论 -
第二十一篇:伦理/道德Ethics
什么是伦理/道德?我们应该如何生活——苏格拉底• 正确的做法是什么?• 为什么?原创 2021-06-20 23:01:49 · 9831 阅读 · 4 评论 -
第二十篇:Summarisation摘要
摘要• 从文本中提取最重要的信息以生成缩短或删节的版本• 例子 ‣ 文档大纲 ‣ 科学文章摘要 ‣ 新闻标题 ‣ 搜索结果片段原创 2021-06-20 19:31:14 · 282 阅读 · 4 评论 -
第十九篇:主题建模Topic Modelling
理解文本• 英文维基百科:600 万篇文章• Twitter:每天 5 亿条推文• 纽约时报:1500 万篇文章• arXiv:100 万篇文章• 如果我们想了解有关这些文档集的一些信息,我们可以做什么?原创 2021-06-20 17:54:31 · 3193 阅读 · 2 评论 -
第十八篇:Question Answering问答系统
介绍• 定义:问答(“QA”)是自动确定自然语言问题答案的任务• 主要关注“事实”问题原创 2021-06-20 15:13:04 · 1528 阅读 · 0 评论 -
第十七篇:信息抽取Information Extraction
信息抽取原创 2021-06-19 23:27:39 · 1111 阅读 · 6 评论 -
第十六篇:机器翻译
介绍• 机器翻译 (MT) 是将文本从一种源语言翻译成另一种目标语言的任务为什么?原创 2021-06-19 18:47:47 · 487 阅读 · 0 评论 -
第十五篇:依存语法Dependency Grammar
上下文无关语法(回顾)• CFG 假设有一个选区树来标识句子中的短语‣ 基于这些短语可以互换(例如,将一个 NP 换成另一个 NP)并保持语法性的想法原创 2021-06-19 17:42:34 · 4030 阅读 · 2 评论 -
第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar
解析中的歧义• 上下文无关文法为语言分配层次结构 ‣ 公式化为生成语言中的所有字符串 ‣ 预测给定字符串的结构原创 2021-06-19 15:28:00 · 1085 阅读 · 0 评论 -
第十三篇:上下文无关语法 Context-Free Grammar
回顾• 中心嵌入原创 2021-06-19 14:32:16 · 2771 阅读 · 0 评论 -
第十二篇:形式语言理论与有限状态自动机
我们到目前已经介绍了什么?• 处理单词序列的方法: ‣ N-gram 语言模型 ‣ 隐马尔可夫模型 ‣ 循环神经网络• 这些模型没有任何基本的语言学原创 2021-06-19 11:11:39 · 743 阅读 · 0 评论 -
第十一篇:Discourse 话语/论述
话语• 我们学到的大多数任务/模型都在单词或句子级别运行: ‣ 词性标注 ‣ 语言模型‣ 词法/分布语义• 但 NLP 经常处理文档• 话语:了解文档中句子之间的相互关系原创 2021-06-19 10:00:15 · 1349 阅读 · 0 评论 -
第十篇:上下文表示
词向量/嵌入• 每种词类型都有一种表示 ‣ Word2Vec• 无论单词的上下文如何,始终使用相同的表示• 无法捕捉词的多种含义• 上下文表示 = 基于上下文的单词表示• 预训练的上下文表示非常适合下游应用程序!...原创 2021-06-18 23:54:00 · 1153 阅读 · 1 评论 -
第九篇:分布式语义
词法数据库(上一篇提到)- 问题• 手动构建 ‣ 昂贵的 ‣ 人工标注可能存在偏差和噪声• 语言是动态的 ‣ 生词:俚语、术语等。‣ 新感官• Internet 为我们提供了大量文本。 我们可以用它来获得词义吗?...原创 2021-06-15 23:43:47 · 2154 阅读 · 8 评论 -
第八篇:词汇语义
情感分析• 词袋,kNN 分类器。 训练数据: ‣ “This is a good movie.” → ☺ ‣ “This is a great movie.” → ☺‣ “This is a terrible film.” → ☹• “This is a wonderful film.” → ?• 两个问题:‣ 模型不知道“电影”和“电影”是同义词。 由于“film”仅出现在负面示例中,因此模型了解到它是一个负面词。‣ “精彩”不在词汇表中(OOV – 词汇外)。...原创 2021-06-15 17:11:52 · 973 阅读 · 3 评论 -
第七篇:循环神经网络
循环神经网络 (RNN)• RNN 允许表示任意大小的输入• 核心思想:通过应用递推公式一次处理一个输入序列• 使用状态向量来表示先前已处理过的上下文原创 2021-06-15 12:26:18 · 441 阅读 · 2 评论 -
第六篇:Feedforward Networks 前向网络
深度学习• 机器学习的一个分支• 重新命名神经网络• 神经网络:历史上受到大脑计算方式的启发 ‣ 由称为神经元的计算单元组成• 为什么深? 许多层在现代深度学习模型中链接在一起...原创 2021-06-14 21:48:42 · 2339 阅读 · 6 评论 -
第五篇:HMM 隐马尔可夫模型
的原创 2021-06-01 16:28:06 · 235 阅读 · 0 评论 -
第四篇:Part of Speech Tagging 词性标注
词性也就是单词类别,形态类别,句法类别名词,动词,形容词等。POS告诉了我们单词和他邻居间的一点关系:原创 2021-06-01 11:05:56 · 854 阅读 · 0 评论 -
第三篇:文本分类
目录分类基础文本分类任务分类算法评估分类基础文本分类任务分类算法评估原创 2021-05-31 18:49:38 · 274 阅读 · 0 评论 -
第二篇:n-gram 语言模型
推到n-gram语言模型平滑处理稀疏性生成语言原创 2021-05-31 16:24:02 · 518 阅读 · 0 评论 -
第一篇:BPE算法(附加)
BPE,byte-pair encoding 字节对编码算法。主要目的是为了数据压缩,算法描述为字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。该算法在NLP的很多模型中dou...原创 2021-05-30 19:32:26 · 1529 阅读 · 0 评论 -
第一篇:text preprocessing文本预处理
语言是组成式的,对于人类而言,我们需要将长串的文本分割成独立的部分。对于计算机而言,理解语言也是如此。那么预处理就是第一步。原创 2021-05-30 16:41:02 · 752 阅读 · 0 评论 -
浅谈RNN,LSTM和GRU
RNN字面意思循环神经网络,接下来放一张结构图,大家就比较直观地可以理解了。由这个图大家可以粗略地看出rnn的一个简单结构,它是一步一步向前传递的,所以说是和序列有关的。上面这个图就比较具体了,我们可以看出rnn其实有三层网络结构:输入层,隐藏层和输出层,都说rnn是参数共享的什么意思呢?看图,所有的输入层到隐藏层都共用矩阵Whx,所有的隐藏层中的节点向前传递信息都共用矩阵Whh,所有隐藏层到输出层都共用矩阵Wyh。LSTM字面意思长短期记忆网络,它出现的意义在于rnn无法记忆长原创 2020-08-29 16:53:33 · 316 阅读 · 0 评论 -
词向量到Bert代码——部分习题
习题from gensim.models import word2vec sentences = ... model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4) 上述代码中size代表什么?A. 目标词的最远距离 B. 词向量的长度 C. 训练时的线程数 D. 参与训练词的最小出现频率 查看相应文档可知 def attention(a,b,c, mask=None, dropout=None): d_..原创 2020-06-05 13:23:38 · 379 阅读 · 0 评论 -
从词向量到Bert——简单作业题+讲解
习题1.关于Word2vec,下列哪些说法是正确的()(A) Word2vec是有监督学习(B)Word2vec利用当前特征词的上下文信息实现词向量编码,是语言模型的副产品(C)Word2vec不能够表示词汇之间的语义相关性(D)Word2vec是一个三层的深度神经网络模型2.Transformer 结构中不包括以下哪个内容?(A) Encoder-Decoder(B) Self-Attention(C) Add & Norm(D) Single-Head Attention原创 2020-06-03 16:19:40 · 2065 阅读 · 0 评论 -
初次遇见NLP:从词向量到BERT
本文主要讲解从词向量到Bert,中间涉及到的概念或者细节,阅读时间大概6-10min原创 2020-06-03 15:58:56 · 490 阅读 · 0 评论
分享