- 博客(36)
- 收藏
- 关注

原创 Adapting Meta Knowledge Graph Information for Multi-Hop Reasoning over Few-Shot Relations
Adapting Meta Knowledge Graph Information for Multi-Hop Reasoning over Few-Shot Relations(2019 EMNLP)Idea:该论文利用meta-learning从高频关系实例中学得参数,然后快速应用于few-shot关系推理中。该QA问题被定义为:一个三元组的query被定义为,其...
2019-10-12 17:35:46
1318
1

原创 图神经网络(Graph neural networks)综述
论文链接:Graph Neural Networks:A Review of Methods and ApplicationsAbstract:图(Graph)数据包含着十分丰富的关系型信息。从文本、图像这些非结构化数据中进行推理学习,例如句子的依赖树、图像的场景图等,都需要图推理模型。图网络(Graph neural networks)是一种链接主义模型,它靠图中节点之间的信息传递来捕捉图...
2019-03-12 09:52:20
60398
19

原创 小样本学习(few-shot learning)之——原形网络(Prototypical Networks)
Prototypical Networks for Few-shot Learning摘要:该文提出了一种可以用于few-shot learning的原形网络(prototypical networks)。该网络能识别出在训练过程中从未见过的新的类别,并且对于每个类别只需要很少的样例数据。原形网络将每个类别中的样例数据映射到一个空间当中,并且提取他们的“均值”来表示为该类的原形(prototy...
2018-12-27 11:23:29
40832
5

原创 对抗训练在关系抽取中的应用
Adversarial Training for Relation ExtractionAbstract对抗训练是一种在训练过程中加入噪声的正则分类算法。这篇论文在多实例多标签的关系抽取任务中加入对抗噪声来提升模型表现。通过在CNN和RNN两种主流框架上进行对抗训练,在两种不同的数据集上都去得了不错的效果。Methodology在多实例多标签的关系抽取任务中,X={x1,x...
2018-11-14 20:53:21
2284

原创 关系抽取综述
1引言关系抽取是信息抽取的重要子任务,其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,关系抽取主要负责从文本中识别出实体,抽取实体间的语义关系。现有主流关系抽取技术分为有监督关系抽取,无监督关系抽取,和半监督关系抽取三种方法。这里,我们主要对有监督的关系抽取方法进行介绍。有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型...
2018-06-02 16:13:54
9012
2

原创 关于关系抽取(Relation Extraction)的三篇论文
关系抽取被广泛的应用于NLP领域的多个任务中,而远程监督方法的兴起为关系抽取添加了一把双刃剑。一方面远程监督可以基于少量的标注语料自动的扩展出大量的标注数据。另一方面,错误标签带来的大量无关噪声也为关系抽取的准确度带来了不小的挑战。本文从三篇NLP顶级会议论文出发来分析解决这个问题。如图一所示,我们的挑战主要来自两个方面。首先如何将输入句子向量化的表示,采用何种算法...
2018-04-21 18:08:54
10050
2

原创 关系抽取之远程监督
1引言传统意义上讲,关系抽取是实体识别基础上的一个任务,其核心是抽取一个句子中包含实体对之间的关系。第一步就是训练一个关系抽取器,换句话讲就是训练一个关系分类器。因为模型不可能自己给关系起名字,所以我们需要人工的标注好语料,基于语料库我们一共有多少种关系。当模型训练好了之后,给它一个包含两个实体的句子,我们通过特征提取生成一个句子向量,通过根据语料数据训练出的关系抽取器来判定该句子应当分到哪一类中...
2018-04-08 17:04:08
15609
1
原创 DeepSeek 细节(3)之 MTP(Multi-Token Prediction)
当前主流的 LLM 主要采用 Decoder-only 为基础的模型结构。这意味着无论是在训练还是推理阶段,序列的生成都是逐个 token 进行的。在生成每个 token 时,模型需要频繁地进行访存操作,加载 KV Cache,往往成为训练或推理过程中的瓶颈。通过优化解码阶段,可以将单个 token 的生成转变为多个 token 的生成,从而提升训练和推理的性能。具体而言,在训练阶段,通过一次生成多个后续 token,可以同时学习多个位置的标签,从而提高样本的利用效率和训练速度。
2025-02-28 12:00:12
421
原创 DeepSeek 细节(2)之 MoE(Mixture-of-Experts)
DeepSeek 团队通过引入 MoE(Mixture of Experts,混合专家) 机制,以“分而治之”的思想,在模型容量与推理成本之间找到了精妙的平衡点,其中的技术实现和细节值得剖思。
2025-02-24 23:00:48
1052
原创 DeepSeek 细节(1)之 MLA (Multi-head Latent Attention)
DeepSeek 系统模型的基本架构仍然基于Transformer框架,为了实现高效推理和经济高效的训练,DeepSeek 还采用了MLA(多头潜在注意力)。MHA(多头注意力)通过多个注意力头并行工作捕捉序列特征,但面临高计算成本和显存占用;MLA(多头潜在注意力)则通过低秩压缩优化键值矩阵,降低显存占用并提高推理效率。
2025-02-21 22:36:06
1077
原创 DeepSeek 系列模型中的技术
是杭州深度求索人工智能基础技术研究有限公司的简称,同时DeepSeek也是该公司研发的通用人工智能开源大模型平台。DeepSeek完全基于自研训练框架、自建智算集群和万卡算力等资源,在短时间内取得了显著的研发成果。它通过大幅度缩减以往大模型所需要的庞大算力,直接把大模型的成本降了下来。
2025-02-18 18:41:46
831
原创 LLM 中的 Causal Decoder、Prefix Decoder 和 Encoder-Decoder
在 Transformer 模型中,mask 机制是一种用于在 self-attention 中的技术,用以控制不同 token 之间的注意力交互。Mask 机制经常被用于NLP任务中,按照作用总体来说可以分成两类。
2025-01-07 16:33:36
767
原创 LLM 中的 Decoder Only
为什么现在的大模型大都是 decoder only 架构?这个问题想来稀松平常,经常能看到各大社区中的众多回答,但对于该问题的了解也非常碎片化,今天就系统的对该问题进行归纳梳理。
2025-01-03 20:00:50
1233
原创 IntelliJ IDEA 远程调试
在平时开发 JAVA 程序时,在遇到比较棘手的 Bug 或者是线上线下结果不一致的情况下,我们会通过打 Log 或者 Debug 的方式去定位并解决问题,两种方式各有利弊,今天就简要介绍下如何通过远程 Debug 的情况下去定位问题。
2024-12-25 20:17:28
362
原创 动态量化和静态量化
神经网络中的计算通常以浮点数计算(Float32)进行,模型量化是指以较低的精度损失将这些浮点数计算近似为更低比特的计算,如Float16、Int8等。从而降低模型存储大小、降低显存占用、提升推理性能。在不同的需求下,选择不同的量化方案。
2024-12-10 20:52:04
1525
原创 NLP-中文分词
jieba 分词主要通过词典来进行分词及词性标注,两者使用了一个相同的词典。jieba 虽然使用了 HMM 来进行新词发现,但分词的结果优劣很大程度上取决于词典。
2024-12-05 19:53:12
1049
原创 Elasticsearch scroll 之滚动查询
Elasticsearch 的 Scroll API 是一种用于处理大规模数据集的机制,特别是在需要从索引中检索大量数据时。通常情况下,Elasticsearch 的搜索请求会有一个结果集大小的限制 (from+size 的检索数量默认是 10,000 条记录),而 Scroll API 允许你绕过这个限制,通过滚动的方式逐步获取数据。
2024-12-03 15:20:17
1272
原创 Elasticsearch 的存储与查询
在搜索系统领域,数据的存储与查询是两个最基础且至关重要的环节。Elasticsearch(ES) 在这两方面进行了深度优化,使其在关系型数据库或非关系型数据库中脱颖而出,成为搜索系统的首选。
2024-12-02 19:35:15
1429
原创 LEARNING GRAPHICAL STATE TRANSITIONS
LEARNING GRAPHICAL STATE TRANSITIONS (ICLR 2017)Idea:图结构对于构建多个实体之间的关系是十分重要的,也可以被用于去表示真实世界中的多种数据结构。本文提出了一种门控图变换神经网络,该模型可以基于输入构建和修改图,并且可以生成各种的图输出。BACKGROUND GRU:是循环网络的一种,每个单元...
2019-07-08 10:18:00
599
1
原创 Graph Neural Networks with Generated Parameters for Relation Extraction
Graph Neural Networks with Generated Parameters for Relation Extraction(2019 ACL)Idea:本文提出了一种图生成参数模型,该模型可以在无结构化数据上进行关系推理。解决现了现有模型只能显示的提取两实体之间的关系,不能进行关系的传递和推理。Graph Neural Network with Generat...
2019-06-29 11:53:55
2188
3
原创 A Hierarchical Framework for Relation Extraction with Reinforcement Learning
A Hierarchical Framework for Relation Extraction with Reinforcement Learning (2019 AAAI)Idea:目前现存的关系抽取模型大多基于显式实体的情况下。即在进行关系抽取之前,句子中的实体已经被标记出。因此,关系类型和实体之间的交互并没有完全的被建模。本文提出了一种新颖的实体关系新范式,即将实体作为关系的参数来处理...
2019-06-22 15:07:44
1712
3
原创 BERT在关系学习中的应用
Matching the Blanks: Distributional Similarity for Relation Learning(2019 ACL)典型的关系抽取可以大致分为以下三类:第一类有监督或者远程监督的关系抽取,该类方法通过有限的模式去学习文本到关系之间的映射关系。 第二类为开放领域的关系抽取,该类方法消除了预定义模式的限制。 第三类为泛化能力较强的通用模式,该类...
2019-06-20 21:37:43
2562
2
原创 Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification (2019 AAAI)
Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification (2019 AAAI)Idea:为了解决few-shot learning 中易受噪声实例影响这一问题,该论文提出了一种基于原形网络的混合attention网络。该模型设计了实例级别和特征级别的attention机制,分...
2019-05-24 15:52:58
3660
8
原创 文本图神经网络
论文链接:Graph Convolutional Networks for Text Classification Idea:基于一个数据集内的共现词和文档构建一个文本异构图网络。 在文本图网络中,单词和文档向量初始化形式为one-hot,在文档已知类标签的监督下,联合学习单词和文档的向量化表示。 图网络能够有效的处理关系型(结构化)数据,可以以图的形式保留全局性结构化信息在图...
2019-03-22 17:48:39
2254
原创 FEW-SHOT LEARNING WITH GRAPH NEURAL NETWORKS 论文笔记
论文链接:FEW-SHOT LEARNING WITH GRAPH NEURAL NETWORKS Idea: Few-shot 学习不依靠于规则化扩展数据集来补偿缺少有监督数据对模型带来的影响,而是受启发与人类学习去探索相似任务在空间上的分布情况。 GNN网络实际是CNN网络在非欧几里得空间上的扩展。Problem Set-up以下的定义可以应用于semi-supervis...
2019-03-18 09:57:21
7978
15
原创 关系抽取之——强化学习
Reinforcement Learning for Relation Classification from Noisy Data摘要:目前存在的关系抽取方法大多是依赖于远程监督假设的,即所有包含两个相同实体的句子都只表达一种关系。但是这些方法都是在包级别上做关系抽取,不能明确的映射出单句和关系之间的联系,并且由远程监督产生的错误标签还在影响着模型的精度。该文在含有噪声的数据集上提出了一...
2018-12-28 12:03:54
2226
1
原创 Adversarial training for multi-context joint entity and relation extraction 论文笔记
Adversarial training for multi-context joint entity and relation extractionAbstract对抗训练是一种正则化方法,通过对模型的输入增加微小而持久的扰动从而提高模型的鲁棒性。本文将对抗训练应用到实体识别和关系抽取的联合实验当中去,取得了跨语言、多数据集的先进结果。ModelJoint learnin...
2018-11-19 20:26:17
2159
2
原创 跨领域对抗训练在关系抽取中的应用
Genre Separation Network with Adversarial Training for Cross-genreRelation Extraction Abstract论文的动机来源与主流关系抽取模型在不同的领域甚至是不同的数据集上性能的参差不齐。论文中提出了一种领域分离网络,其含有基于本领域独立的编码器,和基于领域共享的编码器。该网络可以抽取特定类型和类型未知的两...
2018-11-16 12:01:07
1680
原创 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记
IntroductionBERT在11项NLP任务中取得如此令人振奋的成绩主要来源与以下的三个方面:(1)BERT使用“遮蔽”语言模型去 pre-trained 深度语言表示。(2)许多pre-trained 模型受限于特种结构、特种模型。BERT使用fine-tuning(微调)模型在众多句子级别或者是单词级别的任务中去得了最先进的效果。(3)BERT使用双向语言模型在11项NL...
2018-11-10 18:28:05
4615
1
原创 基于深度学习方法的垂直领域实体关系分析研究
1.应用前景随着互联网时代的高速发展,人们能够获取到的信息量也成指数级增长。最初信息检索的任务是由搜索引擎完成,是一种基于关键词检索的方法,抓取互联网上海量的网页进行关键词提取并建立倒排表,利用 PageRank [1]算法针对用户的输入返回所有命中的有权重优先的网页链接,然而这样的检索结果规模很大,并且结果之间存在冗余或者冲突的情况,用户很难快速从搜索引擎的返回结果中二次筛选出理想的答案[2...
2018-07-20 15:59:44
1451
1
原创 Relation Classification via Convolutional Deep Neural Network 论文笔记
Relation Classification via Convolutional Deep Neural Network 用于关系分类的最先进的方法越来越依赖于特征提取的质量。而特征工作又经常的被当做是现有NLP工具或系统的一部分来解决,导致现有的NLP工具的错误在特征提取任务中被不断的传播并且放大。应用深度学习来进行特征提取进变得十分可行了。Word Representation Lexi...
2018-04-21 20:16:29
3467
2
转载 Jupyter Notebook(一)安装配置与使用
转载:https://blog.youkuaiyun.com/JJwho/article/details/78765352本文示例环境:CentOS 7,远程服务器 可能的依赖:python; pip; python-devel; gcc; gcc-c++;一、安装(命令行操作)如果没有pip,要安装pip:安装 setuptoolscd /tmpwget https://pypi.python.org/p...
2018-04-20 10:16:34
2011
原创 对话系统综述
1 引言 在自然语言处理(Natural Language Processing)领域中,对话系统 (多轮次对话的问答系统) 是一个广受关注的研究分支。同时该领域也细分为垂直领域(只针对某一特定领域)以及开放领域。我们将大家相对熟悉的问答系统与对话系统做对比讨论来引出对话系统。问答系统与对话系统的区别:对话系统没有必要再一轮的交互中就给出答案,可以有反问机制,从而引导用户按照系统更能接受...
2018-03-19 14:55:38
2634
原创 文本情感分析综述
摘要:文本情感分析:又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网(如博客和论坛以及社会服务网络如大众点评)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产...
2018-02-28 18:29:45
27054
原创 卷积神经网络之计算机视觉应用(二)
卷积神经网络之计算机视觉应用(二)我们在开启卷积神经网络第二节之前,我们先来回顾这几个知识点,卷积神经网络中的卷积核通道数目是依据什么而定的,卷积神经网络中卷积核的个数决定了什么,如果这几个知识点我们还没有搞清楚的话,我们可以再去了解一下。http://blog.youkuaiyun.com/m0_38031488/article/details/79121184一 引言卷积网
2018-01-22 17:51:03
2860
1
原创 卷积神经网络之计算机视觉应用(一)
卷积神经网络之计算机视觉应用(一)一 引言21世纪开始,卷积神经网络就被成功的大量用于检测、分割、物体识别以及图像的各个领域。值得一提的是,图像可以在像素级别进行打标签,这样就可以应用在比如自动电话接听机器人、自动驾驶汽车等技术中。尽管卷积神经网络应用的很成功,但是它被计算机视觉以及机器学习团队开始重视是在2012年的ImageNet竞赛。在该竞赛中,深度卷积神经网络被用在上百万张网
2018-01-21 21:36:14
10435
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人