
自然语言处理
文章平均质量分 60
Necther
这个作者很懒,什么都没留下…
展开
-
开放域中文知识图谱自动构建技术
公众号 系统之神与我同在知识图谱构建核心问题有如下三条:1.命名实体识别(小样本、跨语言、开放域)2.关系的自动识别(上下位关系、开放域横向关系)3.实体缺失属性的自动补全1.命名实体识别(小样本、跨语言、开放域) :传统的命名实体识别主要是识别人名、地名、机构名等,逐渐提高命名实体识别的粒度,在经过多年的发展之后, 由于深度学习模型的应用,明明体识别已经可以自动生成实体类型标签。明明体识别经历了由最初的“词典+启发式规则”到“半监督+Bootstrapping”到“监督学习+统计模型”.原创 2022-01-26 14:17:00 · 1422 阅读 · 0 评论 -
世界知识的表示学习
世界知识的表示学习原创 2022-01-13 13:11:42 · 75 阅读 · 0 评论 -
语言知识的自动获取
语言知识的自动获取原创 2022-01-13 13:08:02 · 111 阅读 · 0 评论 -
语言知识的表示学习
语言知识的表示学习原创 2022-01-13 13:08:58 · 130 阅读 · 0 评论 -
世界知识的自动获取
世界知识的自动获取原创 2022-01-13 13:10:11 · 135 阅读 · 0 评论 -
世界知识的计算应用
世界知识的计算应用原创 2022-01-13 13:10:46 · 87 阅读 · 0 评论 -
2021CCF BDCI POI名称生成列第七名
这个坑如果数据多一些还有一种做法,后面公布方案原创 2022-01-13 13:06:10 · 161 阅读 · 0 评论 -
One Model Structure for All Sub-Tasks KBQA System
One Model Structure for All Sub-Tasks KBQA SystemHanchu Zhang, Deyi Xiong, and Xuanwei NianWest Shangdi Road, Haidian District Beijing, ChinaAbstract. In this paper, we present a system that can answer natural language questions according to a Chinese k原创 2022-01-18 17:07:58 · 185 阅读 · 0 评论 -
智能校对的技术原理和实践
智能校对的技术原理和实践编者按:大数据时代的到来带来了文本信息的爆炸,各种传统的文本分析处理工作都开始被计算机取代。文本数据量越大,其中所包含的错误的总数也越多,通过校对工作来纠正文本中的错误显得尤其重要。传统的校对主要依赖人工,通过人来发现和纠正文本中的错误,人工校对效率低、强度大、周期长,显然已经不能满足目前文本快速增长的需求。智能校对系统在这个背景下应运而生。伴随着机器学习和自然语言处理技术的发展,使用算法模型解决文本校对问题成为可能。智能校对系统的研发,极大地减轻了审校人员的工作负担,让从前繁重.原创 2022-01-17 10:32:53 · 1815 阅读 · 0 评论 -
多模态预训练模型简述
1.介绍让机器能以人类智能相似的方式作出反应一直是人工智能研究人员的目标。为了让机器能听会说、能看会认、能理解会思考, 研究者提出一系列相关任务,如人脸识别、语音合成、阅读理解等来训练及评价机器在某一方面的智能程度。具体来说是,领域专家人工构造标准数据集,然后在其上训练及评价相关模型及方法。但由于相关技术的限制,要想获得效果更好、能力更强的模型,往往需要在大量的有标注的数据上进行训练。近期预训练模型的出现在一定程度上缓解了这个问题。预训练模型的解决思路是,既然昂贵的人工标注难以获得,那么就去寻找廉价或.原创 2022-01-17 10:09:49 · 1006 阅读 · 0 评论 -
事实抽取与验证研究综述
我们研究事实核查问题,它的目的是确定一个给定的主张的真实性。具体来说,我们关注的是事实提取和验证(FEVER)及其伴随数据集的任务。该任务由从Wikipedia检索相关文档(和句子)以及验证文档中的信息是否支持或驳斥给定的声明的子任务组成。这项任务至关重要,可以成为假新闻检测和医疗索赔核实等应用程序的基石。在本文中,我们旨在通过结构化和全面的方式呈现文献来更好地理解这项任务的挑战。此外,我们通过分析不同方法的技术视角和讨论了在FEVER数据集上的性能结果来描述所提出的方法。FEVER数据集是在事实提取和验证原创 2022-01-18 17:06:17 · 729 阅读 · 0 评论 -
An Integrated Path Formulation Method for Open Domain Question Answering over Knowledge Base
An Integrated Path Formulation Method for Open Domain Question Answering over Knowledge BaseWen Dai, Huiwen Liu, Yan Liu, Rongrong Lv, Shuai ChenXiaomi Corporation, AI{daiwen, liuhuiwen, liuyan15, lvrongrong, chenshuai3}@http://xiaomi.comAbstract. Know原创 2022-01-18 17:09:40 · 196 阅读 · 0 评论 -
神经机器翻译前沿综述
机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。http://jcip.cipsc.org.cn/CN/abstract/abstract2994.shtml...原创 2022-01-17 10:26:18 · 653 阅读 · 0 评论 -
图神经网络GNN预训练技术进展概述
机器学习的成功很大程度上取决于数据。但是,高质量的标记数据通常很昂贵且难以获得,尤其是对于训练参数较多的模型。而我们却可以很容易地获取大量的无标记数据,其数量可能是标记数据的数千倍。为了解决标注数据较少的问题,我们要尽可能利用其无标注数据,一个常规的做法是自监督的预训练(self-supervised pre-training)。其目标是设计合理的自监督任务,从而使模型能从无标注数据里学得数据的信息,作为初始化迁移到下游任务中。由于目标任务中很多的知识已经在预训练中学到,因此通过预训练,我们只需要非常少.原创 2022-01-16 21:58:14 · 231 阅读 · 0 评论 -
句法分析前沿动态综述
句法分析的目标是分析输入句子并得到其句法结构,是自然语言处理领域的经典任务之一。目前针对该任务的研究主要集中于如何通过从数据中自动学习来提升句法分析器的精度。该文对句法分析方向的前沿动态进行了调研,分别从有监督句法分析、无监督句法分析和跨领域跨语言句法分析三个子方向梳理和介绍了2018—2019年发表的新方法和新发现,并对句法分析子方向的研究前景进行了分析和展望。http://jcip.cipsc.org.cn/CN/abstract/abstract2996.shtml...原创 2022-01-17 10:28:44 · 125 阅读 · 0 评论 -
BERT遇上知识图谱:预训练模型与知识图谱相结合的研究进展
转载自AI科技评论随着BERT等预训练模型横空出世,NLP方向迎来了一波革命,预训练模型在各类任务上均取得了惊人的成绩。随着各类预训练任务层出不穷,也有部分研究者考虑如何在BERT这一类模型中引入或者强化知识图谱中包含的信息,进而增强BERT对背景知识或常识信息的编码能力。本文主要关注于如何在BERT中引入知识图谱中信息,并survey了目前已公布的若干种方法,欢迎大家批评和交流。1、《ERNIE: Enhanced Language Representation with Informative E.原创 2022-01-18 16:48:15 · 1392 阅读 · 0 评论 -
CCKS2019总结
CCKS2019评测总体情况介绍知识图谱(KnowledgeGraph)以概念、实体及其关系的方式建模世界知识,提供了一种更好地描述、组织、管理和理解信息的能力。近年来,由于其有效性,知识图谱被应用于越来越多的应用场景中,解决各种各样的问题。知识图谱应用具有一个完备的技术体系。在将知识图谱应用于解决实际任务的过程中,往往需要应用到多种知识图谱相关的技术。在上述过程中,了解知识图谱的各种相关技术,评估当前技术的性能水平,了解不同技术的优缺点,参考可行的改进和发展方向,对知识图谱的成功应用至关重要。CCK原创 2022-01-18 17:05:31 · 3110 阅读 · 0 评论 -
基于预训练语言模型的检索- 匹配式知识图谱问答系统
基于预训练语言模型的检索- 匹配式知识图谱问答系统张鸿志 , 李如寐,王思睿,黄江华美团, 北京市朝阳区 100020{zhanghongzhi03,lirumei,wangsirui,huangjianghua}@http://meituan.comAbstract. 本文介绍了我们在 CCKS -2020 的 KBQA 任务上的技术方案。 该 系统包括指称识别、实体链接、候选答案生成以及答案排序四个子模块。 在指称识别中,为使识别到的实体指称更容易地被链接到图谱上 , 提出了 匹配-判别式指称识原创 2022-01-18 17:12:07 · 1862 阅读 · 0 评论 -
多模态预训练模型概述 DeepMind
多模态预训练模型概述 DeepMind原创 2022-01-17 10:16:31 · 828 阅读 · 0 评论 -
eBay开源分布式知识图谱存储Beam,支持类SPARQL查询
Beam 是一种分布式知识图谱存储,以 Apache 2.0 开源许可发布。Beam 历经四人年(person-year)的工程探索和开发,提供了大量值得关注的新特性!此博客文章将介绍 Beam 及其实现,并阐述我们选择开源 Beam 的原因。Beam 实现了分布式知识图谱存储Beam 是一种知识图谱存储,也可称为 RDF 存储或三元组存储。知识图谱适合建模世界知识百科这样通过复杂关系高度互联的数据。例如,Wikidata 是一种以结构化数据和关系表示维基百科的数据集,非常适合于知识图谱表示。知识图谱.原创 2022-01-17 10:55:32 · 188 阅读 · 0 评论 -
基于特征融合的中文知识库问答方法
基于特征融合的中文知识库问答方法汪洲 侯依宁 汪美玲 李长亮 *AI Lab, KingSoft Corp, Beijing, China{wangzhou1, houyining, wangmeiling1, lichangliang }@http://kingsoft.comAbstract. 知识库问答即 KBQA 是自然语言处理领域的热点、难点问题。 本文提出一种基于特征融合的中文知识库问答方法。此方法的 pipeline 主 要由 mention 识别、实体链接、问句分类、路径生成、路径排原创 2022-01-18 17:13:05 · 653 阅读 · 0 评论 -
知识图谱划分算法研究综述
知识图谱是人工智能的重要基石,因其包含丰富的图结构和属性信息而受到广泛关注.知识图谱可以精确语义描述 现实世界中的各种实体及其联系,其中顶点表示实体,边表示实体间的联系.知识图谱划分是大规模知识图谱分布式处理的 首要工作,对知识图谱分布式存储、查询、推理和挖掘起基础支撑作用.随着知识图谱数据规模及分布式处理需求的不断增 长,如何对其进行划分已成为目前知识图谱研究热点问题.从知识图谱和图划分的定义出发,系统性地介绍当前知识图谱数 据划分的各类算法,包括基本、多级、流式、分布式和其他类型图划分算法.首先,介绍.原创 2022-01-17 10:59:14 · 951 阅读 · 0 评论 -
知识图谱融合方法
转载自南京大学胡伟老师知识图谱以结构化的方式描述客观世界中的概念、实体及其间的关系,将万维网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解万维网上海量信息的能力。知识图谱可以由任何机构和个人自由构建,其背后的数据来源广泛、质量参差不齐,导致它们之间存在多样性和异构性。例如,对于相似领域,通常会存在多个不同的概念或实体指称真实世界中的相同事物。本报告首先简要介绍了语义网、知识图谱及知识图谱融合问题,然后介绍了面向知识图谱模式层的本体匹配方法,接下来介绍了面向知识图谱实例层的实体对齐原创 2022-01-18 16:49:13 · 1066 阅读 · 0 评论 -
多模态预训练模型简述
1.介绍让机器能以人类智能相似的方式作出反应一直是人工智能研究人员的目标。为了让机器能听会说、能看会认、能理解会思考, 研究者提出一系列相关任务,如人脸识别、语音合成、阅读理解等来训练及评价机器在某一方面的智能程度。具体来说是,领域专家人工构造标准数据集,然后在其上训练及评价相关模型及方法。但由于相关技术的限制,要想获得效果更好、能力更强的模型,往往需要在大量的有标注的数据上进行训练。近期预训练模型的出现在一定程度上缓解了这个问题。预训练模型的解决思路是,既然昂贵的人工标注难以获得,那么就去寻找廉价或者原创 2022-01-18 16:51:18 · 582 阅读 · 0 评论 -
多模态视觉语言表征学习研究综述
我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.该文章主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.目前比较好的思路和解决方案是将视觉特征语义化然后与文本特征通过一个强大的特征抽取器产生出表征,其中Transformer[1]作为主要的特征抽取器被应用表征学习的各类任务中.文章分别从.原创 2022-01-17 10:25:04 · 615 阅读 · 0 评论 -
注意力机制综述
现在注意力机制已广泛地应用在深度学习的诸多领域。基于注意力机制的结构模型不仅能够记录信息间的位置关系,还能依据信息的权重去度量不同信息特征的重要性。通过对信息特征进行相关与不相关的抉择建立动态权重参数,以加强关键信息弱化无用信息,从而提高深度学习算法效率同时也改进了传统深度学习的一些缺陷。因此从图像处理领域、自然语言处理、数据预测等不同应用方面介绍了一些与注意力机制结合的算法结构,并对近几年大火的基于注意力机制的transformer和reformer算法进行了综述。鉴于注意力机制的重要性,综述了注意力机.原创 2022-01-17 10:25:45 · 873 阅读 · 1 评论 -
任务型对话系统研究综述
【摘要】 人机对话技术作为人工智能领域的重要研究内容,它是人与机器的一种新型交互方式,受到学术界和工业界的广泛关注。近些年来,得益于深度学习技术在自然语言领域的突破性进展,极大地促进了人机对话技术的发展。将深度学习融入人机对话系统技术中,不但使得端到端的方法成为可能,而且提取出的特征向量非常有效几乎完全取代了人工特征。本文首先回顾了人机对话系统的发展历程,介绍了人机对话系统的两种类型,任务型对话系统和非任务型对话系统。其次,本文从理论模型、研究进展、可用性及存在的问题与挑战等角度深度剖析了任务型对话系统的两原创 2022-01-17 10:27:59 · 355 阅读 · 0 评论 -
微信翻译应用与研究
微信翻译应用与研究1. 微信翻译及典型应用场景微信翻译典型应用场景–聊天、朋友圈:聊天、朋友圈、朋友圈评论l 文本长按翻译l 图片长按翻译目标语言默认为系统设置语言微信翻译典型应用场景–扫一扫、网页:微信翻译典型应用场景–QQ音乐歌词:2. 机器翻译与微信翻译模型机器翻译发展历史:规则 --> 统计 --> 神经网络神经机器翻译:业务特点:l 多语言、多领域、语言混杂Query、表达不规范Queryn 这几天天阴雨天n 不是一个level总想和我batt原创 2022-01-20 14:25:01 · 631 阅读 · 0 评论 -
AI技术在词典笔上的应用实践
本文包括以下几个内容1.扫描和点查2.离线翻译3.高性能端侧机器学习计算库EMLL(Edge ML Library)扫描和点查扫描识别扫描识别和常见的字符识别场景不一样一秒钟100张图像算法需要从快速从拍摄的图像中提取文字全景拼接拼接效果对识别影响很大全景拼接像素级检测:对每个像素位置进行文字和背景分类中心组行:基于分类结果和位置信息,将扫描的中心文字连接并组合成行矫正切行:将文本行从复杂的背景中切分出来复杂的应用场景• 特殊字体,形近字,背景都会干扰识别检测模块+转载 2022-09-02 18:11:49 · 1152 阅读 · 0 评论 -
【比赛获奖方案开源】中文短文本实体链指比赛技术创新奖方案开源
【导读】人工智能相关比赛的获奖方案,无一不是在某一具体问题上拥有独到的理解和踏实的实现的。每次小编阅读比赛获奖方案,都能明显感受到我与强者的距离。这次为大家带来获奖方案来自2019「全国知识图谱与语义计算大会-中文短文本实体链指」。【任务介绍】实体链指(Entity Linking)是NLP领域的基础的任务,一般与实体识别(Entity Recognition)深度绑定在一起。一般的Pipline为:对于一个给定的文本,先用ER识别出其中的实体,然后再用EL将该实体与给定知识库中的对应实体进行关联。以原创 2022-01-19 14:31:47 · 10382 阅读 · 0 评论 -
5G+智能时代的多模搜索技术
导读:2010 年随着 iphone4 的发布,智能手机被广泛使用,从大学生到老人小孩,移动互联网的发展如火如荼。近两年,5G 技术让下载速度变得越来越快,相较于传统的文本搜索技术,语音搜索和图片搜索等新型搜索方式出现在越来越多的产品形态当中。今天的内容主要分为 4 个部分来介绍多模搜索技术:多模搜索:始于移动,繁荣 5G+智能时代语音搜索:听清+听懂+满足视觉搜索:所见即所得“破圈”:无限可能01多模搜索:始于移动,繁荣 5G+智能时代多模搜索的概念多模搜索包括视觉搜索和语音搜索两种形式。原创 2022-01-20 11:50:42 · 605 阅读 · 0 评论 -
VECO:对于语言的理解和生成的灵活多变跨语言模型的预训练
VECO:对于语言的理解和生成的灵活多变跨语言模型的预训练本文包括1.为什么提出VECO2.怎么训练VECO3.VECO的结果4.结论为什么提出VECO跨语言训练的背景从预训练任务的角度VECO预训练的任务我们建议将交叉注意模块(query!=key/value)插入Transformer编码器和设计一个交叉注意的MLM任务,“明确地”捕捉语言之间的相互依赖。背景:预训练的跨语言模型从模型体系结构的角度看:VECO微调:灵活的NLU和NLG任务怎样去训练VECOenco原创 2022-01-20 14:10:26 · 592 阅读 · 0 评论 -
序列数据的数据增强方法综述
为了追求精度,深度学习模型框架的结构越来越复杂,网络越来越深。参数量的增加意味着训练模型需要更多的数据。然而人工标注数据的成本是高昂的,且受客观原因所限,实际应用时可能难以获得特定领域的数据,数据不足问题非常常见。数据增强通过人为地生成新的数据增加数据量来缓解这一问题。数据增强方法在计算机视觉领域大放异彩,让人们开始关注类似方法能否应用在序列数据上。除了翻转、裁剪等在时间域进行增强的方法外,也描述了在频率域实现数据增强的方法;除了人们基于经验或知识而设计的方法以外,对一系列基于GAN的通过机器学习模型自动生原创 2022-01-19 14:29:02 · 1112 阅读 · 0 评论 -
语音翻译企业应用和研究
本文包括语音翻译概述语音翻译建模方法更优的端到端模型更优的端到端训练策略语音翻译(ST)语音翻译问题和动机语音翻译在字节的应用语音翻译问题将源语言的音频 (speech / audio) 翻译成目标语言的文本 (text)语音翻译动机打破语言障碍,促进人与人之间的沟通与交流、推动文化信息的传播。让翻译更简单视频会议自动字幕和实时翻译 (促进跨国沟通与协作)视频自动字幕 (帮助用户理解外语视频)AR智能翻译眼镜 (会议实时字幕、面对面翻译、拍照识别翻译)建模语音翻译原创 2022-01-20 14:06:41 · 543 阅读 · 0 评论 -
从技术到体验:机器翻译产品落地实践
课程目标:1.聊聊翻译能力落地时需要考虑的方方面面2.如何根据业务需求定制一个翻译模型3.谈谈一些快速提升翻译质量的小技巧为什么要做机器翻译?日常人们如何使用翻译?手机上的翻译产品形态:机器翻译如何落地?目录:做算法前先了解你的业务算法不仅是NMT模型数据决定了翻译效果的上限科学评测指引优化方向工程工作同样很重要做算法前先了解你的业务核心人群:高频场景分析:需要的翻译技术类型:算法不仅是NMT模型总体流程:语种检测:中英文分词:原创 2022-01-20 14:02:16 · 356 阅读 · 0 评论 -
语义解析KBQA和NL2SQL技术讲座PPT
本PPT主要讲解知识图谱问答和自然语言转结构化查询语言技术路线和经典论文原创 2022-01-18 17:17:32 · 426 阅读 · 0 评论 -
阿里飞猪搜索技术的应用与创新
导读:旅行场景的搜索起初是为了满足用户某种特定的强需求而出现的,如机票、火车票、酒店等搜索。这些需求有着各自不同的特点,传统的旅行搜索往往会对不同业务进行定制化搜索策略。随着人工智能技术的不断发展,用户对产品的易用性提出了更高的要求。旅行场景的搜索逐渐发展为一个拥有旅行定制搜索策略的全文检索引擎。本文将为大家介绍阿里飞猪在旅行场景下搜索技术的应用与创新,主要内容包括:猪搜背景基础建设召回策略思考总结01猪搜背景飞猪搜索飞猪搜索业务分为两大部分:一是全局搜索,二是行业小搜。右边飞猪界面的全局搜原创 2022-01-20 11:54:41 · 382 阅读 · 0 评论 -
深度学习命名实体识别综述
命名实体识别(NAR)是从人、位置、组织等预定义语义类型的文本中识别刚性标识符的任务。NER一直是许多自然语言应用的基础,如问答、文本摘要和机器翻译等。早期的NER系统在设计特定领域的特征和规则时付出了人力工程的代价,在取得良好性能方面取得了巨大的成功。近年来,深度学习通过连续的实值向量表示和通过非线性处理的语义合成,被应用于NER系统中,产生了最先进的性能。本文对现有的深度学习技术进行了全面的综述。我们首先介绍了NER资源,包括标记的NER语料库和现成的NER工具.然后,我们根据三个轴对现有作品进行了系统原创 2022-01-20 14:25:46 · 616 阅读 · 0 评论 -
北航《深度学习事件抽取》文献综述和当前趋势
基于模式的事件提取是及时理解事件本质内容的关键技术。随着深度学习技术的快速发展,基于深度学习的事件提取技术成为研究热点。文献中提出了大量的方法、数据集和评价指标,因此需要进行全面和更新的调研。本文通过回顾最新的方法填补了这一空白,重点关注基于深度学习的模型。我们总结了基于模式的事件提取的任务定义、范式和模型,然后详细讨论每一个。我们引入了支持预测和评估指标测试的基准数据集。本综述还提供了不同技术之间的综合比较。最后,总结了今后的研究方向。引言事件抽取(EE)是信息抽取研究中的一个重要而富有挑战性的课题。原创 2022-01-19 14:30:07 · 362 阅读 · 0 评论 -
京东搜索在线学习探索实践
导读:随着京东零售搜索业务的快速发展,对数据的时效性要求越来越高,要求搜索模型有捕捉更实时信号的能力,在线学习体现了业务对模型时效性的追求, 希望能根据在线系统反馈的数据实时得对模型进行调整,使得模型能快速反应环境的变化,提高在线预估的准确率。01背景目前传统模型的实时训练(如 FTRL 等)无法支持深度模型,这些模型预估的准确率较低,比较适合一些简单的场景;第二种是类似增量训练的一种方式,可支持深度模型预估,这种方式以尽可能短的周期进行模型训练和迭代上线,是一种类实时的更新方式;第三种是以实时更新方式原创 2022-01-19 14:41:49 · 170 阅读 · 0 评论