
文本挖掘
文章平均质量分 92
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
###好好好####知识图谱如何应用到文本标签化算法中
前言丁香园和丁香医生业务中存在着大量的文章,帖子,公开问题等文本数据,采用简单的分词或者词典匹配的方法得到的关键词,在推荐和搜索场景中容易遇到准确性低下的情况。文本的标签生成是NLP领域的一项基础任务,目的是对文本更好地结构化,筛选重要的关键词,概括文本的中心语义。因此,我们探索了一套标签生成流程,其中除了应用了已有的信息抽取技术之外,还将医疗知识图谱结构,实体显著性判断,concept抽取融入模型,实现业务增长。关于标签生成,优化的方法大致有两种思路,第一种是在拥有一个较为完备的知识图谱后,如何使转载 2021-04-08 14:39:50 · 778 阅读 · 0 评论 -
基于BERT的超长文本分类模型
基于BERT的超长文本分类模型0.Abstract 1.任务介绍 数据集 评估方法 测试集 2.数据初步处理 3.Baseline模型 4. 数据进一步处理 分割文本 4.最终模型 第一部分: BERT 第二部分: LSTM + FC 最终效果和一些小节 5. 进一步拓展: BERT + Transformer0.Abstract本文实.转载 2020-10-29 16:38:53 · 7932 阅读 · 5 评论 -
sentencepiece原理与实践
1 前言前段时间在看到XLNET,Transformer-XL等预训练模式时,看到源代码都用到sentencepiece模型,当时不清楚。经过这段时间实践和应用,觉得这个方法和工具值得NLP领域推广和应用。今天就分享下sentencepiece原理以及实践效果。2 原理sentencepiece由谷歌将一些词-语言模型相关的论文进行复现,开发了一个开源工具——训练自己领域的sentencepiece模型,该模型可以代替预训练模型(BERT,XLNET)中词表的作用。开源代码地址为:https:/原创 2020-10-28 10:05:43 · 6059 阅读 · 2 评论 -
端到端问答新突破:百度提出RocketQA,登顶MSMARCO榜首
开放域问答(Open-domain QA)一直是自然语言处理领域的重要研究课题。百度从面向端到端问答的检索模型出发,提出了RocketQA训练方法,大幅提升了对偶式检索模型的效果,为实现端到端问答迈出了重要的一步。RocketQA已逐步应用在百度搜索、广告等核心业务中,并将在更多场景中发挥作用。近日,百度提出了面向端到端问答的检索模型训练方法 RocketQA,该方法针对模型训练中存在的问题,通过跨批次负采样(cross-batch negatives)、去噪的强负例采样(denoised hard n转载 2020-10-23 14:51:08 · 219 阅读 · 0 评论 -
【比赛分享】刷新CoQA榜单纪录:基于对抗训练和知识蒸馏的机器阅读理解方案解析
本文首发于机器之心微信公众号,专栏留存。近日,在由斯坦福大学发起的对话式问答挑战赛 CoQA (Conversational Question Answering Challenge)中,追一科技AI Lab团队超越微软团队成为榜单第一[1],刷新了之前微软等团队创造的CoQA纪录。值得注意的是,团队提交的技术方案中,单模型的各项指标表现首次全面超越人类。CoQA Leaderboard一直以来,机器阅读理解都是自然语言处理界最受关注、进步最快的技术方向之一,主要有两大比赛较受瞩目,分别转载 2020-09-30 09:33:12 · 586 阅读 · 0 评论 -
论文笔记--Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification (V-Net)
First published on indexfziq.github.io at 2019-03-08 14:00:00Introduction本文出自Baidu NLP Research,在MS MARCO的V1版本上是第二;V2版本上QA任务是第三,well-formed任务是第二。代码没公开,基本的思想就是提出两个辅助任务,辅助抽取更好的答案片段。Motivation这篇文章的动机很直接,文章对数据进行分析,提出一种假设:正确的答案往往在10个摘要中出现频率高,且具有很大的相似性;然转载 2020-09-25 09:03:21 · 374 阅读 · 0 评论 -
#####haohaohaohao#######MSRA提出通用文档预训练模型LayoutLM,通往文档智能之路!
星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术随着数字化进程的加快,文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于生产力的提升至关重要。以商业文档为例,不仅包含了公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和数字信息。人工提取这些信息既耗时费力且精度低,而且可复用性也不高,因此,文档智能技术(Document Intelligence)应运而生。文档智能技术深层次地结合了人工智能和人类智能,在金融、医疗、保险、转载 2020-08-25 16:34:41 · 901 阅读 · 0 评论 -
LayoutLM——文本与布局的预训练用于文档图像理解
摘要: 预训练技术近年来在多种NPL任务中取得了广泛的成功。尽管广泛的NPL应用的预训练模型,其大多聚焦于文本级别的操作,而忽略了布局与风格信息,这对文档图像的理解至关重要。该篇论文提出了LayoutLM来联合建模扫描文档图像的文本与布局信息关系,这将有益于真实世界中大量的图像理解任务,如文档图像的信息提取。此外,可以利用图像特征合并文字的视觉信息到LayoutLM中。这是第一次在单独的文档级预训练结构将文字与布局联合学习。其在一些下游任务中达到了新的高水平结果,包括表格理解,收据理解,文档图像分类。代码与转载 2020-08-25 16:03:39 · 8378 阅读 · 0 评论 -
####haohaohao####微软发布通用文档理解预训练模型LayoutLM
编者按:近年大热的机器人流程自动化(Robotic Process Automation, RPA)利用 AI 技术将人们从繁杂的电子文档处理任务中解放出来,其中最关键就是自动文档分析与识别技术。面对大量无标注电子文档,现有的大规模预训练语言模型能够在预训练阶段有效捕捉文本中蕴含的语义信息,但忽视了文档中的视觉结构信息。微软亚洲研究院近日发布了结合文档结构信息和视觉信息的通用文档预训练模型 LayoutLM,在表单理解、票据理解、文档图像分类等任务的测试中均取得了目前的最佳成绩,模型、代码和论文都已开放下载转载 2020-08-25 15:40:17 · 513 阅读 · 0 评论 -
#####haohaohao#####BERT实战多标签标注模型(附github源码)
摘要:之前广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码),我们通过BERT构建了二分类器。这里根据实际项目需要使用BERT构建多标签标注模型,可通过一个模型识别多类标签,极大提升建模效率。实际项目中会根据业务需要同时使用二分类器和多标签标注模型完成文本识别任务。通过本篇学习,小伙伴们可以使用BERT模型来解决多标签标注任务。对数据挖掘、数据分析和自然语言处理感兴趣的小伙伴可以多多关注。目录01 多标签标注任务背景介绍02 多...转载 2020-08-04 09:46:55 · 1055 阅读 · 1 评论 -
###好好好好###HMM、CRF、MEMM区别
隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。HMM首先出现,MEMM其次,CRF最后。三个算法主要思想如下:1)HMM模型是对转移概率和表现概率直接建模,统计共现概率,...转载 2019-08-29 11:09:29 · 740 阅读 · 0 评论 -
利用深度学习病历分析前沿进展
邓侃博士又一力作,看深度学习如何让电子病历分析取得突破:Word2Vec、AutoEncoder让文字转换为张量,有助于更精准的预测;医学知识图谱,让我们能够清晰、量化地定义疾病表型;将图像也编码成张量,构建统一的患者画像,完整表达病情描述,实现临床导航和发病预测……曾经是冷门中的冷门,正在迎来一个又一个的进展。 2018年1月,谷歌头号技术大神 Jeff Dean,携手谷歌大脑项目组 30 ...转载 2018-10-01 22:31:29 · 1802 阅读 · 0 评论 -
谷歌传奇人物 Jeff Dean 联手顶级医学院,发表首篇电子病历 AI 论文
谷歌在ArXiv上公开了一篇论文,也很可能是谷歌使用深度学习模型在电子病历建模分析方面的首篇文章。这篇论文由“编译器从不警告Jeff,Jeff会警告编译器”的谷歌大脑高级研究员Jeff Dean率队,联合了UCSF、Stanford、UChicago等知名机构的众多大牛。论文地址:https://arxiv.org/pdf/1801.07860.pdf在这篇文章里,Google选择了U...转载 2018-10-01 22:29:28 · 3177 阅读 · 0 评论 -
word2vec 中的数学原理详解 基于 Negative Sampling 的模型 ##有监督还是无监督问题解答?
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。...转载 2018-06-29 17:13:47 · 1910 阅读 · 0 评论 -
神经网络结构在命名实体识别(NER)中的应用
近年来,基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展。作为NLP领域的基础任务—命名实体识别(Named Entity Recognition,NER)也不例外,神经网络结构在NER中也取得了不错的效果。最近,我也阅读学习了一系列使用神经网络结构进行NER的相关论文,在此进行一下总结,和大家一起分享学习。1 引言 命名实体识别(Named Entity Recognitio...转载 2018-06-25 14:43:03 · 841 阅读 · 0 评论 -
Chatbot中的填槽(Slot Filling)
以下内容是学习了@我偏笑发布在公众号hanniman文章后,加上自己观点重新输出配图的文章原文链接:http://t.cn/RE0FkgD跳槽,吐槽,匹诺曹都听过,这个填槽,emmmm,黑人问号脸???写到这吐槽下,本来只是想写下填槽的过程,后来发现这东西不理解chatbot的对话系统的话,没法讲,看的人很容易一头雾水。还是先简单讲下对话系统,然后再细讲填槽。所以不知道填槽是啥往下没事,先往下看。...转载 2018-06-21 13:57:57 · 12305 阅读 · 5 评论 -
机器学习保险行业问答开放数据集资料汇总
机器学习保险行业问答开放数据集: 2. 使用案例9条回复在上一篇文章中,介绍了数据集的设计,该语料可以用于研究和学习,从规模和质量上,是目前中文问答语料中,保险行业垂直领域最优秀的语料,关于该语料制作过程可以通过语料主页了解,本篇的主要内容是使用该语料实现一个简单的问答模型,并且给出准确度和损失函数作为数据集的Baseline。DeepQA-1为了展示如何使用该语料训练模型和评测算法,我做了一个示...转载 2018-06-21 13:32:11 · 3392 阅读 · 0 评论 -
QA问答系统中的深度学习技术实现
应用场景智能问答机器人火得不行,开始研究深度学习在NLP领域的应用已经有一段时间,最近在用深度学习模型直接进行QA系统的问答匹配。主流的还是CNN和LSTM,在网上没有找到特别合适的可用的代码,自己先写了一个CNN的(theano),效果还行,跟论文中的结论是吻合的。目前已经应用到了我们的产品上。原理参看《Applying Deep Learning To Answer Selection: A ...转载 2018-06-06 16:49:16 · 1623 阅读 · 0 评论 -
DL4NLP —— seq2seq+attention机制的应用:文档自动摘要(Automatic Text Summarization)
两周以前读了些文档自动摘要的论文,并针对其中两篇( [2] 和 [3] )做了presentation。下面把相关内容简单整理一下。 文本自动摘要(Automatic Text Summarization)就是说在不改变文档原意的情况下,利用计算机程序自动地总结出文档的主要内容。自动摘要的应用场景非常多,例如新闻标题生成、科技文献摘要生成、搜索结果片段(snippets)生成、商品评论摘...转载 2018-06-06 15:20:33 · 3566 阅读 · 1 评论 -
#####@@@#好好好好#####最全知识图谱介绍:关键技术、开放数据集、应用案例汇总
1 知识图谱构建技术本节首先给出知识图谱的技术地图,然后介绍知识图谱构建的关键技术,包括关系抽取技术、知识融合技术、实体链接技术和知识推理技术。1.1 知识图谱技术地图构建知识图谱的主要目的是获取大量的、让计算机可读的知识。在互联网飞速发展的今天,知识大量存在于非结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中。为了阐述如何构建知识图谱,本文给出了构建知识图谱的技术地图,该技术...转载 2018-06-06 01:38:01 · 2455 阅读 · 0 评论 -
[NLP] MXnet与TensorFlow的自然语言处理应用
Introduction of NLP自然语言处理(英语:Natural Language Processing,简称NLP)是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言,而自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。(from Wikipedia)自然语言处理的主要范畴...转载 2018-06-05 16:42:37 · 652 阅读 · 0 评论 -
Spark 2.1.0 入门:特征抽取–Word2Vec(Python版)
Word2Vec 是一种著名的 词嵌入(Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量(Distributed Representation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画每个单词的语义。如果词的语义相近,它们的词向量在向量空间中也相互接近,这使得词语的向量化建模更加精确,可以改善现有方法并提高鲁棒性。词向量已被证明在许多自然语言...转载 2018-06-05 16:15:59 · 1086 阅读 · 0 评论 -
####好好好#####word2vec前世今生
word2vec前世今生2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2...转载 2018-06-04 00:23:20 · 314 阅读 · 0 评论 -
######好好好好######NLP现代情感分析方法
情感分析(Sentiment analysis)是自然语言处理(NLP)方法中常见的应用,尤其是以提炼文本情绪内容为目的的分类。利用情感分析这样的方法,可以通过情感评分对定性数据进行定量分析。虽然情感充满了主观性,但情感定量分析已经有许多实用功能,例如企业藉此了解用户对产品的反映,或者判别在线评论中的仇恨言论。情感分析最简单的形式就是借助包含积极和消极词的字典。每个词在情感上都有分值,通常 +1 ...转载 2018-06-03 02:24:34 · 1022 阅读 · 0 评论 -
基于LSTM搭建一个文本情感分类的深度学习模型:准确率往往有95%以上
基于情感词典的文本情感分类传统的基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟,如上图。我们首先通过学习来记忆一些基本词汇,如否定词语有“不”,积极词语有“喜欢”、“爱”,消极词语有“讨厌”、“恨”等,从而在大脑中形成一个基本的语料库。然后,我们再对输入的句子进行最直接的拆分,看看我们所记忆的词汇表中是否存在相应的词语,然后根据这个词语的类别来判断情感,比如“我喜欢数学”,“喜欢...转载 2018-06-02 08:47:40 · 9940 阅读 · 3 评论 -
Word2Vec原理解析
终于彻底搞懂word2vec是什么了………….其实很简单,理解了之后再看之前写的稀里糊涂的代码有种豁然开朗的感觉。。先转载一篇给我Word2Vec解惑的文章:http://blog.youkuaiyun.com/mylove0414/article/details/61616617 word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字...转载 2018-06-01 02:39:22 · 7832 阅读 · 1 评论 -
Tensorflow实现微博的评论情感分类模型
学习研究项目:基于微博评论的数据挖掘与情感分析Github地址:情感分类模型源码项目简介学习卷积神经网络,循环神经网络在实际环境下的应用,提升实践能力,了解深度学习在自然语言处理方面的进展cnn_for_text_classify具备较强的自动关键词提取能力,在酒店评论测试集上达到95%的准确率 采用l2正则和dropout来控制过拟合现象 4种卷积核使其能提取局部高效的短特征 lstm_for...转载 2018-06-01 02:03:31 · 2509 阅读 · 12 评论 -
基于gensim的Wiki百科中文word2vec训练
Word2Vec简介Word2Vec是词(Word)的一种表示方式。不同于one-hot vector,word2vec可以通过计算各个词之间的距离,来表示词与词之间的相似度。word2vec提取了更多的特征,它使得具有相同上下文语义的词尽可能离得近一些,而不太相关的词尽可能离得较远一些。例如,【腾讯】和【网易】两个词向量将会离得很近,同理【宝马】和【保时捷】两个词向量将会离得很近。而【腾讯】和【...转载 2018-05-30 00:07:47 · 937 阅读 · 0 评论 -
TensorFlow seq2seq解读
github链接注:1.2最新版本不兼容,用命令pip3 install tensorflow==1.0.0在translate.py文件里,是调用各种函数;在seq2seq_model.py文件里,是定义了这个model的具体输入、输出、中间参数是怎样的init,以及获取每个epoch训练数据get_batch和训练方法step。确定这些之后再考虑各种变量的shape等问题。代码结构seq2se...转载 2018-05-28 23:51:32 · 965 阅读 · 0 评论 -
浅谈Attention-based Model【原理篇】
转载请标明出处:http://blog.youkuaiyun.com/wuzqchom/article/details/75792501计划分为三个部分: 浅谈Attention-based Model【原理篇】(你在这里) 浅谈Attention-based Model【源码篇】 浅谈Attention-based Model【实践篇】0. 前言看了台大的李宏毅老师关于Attention部分的内容,这一部分...转载 2018-05-27 22:15:15 · 6255 阅读 · 0 评论 -
浅谈Attention-based Model【源码篇】
转载请标明出处:http://blog.youkuaiyun.com/wuzqchom/article/details/77918780源码不可能每一条都详尽解释,主要在一些关键步骤上加了一些注释和少许个人理解,如有不足之处,请予指正。计划分为三个部分: 浅谈Attention-based Model【原理篇】 浅谈Attention-based Model【源码篇】(你在这里) 浅谈Attention-ba...转载 2018-05-27 22:14:32 · 940 阅读 · 0 评论 -
#####好好好#####深度学习笔记——Attention Model(注意力模型)学习总结
深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。AM刚开始也确实是应用在图像领域...转载 2018-05-27 20:50:31 · 1027 阅读 · 0 评论 -
####tf官网例程####递归神经网络
介绍可以在 here。本教程的目的是重现 <a rel="nofollow" href="http://arxiv.org/abs/1409.2329" "="" style="padding: 0px; margin: 0px; background-color: transparent; color: rgb(45, 133, 202);">Zaremba et al., 2014...转载 2018-05-25 11:07:27 · 280 阅读 · 0 评论 -
Vector Representations of Words
在本教程我们来看一下tensorflow/g3doc/tutorials/word2vec/word2vec_basic.py查看到一个最简单的实现。这个基本的例子提供的代码可以完成下载一些数据,简单训练后展示结果。一旦你觉得已经完全掌握了这个简单版本,你可以查看向量空间模型 (VSMs)将词汇表达(嵌套)于一个连续的向量空间中,语义近似的词汇被映射为相邻的数据点。向量空间模型在自然语言处理领域中...转载 2018-05-25 11:04:49 · 394 阅读 · 0 评论 -
基于 Spark 的文本情感分析
IBM 公司在 2015 年对外宣告了一个新的科技和商务时代的来临—认知时代。这个巨大的转变,来自 IBM 对技术和商业领域的三个重要的洞察力[1]。第一,这个世界被数据所充斥。第二,这个世界通过代码被改造。第三,认知计算的出现。其中,认知计算可以:通过感知与互动,理解非结构化数据通过生成假设、评估、辩证、和建议来推理从专家培训、每一次互动、及持续取得数据中学习。本文描述了一个基于 Spark 构...转载 2018-05-24 17:53:24 · 5109 阅读 · 2 评论 -
Learning to Rank for IR的评价指标—MAP,NDCG,MRR
MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页...转载 2018-05-24 11:53:43 · 449 阅读 · 0 评论 -
python 结巴分词(jieba)学习
源码下载的地址:https://github.com/fxsjy/jieba演示地址:http://jiebademo.ap01.aws.af.cm/特点1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召...转载 2018-05-24 11:15:14 · 1465 阅读 · 0 评论 -
DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)
DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)原创作品, 转载请注明出处:[ Mr.Scofield http://blog.youkuaiyun.com/scotfield_msn/article/details/69075227 ]From RxNLP.Indexing:〇、序一、DeepNLP的核心关键:...转载 2018-05-20 17:09:49 · 1881 阅读 · 1 评论 -
机器翻译的流程(原理)是怎么样的?
目前最重要的两种机器翻译方式:规则法和统计法1. 规则法(rule based machine translation, RBMT),依据语言规则对文本进行分析,再借助计算机程序进行翻译。多数商用机器翻译系统采用规则法。规则法机器翻译系统的运作通过三个连续的阶段实现:分析,转换,生成,根据三个阶段的复杂性分为三级。- 直接翻译:简单的词到词的翻译。- 转换翻译:翻译过程要参考并兼顾到原文的词法、句...转载 2018-05-20 15:34:26 · 31923 阅读 · 3 评论 -
大白话讲解word2vec到底在做些什么
词向量word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。在word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder。杭州 [0,0,0,0,0,0,0,1,0,……,0,0,0,0,0,0,0]上海 [0,0,0,0,1,0,0,0,0,……,...转载 2018-05-20 13:23:48 · 939 阅读 · 0 评论