
NLP应用
CopperDong
纯属巧合
展开
-
比Python快100倍,利用Cython实现高速NLP项目
原文https://juejin.im/post/5b4c3a6de51d4519044a6765选自Medium,作者:Thomas Wolf,机器之心编译。Cython 是一个工具包,可以使你在 Python 中编译 C 语言,这就是为什么 numpy 和 pandas 很快的原因,Cython 就是 Python 的超集。在本文中,作者将为我们介绍他的 GitHub 项目 Neur...转载 2020-04-29 09:09:19 · 334 阅读 · 0 评论 -
NLP项目汇总
https://github.com/chilynn/sequence-labelingA HMM-like linear-chain CRF, used Tensorflow API.????https://github.com/shawntan/python-crfhttps://github.com/createmomo/CRF-Layer-on-the-Top-of-BiLSTM...原创 2019-10-30 14:11:33 · 760 阅读 · 0 评论 -
Dialog System github项目汇总
https://github.com/kashyapakshay/RLDialogueAgenthttps://github.com/shivanipoddariiith/DialogueAgentRLhttps://github.com/NLPLearn/QANetRASAhttps://github.com/RasaHQ/rasa原创 2019-09-02 09:24:19 · 268 阅读 · 0 评论 -
如何从头开始用rasa根据自己的任务设计一个任务型对话机器人
原文以订电影票为例子。我们首先要列出所有intent的名称,rasa的intent的粒度较细,任何用户输入都可以被看做一个intent。因此我们需要枚举出在一个场景下所有可能的用户输入的意图。如我要订电影票的intent是订电影票,我要看钢铁侠的intent是报告电影名,我要两张票的intent是报告票数用户输入 ...转载 2019-08-21 16:59:28 · 870 阅读 · 2 评论 -
Rasa_NLU_Chi
原文Rasa NLU是一个开源的、可本地部署并配套有语料标注工具(rasa-nlu-trainer)的自然语言理解框架。其本身是只支持英文和德文,中文因为其特殊性需要加入特定的 tokenizer 作为整个流水线的一部分,Rasa_NLU_Chi作为 Rasa_NLU 的一个 fork 版本,加入了 jieba 作为中文的 tokenizer,实现了中文支持。本篇即简单介绍基于 Ras...转载 2019-07-22 10:31:59 · 3310 阅读 · 1 评论 -
Hands-Natural-language-processing-python 1: NLTK
基本用法:>>> from nltk.tokenize import word_tokenize as wtoken>>> wtoken(samples_tw[20])>>> from nltk.stem import PorterStemmer>>> stemming = PorterStemmer()>...原创 2018-12-12 20:30:11 · 311 阅读 · 0 评论 -
基于依存句法分析的开放式中文实体关系抽取
这一段时间一直在做知识图谱,卡在实体关系抽取这里几个月了,在github上面看到有人使用卷积神经网络训练模型进行抽取,自己也尝试了一下,但是一直苦于没有像样数据去训练,而标注训练集又太费时间了,我不太愿意干体力活。所以采用了一个低档次的方法,基于依存句法分析的实体关系抽取,记录一下心得,方便日后忘记可以再找回来。 本方法参考了github上面的项目和一篇论文,在文章末尾给出,使用的分词...转载 2018-07-23 18:42:40 · 3986 阅读 · 1 评论 -
《中文文本信息抽取模型与方法研究》1:绪论
本书依据所处理的文本对象的不同将文本信息抽取分为两类:一类是半结构化文本信息抽取,所处理的文本句法结果不完整,具有明显的版面结构和一些特定的标识信息,通常从这类文本中抽取连续的信息域。例如从科研论文中抽取头部信息和引文信息。另一类是自由文本信息抽取,所处理的文本自然语言形式的语句组成,具有完整的句法结构,主要研究从这类文本中抽取特定类型的事件信息,称为文本事件信息抽取。例如从新闻报道中...原创 2018-07-24 15:10:47 · 3196 阅读 · 0 评论 -
《中文文本信息抽取模型与方法研究》2:基于CRF的半结构化文本信息抽取
半结构化文本数据一般不具有完整的句法结构,但具有明显的版面布局结构和特定的标签信息。常见的这类文本有科研论文的头部信息和引文信息、学术报告公告、个人简历、招聘信息、产品参数信息等。 从科研论文的头部信息和引文信息为例分析了半结构化文本的特征,针对HMM不能充分利用对抽取有用的上下文特征,提出了一种基于CRF的方法。在抽取信息时先利用分隔符、特定标识符等格式信息对文...原创 2018-07-24 16:00:19 · 2227 阅读 · 0 评论 -
《中文文本信息抽取模型与方法研究》3:事件抽取模式的自动获取
传统的信息抽取系统大多是基于模式匹配的,因此,如何自动获取抽取模式就成为信息抽取中的一个核心问题。本章提出了一种从未标注的中文文本中基于自扩展策略自动获取时间抽取模式的算法,该算法从少数几个种子抽取模式开始,通过一个增量迭代的过程发现新模式,每一轮迭代从三个层次对抽取模式进行扩展,然后采用类似于TF/IDF的评估方法对产生的候选模式进行评估,选择得分最高的几个模式并入到当前模式集。 ...原创 2018-07-24 17:40:16 · 3974 阅读 · 1 评论 -
《中文文本信息抽取模型与方法研究》4:特定类型事件的探测与分类
事件探测和分类是基于触发词探测的事件信息抽取中的首要任务,对事件信息抽取的后继任务至关重要。一种基于最大熵模型的事件分类方法,该方法能够综合事件表述语句中的触发词信息及各类上下文特征对事件进行分类。 确定的事件类别正确与否对事件模板的选择以及究竟要抽取哪些事件要素来填充模板至关重要。 本章所提出的基于最大熵的事件分类方法和一般的基于最大熵的文本分类方法也是不...原创 2018-07-24 18:49:35 · 1026 阅读 · 0 评论 -
《中文文本信息抽取模型与方法研究》5:基于论元结构的事件要素及其角色识别
论元结构是沟通认知与句法结构的桥梁,是语义和句法的接口,在现代句法学和语义学研究中有着相当重要的地位,对于确定句子含义和进行文本理解意义重大。利用CRF来识别事件要素及其角色的方法。 语义分析旨在让计算机能够根据句子的句法结构和句子中每个实词的词义推到出这个句子的意义。对中文文本事件信息抽取中的事件要素及其语义角色的识别这一具体问题来说,就是要分析事件表述语句中的触...原创 2018-07-24 20:25:42 · 1521 阅读 · 0 评论 -
句法依存关系抽取
用的句法依存,然后手动滑稽的进行分类映射~可以参考GitHub - Mrlyk423/Relation_Extraction: Knowledge Base EmbeddingGitHub - bishanyang/EventEntityExtractor: Joint event and entity extractorGitHub - yifange/event_extractionGitH...转载 2018-07-28 10:14:19 · 3388 阅读 · 0 评论 -
怎么利用知识图谱构建智能问答系统?
原文转载自:https://www.zhihu.com/question/30789770/answer/116138035 知识库问答要解决的问题是计算机能够利用知识库中的知识对人们输入的自然语言问句给出答案,例如:“奥巴马的夫人是谁?”->“米歇尔.拉沃恩.奥巴马”。具体方法可以参考论文中是如何实现的:目前学术界采用的方法大致可以分成三大类: 基于信息提取(In...转载 2018-09-04 11:24:17 · 807 阅读 · 0 评论 -
让人工智能解数学题,可能没你想象的那么简单
约1500年前的古代数学著作《孙子算经》中记载了一个有趣的问题:“今有雉兔同笼,上有三十五头,下有九十四足,问雉兔各几何?”这就是今人所谓的鸡兔同笼问题。如今这个问题小学生们解决起来可能都轻而易举,但对于人工智能而言可能并非如此。在人工智能火热的今天,我们想聊聊如何让计算机具备解此类问题的能力——即数学解题。智能答题任务如果说一套系统就能解决所有问题的“通用人工智能”离人们的生活还很遥远,...转载 2018-07-23 16:38:54 · 1686 阅读 · 0 评论