NLP
文章平均质量分 81
青萍之默
踏实好学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
中文预处理流程(以搜狐语料全网新闻数据为例)
数据集使用了搜狗实验室公开语料集-全网新闻数据(SogouCA),完整语料包含来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。其格式为:<doc><url>页面URL</url><docno>页面ID</docno><contenttitle>页面标题</contenttitle><content>页面内容</content&g原创 2021-01-22 21:40:21 · 3274 阅读 · 6 评论 -
THUCNews新闻文本分类-tfidf+sklearn2
本文使用的是和鲸社区现有数据集,代码也在和鲸社区公开,fork之后可以直接运行。本文中所用的数据集清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约74万篇文档,训练起来需要花较长的时间)。 本次训练使用了其中的体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐10个分类,每个分类6500条,总共65000条新闻数据。项目在和鲸社区的平台上跑的,数据集直接引用了和鲸的数据集,每个分类6500条,总共65000条新闻数据。数据集划分如下: cnews原创 2020-09-02 00:24:45 · 3261 阅读 · 4 评论 -
THUCNews新闻文本分类-tfidf+sklearn
本文使用的是和鲸社区现有数据集,代码也在和鲸社区公开,fork之后可以直接运行。本文中所用的数据集清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约74万篇文档,训练起来需要花较长的时间)。 本次训练使用了其中的体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐10个分类,每个分类6500条,总共65000条新闻数据。项目在和鲸社区的平台上跑的,数据集直接引用了和鲸的数据集,每个分类6500条,总共65000条新闻数据。数据集划分如下: cnews原创 2020-08-26 19:56:45 · 4479 阅读 · 0 评论 -
keras文本预处理介绍——Text
简单介绍keras文本预处理函数,主要参考keras说明文档。Tokenizer(分词器)import keras定义keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True, split=' ', char...原创 2020-05-07 21:00:44 · 534 阅读 · 0 评论 -
使用keras实现CNN模型的THUCNews新闻文本分类
使用keras简单实现了基于CNN模型的THUCNews新闻文本分类,项目是在和鲸社区实现的已经公开,需要的同学可以去fork一下。import osimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn import metricsfr...原创 2020-04-21 16:39:10 · 2542 阅读 · 5 评论 -
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(十)—— 模型前向计算数据流动
系列目录:菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(一)——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(二)——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(三)—— 预处理菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(四)—— 段落抽取菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(五)—— 准备数据菜鸟笔记-D...原创 2020-03-28 23:37:59 · 765 阅读 · 2 评论 -
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(九)—— 预测与校验
系列目录:1. [菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(一)——数据](https://blog.youkuaiyun.com/wmq104/article/details/104218865) 2. [菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(二)—— 介绍及分词](https://blog.youkuaiyun.com/wmq104/article/details/104...原创 2020-03-28 10:29:48 · 855 阅读 · 2 评论 -
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(八)—— 模型训练-训练
系列目录:菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(一)——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(二)——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(三)—— 预处理菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(四)—— 段落抽取菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(五)—— 准备数据菜鸟笔记-D...原创 2020-03-27 22:55:30 · 886 阅读 · 0 评论 -
[翻译Pytorch教程]NLP部分:基于`nn.Transformer`和`TorchText`构建序列到序列模型
翻译自官网教程:SEQUENCE-TO-SEQUENCE MODELING WITH NN.TRANSFORMER AND TORCHTEXT本文是关于如何使用nn.Transformer模块训练序列到序列(sequence-to-sequence)模型的教程。PyTorch 1.2 发布版包括了基于论文Attention is All YouNeed的标准transformer模块。这个t...翻译 2020-03-03 09:45:01 · 1722 阅读 · 0 评论 -
[翻译Pytorch教程]NLP部分:使用TorchText进行语言翻译
翻译自官网教程:LANGUAGE TRANSLATION WITH TORCHTEXT本教程展示了如何使用torchtext中几个方便的类对包含英语和德语句子对的知名数据集进行预处理,并用其训练一个将德语句子翻译成英语的包含注意力机制的序列到序列模型。本教程基于来自PyTorch社区成员Ben Trevett的这个教程,经过Ben Trevett的允许由Seth Weidman创建。完成本教...翻译 2020-03-02 14:01:10 · 2559 阅读 · 0 评论 -
[翻译Pytorch教程]NLP部分:使用TorchText进行文本分类
本教程展示如何在torchtext中调用文本分类数据集,包括:AG_NEWS,SogouNews,DBpedia,YelpReviewPolarity,YelpReviewFull,YahooAnswers,AmazonReviewPolarity,AmazonReviewFull这个例子展示了如何用这些文本分类TextClassification数据集之一训练一个有监督学习...翻译 2020-03-01 13:16:16 · 3277 阅读 · 5 评论 -
[翻译Pytorch教程]NLP从零开始:使用序列到序列网络和注意力机制进行翻译
翻译自官网手册:NLP From Scratch: Translation with a Sequence to Sequence Network and AttentionAuthor: Sean Robertson原文github代码这是NLP从零开始三个教程的第三个。教程中编写了自己的类和函数预处理数据来完成NLP建模任务。希望完成本教程的学习后你可以通过后续的三个教程,继续学习使用t...翻译 2020-02-29 13:08:02 · 1163 阅读 · 0 评论 -
[翻译Pytorch教程]NLP从零开始:使用字符级RNN进行名字生成
翻译自官网手册:NLP From Scratch: Generating Names with a Character-Level RNNAuthor: Sean Robertson原文github代码这是NLP从零开始三个教程的第二个。在第一个教程char_rnn_classification_tutorial中,使用RNN将名字按照其来源的语言进行了分类。本教程将进行名字生成。>...翻译 2020-02-28 10:45:52 · 591 阅读 · 0 评论 -
[翻译Pytorch教程]NLP从零开始:使用字符级RNN进行姓名分类
翻译自官网手册:NLP From Scratch: Classifying Names with a Character-Level RNNAuthor: Sean Robertson原文github本文将建立和训练一个基础的字级RNN对单词进行分类。本教程及随后两个教程,展示了如何一步步为自然语言处理(NLP)模型处理数据,尤其是不使用’torchtext’中的很多分词方便的函数,这样可以...翻译 2020-02-27 12:23:30 · 1010 阅读 · 0 评论 -
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(六)—— 模型构建
系列目录:菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(一)——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(二)——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(三)—— 预处理菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(四)—— 段落抽取菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(五)—— 准备数据未完待续 ...原创 2020-02-23 20:43:54 · 1456 阅读 · 4 评论 -
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(五)—— 准备数据
系列目录:菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(一)——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(二)——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(三)—— 预处理菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(四)—— 段落抽取未完待续 … …准备数据包括检查数据、创建文件夹、准备词典、准备词嵌入。具体实现见...原创 2020-02-10 23:44:56 · 850 阅读 · 3 评论 -
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(四)—— 段落抽取
系列目录:菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(一)——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(二)——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(三)—— 预处理未完待续 … …基线系统加入了新的段落抽取策略来提升模型表现。段落抽取思路基线系统使用了新的段落抽取策略提高模型效果,具体代码见DuReader代码库中p...原创 2020-02-10 14:05:44 · 1142 阅读 · 0 评论 -
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(三)—— 预处理
DuReader数据集为每个用户问题提供了大量的文档,对于常见的RC模型这些文档太长。基线系统中对于训练集和校验集选择了与答案最相关的段落,在推理时,选择与问题最相关的段落推理。另外,由于基线系统选用的模型是抽取型模型,也就是需要从原文中寻找答案的模型,所以预处理代码选取了F1值最大的答案、段落词块对作为为答案用于训练,处理策略在utils/preprocess.py中实现。选取最相关段落对每...原创 2020-02-09 20:23:17 · 1472 阅读 · 8 评论 -
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(二)—— 介绍及分词
数据部分请见上一篇文章:菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(一)—— 数据官方基于了DuReader给了两个基线模型:(BiDAF 和 Match-LSTM):Match-LSTM是广泛应用的MRC模型,Match-LSTM为了在文章中找到答案,依次遍历文章,动态地将注意力权重与文章的每个标记进行匹配。最后,使用一个应答指针层来查找文章中的答案跨度。BiDAF既...原创 2020-02-08 17:51:55 · 1552 阅读 · 8 评论 -
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(一)—— 数据
机器阅读理解是可以让计算机读取、处理、理解自然语言文本,这是人工智能的核心能力之一。在下一代搜索引擎和智能客服产品中具有重要价值。百度在2017年发布了大规模的中文MRC数据集:DuReader。DuReader的特点它是一个新的大型开放中文机器阅读理解数据集,其在中文应用中还是很有开创意义。相比以前的MRC数据集,DuReader有以下特点:所有的问题、原文都来源于实际数据(百度搜索引擎...原创 2020-02-08 10:42:51 · 2554 阅读 · 5 评论 -
[NLP]使用TensorFlow实现Seq2Seq神经机器翻译(翻译)
原文链接:http://androidkt.com/nmt-seq2seq-model-in-tensorflow/本教程将使用TensorFlow构建seq2seq(编码器 - 解码器)机器翻译模型。这个seq2seq模型的可以将英语句子翻译成德语句子。训练模型后,输入英文句子,例如“I am a student”可以得到其德语翻译:“Ich bin ein Student”。文章目录准备...翻译 2019-01-02 21:53:48 · 4056 阅读 · 4 评论 -
Keras序列到序列学习十分钟介绍(翻译)
Keras序列到序列学习十分钟介绍(翻译)原文链接:A ten-minute introduction to sequence-to-sequence learning in Keras文章目录序列到序列(sequence-to-sequenc,Seq2Seq)学习是什么?简单的情况:输入输出序列等长一般情况:典型sequence-to-sequenceKeras示例参考文献:进一步问答:如何...翻译 2018-12-29 21:18:43 · 2141 阅读 · 1 评论 -
[NLP]预处理--使用re正则化进行文本清理
文本清理:在自然语言处理中,尽管文本清理受所做的任务影响比较大,但是有一些通用的清理流程标准是通用的,比如是否有必要替换单位、货币、数学符号、数字。可以使用正则化工具将相应内容替换为标准内容。工具:re(简介)输入:原始文本输出:干净文本代码:notebook单位替换将文本中的单位替换为统一格式如:将4kgs、4kg统一替换为4 kg,将4k替换为4000,将100或100100或10...原创 2018-10-03 13:36:38 · 3660 阅读 · 0 评论 -
综述:自然语言处理中深度学习应用综述
原文链接:https://arxiv.org/abs/1807.10854在过去几年中,自然语言处理领域由于深度学习模型的使用取得重大突破。 本综述简要介绍了这个领域,并简要概述了深度学习架构和方法。 然后筛选当前大量最近的研究,总结大量相关的贡献。分析了计算语言学的应用及几个自然语言处理核心问题在内的研究领域。 对现有技术进行了讨论并为未来研究提出了建议。ACM Reference Fo...翻译 2018-09-24 09:18:18 · 8762 阅读 · 0 评论
分享