
NLP
文章平均质量分 86
夏天7788
知行合一
展开
-
转:一文读懂BERT(原理篇)
转自:https://blog.youkuaiyun.com/jiaowoshouzi/article/details/89073944一文读懂BERT(原理篇)2018年的10月11日,Google发布的论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》,成功在 11 项 NLP 任务中取得 state of the art 的结果,赢得自然语言处理学界的一片赞誉之声。本文是对近期关于BERT论文、相关转载 2021-04-27 16:01:16 · 795 阅读 · 0 评论 -
深度学习之Attention Model(注意力模型)
from:http://www.cnblogs.com/jiangxinyang/p/9367497.html1、Attention Model 概述 深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上...转载 2019-04-08 16:05:15 · 1228 阅读 · 0 评论 -
深度学习之从RNN到LSTM
from:https://www.cnblogs.com/jiangxinyang/p/9362922.html1、循环神经网络概述 循环神经网络(RNN)和DNN,CNN不同,它能处理序列问题。常见的序列有:一段段连续的语音,一段段连续的手写文字,一条句子等等。这些序列长短不一,又比较难拆分成一个个独立的样本来训练。那么RNN又是怎么来处理这类问题的呢?RNN就是假设我们的样本是...转载 2019-04-08 15:21:08 · 1182 阅读 · 0 评论 -
传统文本分类和基于深度学习文本分类
用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述:淘宝商品的一个典型的例子见下图,图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大...转载 2019-04-08 13:12:20 · 10125 阅读 · 2 评论 -
词向量和语言模型
from:http://licstar.net/archives/328这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。@...转载 2019-03-19 13:22:42 · 1441 阅读 · 0 评论 -
自然语言处理入门(4)——中文分词原理及分词工具介绍
from:https://blog.youkuaiyun.com/flysky1991/article/details/73948971本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(C...转载 2019-03-29 15:35:23 · 1334 阅读 · 0 评论 -
基于Text-CNN模型的中文文本分类实战
from:https://www.jianshu.com/p/f69e8a306862深度学习在文本分类中的鼻祖-TextCNN1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结。本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于Text-CNN模型在搜狗新闻数据集上二分类的Demo。文本分类是...转载 2019-03-19 09:31:49 · 3838 阅读 · 0 评论 -
中文文本分类对比(经典方法和CNN)
from:https://www.jianshu.com/p/dc00a5d597ed背景介绍笔者实验室项目正好需要用到文本分类,作为NLP领域最经典的场景之一,文本分类积累了大量的技术实现方法,如果将是否使用深度学习技术作为标准来衡量,实现方法大致可以分成两类:基于传统机器学习的文本分类 基于深度学习的文本分类facebook之前开源的fastText属于简化版的第二类,词向量取...转载 2019-03-19 09:30:00 · 2499 阅读 · 0 评论 -
干货|NLP领域中文vs英文有什么异同点,中文NLP有什么独特的地方?
https://www.jianshu.com/p/d89313ac10dc文章来源:知乎 作者:刘知远、李嫣然刘知远关于NLP的精彩回答从实用文本分析技术而言,如果只做主题聚类、文本分类等任务的话,中英文最大差别就在于,中文需要做自动分词,相关工具包已经很多了,包括题主提到的Jieba,还有哈工大的LTP,北理工的ICTCLAS,还有我们组研制的THULAC。当然,在文本分类时,...转载 2019-03-13 10:18:39 · 1060 阅读 · 0 评论 -
深度学习和文本分类
https://blog.youkuaiyun.com/Ding_xiaofei/article/details/81132555传统的文本分类模型深度学习文本分类模型fasttextfastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。fastText 在预...转载 2019-03-13 10:07:52 · 1020 阅读 · 0 评论 -
使用word2vec训练中文词向量
训练过程模型:gensim工具包word2vec模型,安装使用简单,训练速度快 语料:百度百科500万词条+维基百科30万词条+1.1万条领域数据 分词:jieba分词,自定义词典加入行业词,去除停用词 硬件:8核16g虚拟机数据预处理维基百科数据量不够大,百度百科数据量较全面,内容上面百度百科大陆相关的信息比较全面,港澳台和国外相关信息维基百科的内容比较详细,因此训练时将两个语料...转载 2019-03-15 17:29:32 · 1843 阅读 · 0 评论 -
NLP文本处理流程
通常我们文本处理流程如下:1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词条内容处理成单行数据,word2vec训练原理是基于词共现来训练词之间的语义联系的。不同词条内容需分开训练 2 中文分词:中文NLP很重要的一步就是分词了,分词的好坏很大程度影响到后续的模型训练效果 3 特征处理:也叫词向量编码,将文本数据转换成计算机能识别的数据,便于计算,通常是转换成数...转载 2019-03-15 17:25:59 · 1645 阅读 · 0 评论 -
训练自己的词向量模型
from:https://blog.youkuaiyun.com/gdh756462786/article/details/79108665/一、gensim介绍 gensim是一款强大的自然语言处理工具,里面包括N多常见模型:- 基本的语料处理工具- LSI- LDA- HDP- DTM- DIM- TF-IDF- word2vec、paragraph2vec...转载 2019-03-15 15:55:36 · 6373 阅读 · 2 评论