
自然语言处理
huangqihao723
这个作者很懒,什么都没留下…
展开
-
读Transformer
transformer 是在文章 attention is all you need 中提出的,在机器翻译中,transformer的输入是一种语言,输出是另外一种语言。 transformer包含两部分:encoders 和 decoders , 这种结构就是常见的seq2seq模式,不同在于encoder 和 decoder 的结果。其中encoders 和 decoders 各自采用了6个encoder单元和6个decoder单元encoders 部分 6个encode...原创 2020-05-19 13:59:05 · 227 阅读 · 0 评论 -
读Attention文章1
简介部分:对于机器翻译,之前的做法就是把输入压缩成一个向量,然后对这个encode后的向量进行decode,这种方法处理长句子比较难,尤其当句子的长度长于训练集中的语料库 本问提出的模型,当翻译生成一个词语的时候,我们在输入的序列中找到与目标词y(t)最相关的信息,模型预测目标基于这些位置信息的上下文的语义向量 以及 已预测出来的词(y1,y2,...,y(t-1) ) 共同进行。 本文...原创 2020-05-08 16:57:54 · 307 阅读 · 0 评论 -
读TextCnn文章
TextCnn,顾名思义,就是将卷积神经网络应用在文本领域!1.模型示意图输入是一个n*k的矩阵,n表示一个句子切分后的序列,k表示每个词的词向量的维度 ,即 input -> hidden layer 通过权重矩阵h*k大小的W,W就是CNN中的filter,k是固定的,在词序列方向进行滑动,求卷积;然后加一个bias后做非线性激活,即 对于序列长度为n,filter...原创 2020-04-26 15:52:49 · 313 阅读 · 0 评论 -
利用fasttext对短信内容进行分类
一.样本说明:共1405506条记录,其中逾期的为486996条记录,非逾期的为486996条 包含两个字段 tag (标识是否逾期) ,message(短信内容) 实际训练样本(non_overdue: 641065, overdue: 340783) 实际测试样本(non_overdue: 274660, overdue: 146132) 目标:根据短信内容,预测类别是否逾期二...原创 2019-04-10 15:50:13 · 442 阅读 · 0 评论 -
jieba、pyltp、百度api三种方式分词效果比较
一.几种分词方式参考文档:1.百度api:https://cloud.baidu.com/doc/NLP/NLP-API/12.5C.E7.AE.80.E4.BB.8B.html这里需要说明一点:调用api的时候需要拿到acess_token(而acess_token的获得需要通过申请的api key 和 secret key发送http请求获得);我这里是通过官网介绍的方式之一bash来...原创 2019-01-11 14:26:10 · 8862 阅读 · 0 评论 -
pyltp
说明:以下分析基于python3.6以及macOs 10.12.6refer: https://pyltp.readthedocs.io/zh_CN/develop/api.html语料库下载:https://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%2Fltp-models%2F3.4...原创 2018-01-11 23:01:01 · 3209 阅读 · 5 评论 -
未登陆词/停用词建立和使用
refer:https://wenku.baidu.com/view/0029a79a376baf1ffd4fad8d.htmlhttps://wenku.baidu.com/view/0029a79a376baf1ffd4fad8d.html一. 未登陆词: 未登录词即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等(参原创 2018-01-22 14:01:03 · 3821 阅读 · 0 评论 -
熵的计算
#借用下python机器学习中的数据集import numpy as npfrom collections import Counterfrom math import logdef CreateDataSet(): dataset = np.array([[1, 1, 'yes' ], [1, 1, 'yes' ], ...原创 2018-01-23 16:11:28 · 3081 阅读 · 0 评论