
NLP
HawardScut
工作啦,有时比较忙没及时回复,望见谅。
展开
-
(五)PyTorch学习笔记——词袋模型
假设语料库data = [("me gusta comer en la cafeteria".split(), "SPANISH"), ("Give it to me".split(), "ENGLISH"), ("No creo que sea una buena idea".split(原创 2018-06-07 20:53:06 · 1410 阅读 · 0 评论 -
《Convolutional Neural Networks for Sentence Classification》论文结构解读
1.数据以某一双鞋子为例,评论结果作为标签(2分类:好评,差评)【穿了一段时间,不错,喜欢的下单吧;好评】【鞋子收到了,不是很满意。没有吊牌,一直都是还是只有我这一双是;差评】数据处理步骤:把所有评论数据集分词,去除停用词,然后构建word2index,然后表示“句子”,以“穿了一段时间,不错,喜欢的下单吧”为例子,分词后为【穿了/一段/时间/,/不错/,/喜欢/的/下单/吧】,则表示成...原创 2018-12-08 13:12:00 · 984 阅读 · 3 评论 -
《Character-level convolutional networks for text classification》论文网络结构解读
1.数据比如有一条数据【x=“Simultaneous Tropical Storms are Very Rare”】.则把该句子的大写字母全部表示成小写,构建char字符集的词汇表如下(这里词汇表长度为70(69+1,即其他的不在词汇表的表示为0)):数据可以表示为x=70X1014 (高X宽,即70个特征,每个特征的长度为1014),该矩阵初始为0,反向依次遍历【x=“simultane...原创 2018-12-09 14:40:41 · 1413 阅读 · 1 评论 -
ac自动机
1. 前言AC自动机:Aho-Corasick automation,是一种多模式匹配算法。它是在模式树(字典树)Trie和KMP模式匹配算法的基础上进行的。其中,KMP算法是单模式串的字符匹配算法(依次遍历每个元素进行比较的朴素匹配算法+借助于next指针实现)。2. ac自动机主要包括三个过程:(1)建立字典树(2)构建字典树的每个结点的fail指针(3)查找过程比如有模式:“...原创 2019-02-28 15:09:03 · 439 阅读 · 0 评论 -
TF-IDF的定义及计算
假设有语料库一共只要2篇文档:d1d_1d1和d2d_2d2,其中d1=(A,B,C,D,A)d_1=(A,B,C,D,A)d1=(A,B,C,D,A)一共有5个单词组成;d2=(B,E,A,B)d_2=(B,E,A,B)d2=(B,E,A,B),一共有4个单词组成。1.TFTF即词频(Term Frequency),每篇文档中关键词的频率(该文档单词/该文档单词总数),对于文档d1...原创 2019-02-22 15:18:31 · 17690 阅读 · 1 评论 -
LSTM网络结构
1.介绍假设词向量长度为128,隐含层神经元个数为256。LSTM中引入3个门,即输入门、遗忘门、输出门;及其他组件:候选记忆细胞、记忆细胞。2.时间t时候:各个组件(3个门+候选记忆细胞、记忆细胞)如上图所示,对于每个组件有:(1)输入门:ItI_tItIt=σ(XtWihI+Ht−1WhhI+bihI)I_t = \sigma (X_tW_{ih}^I+H_{t-1}W_{h...原创 2019-03-07 20:08:54 · 7213 阅读 · 0 评论