- 博客(5)
- 收藏
- 关注
转载 word2vec中的数学原理
文章主要是为了今后回顾自己所学,多为总结他人经验所得。CBOW模型的网络结构包括三层:输入层、投影层和输出层。和神经概率语言模型相比,他没有了隐藏层。且其投影层是将输入层的向量做求和累加而不是拼接。另外一个特殊之处在于,其输出层是树形结构(Haffman树)而不是线性结构。然后我们说一下它的输出层。输出层对应的是一颗二叉树,它以语料中出现过的词当叶子节点,以各词在语料中出现的次数当权值构造...
2018-08-07 16:00:54
1238
转载 生式模型和判别式模型
判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知级,决策树,支持向量机等。 生成方法:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本...
2018-08-07 16:00:23
258
原创 GRU
GRU也是循环神经网络的一种,和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。相比LSTM,使用GRU能够达到相当的效果,并且相比之下更容易进行训练,能够很大程度上提高训练效率,因此很多时候会更倾向于使用GRU。GRU和LSTM一样,有一个当前的输入xt,和上一个节点传递下来的隐状态ht-1,结合xt和ht-1,geu会得...
2018-08-07 14:53:58
9312
原创 FastText
在文本特征提取中,常常能看到n-gram的身影。它是一种基于语言模型的算法,基本思想是将文本内容按照字节顺序进行大小为N的滑动窗口操作,最终形成长度为N的字节片段序列。看下面的例子:我来到达观数据参观相应的bigram特征为:我来 来到 到达 达观 观数 数据 据参 参观相应的trigram特征为:我来到 来到达 到达观 达观数 观数据 数据参 据参观 注意一点:n-gram中...
2018-08-01 15:12:02
358
转载 PYTHON中调用外部参数的用法
1.sys.argv[]sys.argv可以看成是一个获取了全部外部参数的一个列表,所以可以用[]来提取其中的元素。其中第一个元素是脚本名,随后才依次是外部给予的参数,并且读取进来的默认是字符串格式。如果脚本很简单或临时使用,没有多个复杂的参数选项时,可以利用此模块函数。2.argparse模块一般情况下,脚本可能需要多个参数,而且每次参数的类型用处各不相同,那么这个时候在参数前添...
2018-07-26 10:50:25
10816
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人