
自然语言处理
wpheternal
从0基础学习大数据
展开
-
LDA学习笔记
LDA学习笔记详述LDA原理?LDA中的主题矩阵如何计算?词分布矩阵如何计算?LDA的共轭分布解释下?PLSA和LDA的区别?怎么确定LDA的topic个数LDA和Word2Vec区别?LDA和Doc2Vec区别?LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?trick?详述LDA原理?从狄利克雷分布α中取样生成文档i的主题分布多项式分布的共轭分布是狄利克雷分布二项式分布的共轭分布是Beta分布从主题的多项式分布中取样生成文档i第j个词的主题从狄利克雷分布β原创 2020-12-08 12:05:21 · 287 阅读 · 0 评论 -
word2vec学习笔记
word2vec学习笔记从隐藏层到输出的Softmax层的计算有哪些方法?层次softmax流程?负采样流程?word2vec两种方法各自的优势?怎么衡量学到的embedding的好坏?word2vec和glove区别?你觉得word2vec有哪些问题?从隐藏层到输出的Softmax层的计算有哪些方法?层次softmax负采样层次softmax流程?构造Huffman Tree最大化对数似然函数输入层:是上下文的词语的词向量投影层:对其求和,所谓求和,就是简单的向量加法输出层:原创 2020-12-08 12:04:07 · 118 阅读 · 0 评论 -
GolVe学习笔记
GolVe学习笔记GolVe的损失函数?解释GolVe的损失函数?为什么GolVe会用的相对比W2V少?如何处理未出现词?GolVe的损失函数?解释GolVe的损失函数?其实,一句话解释就是想构造一个向量表征方式,使得向量的点击和共现矩阵中的对应关系一致。因为共现矩阵中的对应关系证明了,存在i,k,j三个不同的文本,如果i和k相关,j和k相关,那么p(i,j)=p(j,k)近似于1,其他情况都过大和过小。为什么GolVe会用的相对比W2V少?GloVe算法本身使用了全局信息,自然内存费的也原创 2020-12-08 12:02:33 · 1111 阅读 · 0 评论 -
CRF学习笔记
CRF学习笔记阐述CRF原理?线性链条件随机场的公式是?CRF与HMM区别?Bert+crf中的各部分作用详解?阐述CRF原理?首先X,Y是随机变量,P(Y/X)是给定X条件下Y的条件概率分布如果Y满足马尔可夫满足马尔科夫性,及不相邻则条件独立则条件概率分布P(Y|X)为条件随机场CRF线性链条件随机场的公式是?CRF与HMM区别?CRF是判别模型求的是p(Y/X),HMM是生成模型求的是P(X,Y)CRF是无向图,HMM是有向图CRF全局最优输出节点的条件概率,HMM对转移概原创 2020-12-08 12:07:17 · 226 阅读 · 0 评论 -
Bert学习笔记
Bert学习笔记Bert的双向体现在什么地方?Bert的是怎样实现mask构造的?在数据中随机选择 15% 的标记,其中80%被换位\[mask],10%不变、10%随机替换其他单词,这样做的原因是什么?为什么BERT有3个嵌入层,它们都是如何实现的?bert的损失函数?手写一个multi-head attention?长文本预测如何构造Tokens?你用过什么模块?bert流程是怎么样的?知道分词模块:FullTokenizer做了哪些事情么?Bert中如何获得词意和句意?源码中Attention后实际的原创 2020-12-08 12:00:28 · 396 阅读 · 0 评论