机器学习
文章平均质量分 88
_Ronnie_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【笔记】损失函数 最大似然估计&最大后验估计
面试被问到最大似然与最大后验概率的区别时卡壳了,才发现自己的基础需要好好巩固一下。这一篇记录一下学习最大似然和最大后验区别,以及与损失函数之间的关系。下面记录中省略的一些推导和内容都可以去[1] 查看。最大似然&最大后验估计不得不提贝叶斯公式:P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}P(θ∣X)=P(X)P(X∣θ)P(θ)其中,几个重要的概率:P(θ∣X)P(\theta|X)P(θ原创 2022-04-11 18:24:22 · 2040 阅读 · 0 评论 -
【笔记】再访word2vec
写在前面以前学习的时候忽略了很多细节,也没有对照源码[1] [2]细细理解,忽略了很多有价值的内容,这里做一个记录,自己再学习word2vec的过程。我们都知道word2vec的两种训练方法:CBOW模型和Skip-gram模型。CBOW利用中心词wtw_twt的上下文来预测中心词;Skip-gram则相反,是利用中心词wtw_twt预测上下文的词。这是模型的设计思路但是实际实现中有许多额外要考虑的东西,例如:词表很大时,模型的输出层预测就会占用比较大的开销。层次Softmax(Hierarchic原创 2022-01-03 23:18:06 · 608 阅读 · 0 评论 -
【笔记】Word2vec模型复现与PYTHONHASHSEED
1 Word2vec模型复现问题1.1 问题描述我在对word2vec模型(基于gensim.models.Word2Vec)进行实验的时候发现,在设置了random和numpy的种子后,结果依旧无法复现。主要表现在生成的词向量是随机的。所以我猜测问题出在是word2vec模型生成部分。1.2 解决Seed for the random number generator. Initial vectors for each word are seeded with a hash of the co原创 2021-09-13 20:30:58 · 923 阅读 · 2 评论 -
【笔记】论文阅读 TinyBERT(EMNLP2019) 知识蒸馏
【笔记】TinyBERT(EMNLP2019)两阶段蒸馏:预训练阶段+finetune阶段设计3种损失函数分布来适应bert的不同层级的损失计算embedding 层输出来自 transformer 层的隐藏层和注意力矩阵输出 logits 的预测层1. 知识蒸馏的设计可以将网络的任何一层称为行为函数(fff , behavior function),KD就是利用小模型(SSS, student)学习大模型(TTT, teacher)。知识蒸馏的数学表示:LKD=∑x∈XL(fS(x)原创 2021-04-17 17:44:46 · 597 阅读 · 0 评论 -
【笔记】《Speech and Language Processing》Chapter 2 Minimum Edit Distance 最小编辑距离
C2. Minimum Edit Distance许多的NLP应用都会关注字符串的相似性这一问题。例如在拼写纠正中,用户输入了错误的单词,我们想要猜测用户的真实意图是什么。另外一个例子是共同指向(coreference),任务需要判断两个字符串是否指向同一实体。1. 一些定义Minimum Edit Distance编辑距离(Edit distance)帮助我们度量两个字符的相似程度。最小编辑距离(minimum edit distance)定义为两个字符串间将一个词转换成另一个单词的最小编辑操作原创 2020-07-06 17:01:09 · 386 阅读 · 0 评论 -
【笔记】神经网络的优化问题(一)
神经网络的优化问题(一)笔记总结自《神经网络与深度学习》第7章-网络优化与正则化1. 高纬空间的非凸优化在高纬空间中,大部分的局部最优点都是鞍点。因此,在深度网络的非凸优化问题的难点是如何逃离鞍点。通过引入随机因素,能够解决梯度下降方法在鞍点附近梯度为0的问题,从而有效地逃离鞍点。2. 改善神经网络计算的优化方法2.1 小批量(Mini-batch )梯度下降初衷:通常深度神经网络使用的数据量都非常大,不适合一次性加载所有的数据进行梯度计算和更新,因此用到了小批量的梯度更新方法。影响小批量梯原创 2021-01-18 16:34:16 · 2319 阅读 · 0 评论 -
数据归一化 MinMaxScaler
MinMaxScalerclass sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)一、功能将每个元素(特征,feature)转换成给定范围的值。该估计器(estimator)分别缩放和转换每个特征,以使其处于训练集的给定范围内,例如在区间[0,1]。转换原理如下:X_std = (X - X....原创 2020-05-05 18:55:41 · 13853 阅读 · 3 评论
分享