
数学
侃山
这个作者很懒,什么都没留下…
展开
-
【bag of n-grams】 N-gram词袋模型 简介
Bag of n-grams是Bag of Words的扩展,它的核心思想是:忽略语序,只统计各个 N-gram 在文本中出现的次数或是否出现。原创 2025-05-13 20:39:37 · 338 阅读 · 0 评论 -
Rotary Positional Embedding代码实现思路讲解
原理。原创 2025-05-05 17:19:30 · 1440 阅读 · 0 评论 -
batch normalization和layer normalization区别
Normalization无非就是这样一个操作:其中x是输入数据,维度为(B,T,C),其中B是batchsize,T是序列长度,C是embedding维度;括号内是标准化操作,γ和β是仿射变换参数。原创 2025-05-03 22:30:05 · 389 阅读 · 0 评论 -
旋转矩阵公式理解
也就是说,二者在x轴和y轴方向上都有分量。接下来将两个向量分别顺时针旋转。,我们可以将它分解为两个向量。设原始直角坐标系下的坐标为。原创 2025-05-03 19:38:54 · 226 阅读 · 0 评论 -
Precision-Recall曲线
这里和ROC曲线有一点不同:我们的虚线并不是”随机猜“的曲线,而是将所有样本都分为正类的曲线。另外,Precision和Recall都是越大越好。同样地,真实曲线(蓝色曲线)越靠近右上角越好。那么,我们同样可以用AUC来衡量真实分类器曲线的性能,一般分类器的性能同样是0.5到1之间的一个值。原创 2025-04-26 10:55:00 · 200 阅读 · 0 评论 -
ROC 曲线 和 AUC
而二元分类时输出的是0~1的概率,那么threshold的选取不同,就会导致不同的分类结果。于是,我们分别选取多个不同的threshold,就会得到多个不同的二元组(TPR,FPR),从而绘制出点图。注意,ROC曲线一定会经过(0,0)和(1,1)两点,代表全部分类为负和全部分类为正的结果。也就是说,(TPR,FPR)离(0,1)越近越好。不难观察到,紫色曲线的AUC,也就是在0到1区间上的积分为1,虚线(乱猜)的AUC为0.5,一般分类器的AUC在0.5到1之间。TPR越大越好,FPR越小越好。原创 2025-04-26 10:33:11 · 244 阅读 · 0 评论 -
怎样记忆Precision、Recall?
现在对所有样本进行预测。其中蓝色圆圈以内预测为正,蓝色圆圈以外预测为负。其中大矩形表示所有样本,左边的矩形表示正样本,右边的矩形表示负样本。FP(False Positive):标签为负,预测为正。FN(False Negative):标签为正,预测为负。TN(True Negative):标签为负,预测为负。TP(True Posive):标签为正,预测为正。Precision:TP在圆形中的比例。Recall:TP在左边矩形中的比例。TP+FP:预测为正的所有样本。TP+FN:标签为正的所有样本。原创 2025-04-24 22:17:47 · 304 阅读 · 0 评论 -
协方差矩阵半正定性的证明
证明中使用了下图式子(其中A为常量矩阵,X为随机变量矩阵)。证明只需列出各个元素,很简单,这里不再证明。原创 2024-04-25 20:48:35 · 440 阅读 · 1 评论 -
多元函数泰勒公式(含黑塞矩阵)
即二元与一元函数的泰勒公式的微分形式是一样的。这里中间的矩阵就是黑塞矩阵。三元函数类似,读者可手推一下。中,应把dx看作一个整体,即一个微小变量的n次方。这里蓝色等号处需假设二阶偏导数连续。这就是含黑塞矩阵的泰勒公式。原创 2024-04-22 10:24:27 · 801 阅读 · 0 评论