- 博客(138)
- 资源 (4)
- 收藏
- 关注
原创 Double/Debiased Machine Learning
独立同步分布的观测数据WiYiDiXi∣i∈1...n}},其中Yi表示结果变量,Di表示因变量,Xi表示控制变量。目标参数θ0EmW;θ0η0)]0W为观测到的变量,θ0∈Θ为目标参数,η0∈T为辅助参数θ0ATE≡EEYi∣Di1Xi−EYi∣Di0Xi]]mIPWWi;
2025-06-03 09:42:38
369
翻译 Linear Transformer
Q=x⋅WQQ=x\cdot W_QQ=x⋅WQK=x⋅WKK = x\cdot W_KK=x⋅WKV=x⋅WVV = x\cdot W_VV=x⋅WVV′=softmax(QTKD)VV' = softmax(\frac{Q^TK}{\sqrt{D}})VV′=softmax(DQTK)Vsim(q,k)=exp(qTkD,Vi′=∑j=1nsim(Qi,Kj)Vj∑j=1nsim(Qi,Kj))sim(q,k) = exp(\frac{q^T k}{\sqrt{D}},V'_i =\frac{
2025-04-29 20:43:39
23
原创 内积模型的性质
是一种在嵌入学习领域常使用的模型,模型首先得到物品的嵌入,然后通过最大似然估计训练模型参数,模型的学习结果是在嵌入空间中存在共现关系(条件概率较大)的物品相互靠近,不存在共现关系的物品相互远离。但一般情况下条件概率并不具有对称性和传递性,因此这是采用内积模型的时候需要重点考虑的问题。
2025-04-19 09:33:11
585
翻译 冷启动推荐:系统性综述
提示策略(Prompting Strategy) : 该系列研究通过将推荐任务重构为自然语言处理问题,设计了多种提示策略来引导大语言模型(LLMs)生成准确的(系统)冷启动推荐。多步提示(Muti-Step Prompting ): 尽管直接提示法可用于零样本/少样本推荐任务,但其性能表现仍逊色于经过完整用户-物品交互数据训练的传统推荐方法。检索增强(Retrieval-Augmented Recommendation)直接提示(Direct Prompting)模型调优(Model Tuning)
2025-04-06 13:28:00
158
原创 关联规则的评价指标
关联规则的定义:相依表:CCAf11f10f1Af01f00f0f1f0f关联规则的支持度:supportA=>CsupportA∩Cf11f关联规则的置信度:confidenceA=>CsupportAsupportA=>Cf1ff11ff11f1关联规则的提升度:liftA=>CsupportC。
2024-12-07 08:10:10
1053
原创 Fourier Transform
Fourier Transform 的一些重要性质的总结:Fαftβgt)]αFwβGw1)F−1αFwβGw)]αftβgt2)Fft−t0)]e−iwt0Fw3)F−1Fw−w0)]eiw0tft4)Ffat)]∣a∣1Faw5)FFt)]2πf−w6)FdtndntiwnFw7。
2024-11-24 11:59:28
995
原创 Robust Regression
最小二乘回归受数据中的离群点的影响较大,稳健回归通过降低离群点的影响缓解此问题。min∑ρϵimin∑ρyi−β∗Xi函数ρρϵ≥0ρ00ρϵρ−ϵ目标函数关于带估计参数β∂β∑ρyi−βXi∑−∂βρyi−βXiXi≜∑ψρyi−βXi))Xi其中ψϵ∂β∂ρϵ。
2024-07-07 11:00:53
786
原创 Quantile Regression
分位数:pXxτττ∈01, xτ为随机变量 X的 τ分位数均值回归、中位数回归、分位数回归:lossi∑nρyiyi)uyi−yiρuu2ρu∣u∣ρuαuα−1uu≥0u0。
2024-07-05 21:20:50
860
原创 累积分布函数的一些性质证明
性质1: EX∫0∞1−Fx))dx−∫−∞0Fxdx1证明:EX∫−∞∞xpxdx=∫0∞xpxdx∫−∞0xpxdx=∫0∞∫0xpxdydx−∫−∞0∫0xpxdydx=∫0∞∫y∞pxdxdy−∫−∞0∫−∞ypxdxdy=∫0∞1。
2024-07-05 12:07:43
1167
原创 扩散模型的一些公式证明
扩散模型的前向扩散过程:q(x1:T∣x0)=∏t=1Tq(xt∣xt−1),q(xt∣xt−1):=N(1−βt)xt−1,βtI)(1)q(x_{1:T}|x_0) = \prod_{t=1}^Tq(x_t|x_{t-1}),q(x_t|x_{t-1}):=\mathcal{N}(\sqrt{1-\beta_t})x_{t-1},\beta_tI)\quad(1)q(x1:T∣x0)=t=1∏Tq(xt∣xt−1),q(xt∣xt−1):=N(1−βt)xt−1,βtI)(1)
2024-05-27 20:40:47
2759
2
原创 Neural Turing Maching
Memory : MN×DControllerti==∑kexpβKMtiq))expβKMtiq))Kuv∣∣u∣∣⋅∣∣v∣∣∣u⋅vMt1iMti⋅1−wti⋅eiwti⋅aiwti==∑kexpβKMtiq))expβKMtiq))Kuv∣∣u∣∣。
2024-05-19 10:45:37
843
原创 Partial Distance Correlation
特征函数随机变量 X 的特征函数定义为:ϕX(t)≜E[eitX]=∫−∞+∞eitxf(x)dx\phi_X(t)\triangleq E[e^{itX}]=\int_{-\infty}^{+\infty}e^{itx}f(x)dxϕX(t)≜E[eitX]=∫−∞+∞eitxf(x)dx其中 fX(x)f_X(x)fX(x) 为连续随机变量的概率密度函数。特征函数的一些性质如下:Y=X1+X2Y = X_1+X_2Y=X1+X2,X1,X2X_1,X_2X1,X2相互独立,则
2024-05-19 10:20:21
586
原创 变分自编码器(VAE)相关证明
VAE 模型便是这样的生成模型,VAE模型的优化目标即是所谓的ELBO Loss;各向独立的假设是比较强的假设,限制了模型的假设空间;在满足以上两点要求的前提下,为了提升模型的假设空间,一类做法是提升函数。生成模型通过建模变量的联合分布,学习样本的生成过程。判别模型则是建模变量之间的映射关系。的分布已经不是高斯分布。的计算方法,并通过证明揭示函数。,但是这类做法遇到的一个问题是。等价于样本的极大似然估计。以往的研究者们提出了多种函数。因此最大化 ELBO。以上证明我吗假定函数。
2024-03-31 08:58:46
973
原创 Gumbel 重参数化相关性质证明
Gumbel 的采样过程:zargmaxigilogπi)}gi−log−logui))ui∼U01采样得到的随机变量满足一下分布:gi∼Gumble011)higilogπi∼Gumblelogπi12证明过程:PuPU≤uuu∈01)G−log−logU))u∈01)Pg。
2023-12-18 21:26:44
685
原创 图示矩阵分解
特征方程在复数范围内恒有解,解的个数为方程的次数(重根按重数计算),因此,n 阶矩阵。定理:一个 n 阶方阵 A 如果有 n 个不同的特征值,那么对应的 n 个特征向量互相线性独立。其中 P 是由 n 个正交特征向量组成的矩阵,D 是有特征值组成的对角矩阵。把一个对称正定的矩阵表示成一个下三角矩阵 L 与其转置的乘积的形式。,P 为A的特征矩阵组成的可逆矩阵,D是有A的特征值组成的对角矩阵。定理:任何 n 阶对称矩阵都有 n 个独立且正交的特征向量。都是 n 阶矩阵,若有可逆矩阵。称为 A 的相似变换。
2023-10-05 14:56:25
346
原创 评分和排名算法
排名是非常高频的需求,通常伴随着某种决策行为,比如投资行为,比赛投注行为,商品选购,等等。排名的对象五花八门,理财产品,参赛队伍,商品,网页,视频,等等。排名就是为这些对象产生一个有序的列表,可以先为对象产生一个评分,然后基于评分产生有序列表,也可以不产生评分直接产生最终的有序列表。排名问题形式简答,但解答却可能不简单,为具体场景设计合适的排名方法,是一个比较困难的问题。
2023-10-04 08:41:52
657
原创 从平均数到排名算法
平均数用更少的数字,概括一组数字。属于概述统计量、集中趋势测度、位置测度。中位数是第二常见的概述统计量。许多情况下比均值更合适。算术平均数是3中毕达哥拉斯平均数之一,另外两种毕达哥拉斯平均数是几何平均数和调和平均数。
2023-09-23 23:23:09
514
原创 AB测试结果分析
一、假设检验根据样本(小流量)的观测结果,拒绝或接受关于总体(全部流量)的某个假设,称为假设检验。假设检验的基本依据是小概率事件原理(小概率事件几乎不发生),如果小概率事件发生了,则有充分理由推翻原假设,否则接受原假设,检验的具体过程是:首先假定原假设成立,并寻找一个原假设成立条件下的发生概率微小的事件,称为检验事件,对应的统计量称为检验统计量其次是采集样本最后观测步骤 1 所定义的小概率事件是否发生若小概率事件发生,则拒绝原假设,接受备用假设若小搞错了时间未发生,则接受原假
2023-09-13 14:34:59
773
原创 bootstrap
我们具有一个从总体中采样得到的样本 D,根据格里纹科定理,样本 D 的经验分布在样本容量 时等于总体的分布,也就是说当 n 较大时,样本 D 的经验分布是总体分布的很好的近似。上面的计算步骤其实是有些问题的,因为 p 值的定义是在原假设H_0成立的条件下计算的,上面第一步从总体中采样并不能满足原假设一定成立,因此依据这里采样的样本计算的并不能近似 p 值。这是基于抽样分布定理的假设检验方法,依赖的假设是所选择的检验统计量在原假设成立的条件下服从不含参数的特定分布,比如正太分布、t分布、卡方分布等等。
2023-05-18 11:14:21
1272
原创 PAC计算学习理论介绍
机器学习的过程是学习算法 $\mathcal{A}$ 依据 $E_{in}(g)\approx 0$ 为标准,从假设集合 $\mathcal{H}$ 中选择假设 g ,并期望满足 $E_{out}(g)\approx 0$,以达到获取目标函数 f 的近似函数的目标.
2023-03-29 17:51:12
1094
原创 数理统计与推荐系统
社会活动或自然现象中变量之间存在着多种相互联系、相互制约的关系,对这些关系的观测,规律的研究,有利于提升对社会活动或自然现象的变化规律的理解,并进一步利用规律对活动或现象进行预测、干预。 变量之间的关系有些属于确定性的关系,也就是当其中某些变量的取值确定后,另外一些变量的取值可以完全确定。比如某商品售价 10 元一件,当销售量 x 确定后,销售额 y 可以通过方程 y=10xy = 10xy=10x 完全确定。 还有些变量之间虽然存在密切的联系,但是当其中某些变量取值确定后,另外的变量的取值并不能完
2023-03-24 10:18:18
314
原创 The Kalman Filter
n,n=x^n,n−1+α(zn−x^n,n−1)^n+1=x^n+Δtx˙^nx˙^n+1=x˙^nn=pn,n−1+rnpn,n−1n,n=(1−Kn)pn,n−1n+1,n=pn,n。
2022-11-06 19:57:42
278
翻译 Dynamic Memory based Attention Network for Sequential Recommendation
S={x1,x2,...,x∣S∣}={Sn}n=1N其中Sn={xn,1,xn,2,...,xx,T}表示第 n 个序列,T表示子序列的长度。
2022-09-21 10:45:11
207
原创 Candidate Samlping
采样训练方法则构造这样一个训练任务,对于每个训练样本。比如给定一个句子中前面的若干单词,预测接下来的单词,就是典型的多分类任务。普通训练方式(比如softmax或logistics回归)中对于每个训练样本。之间的相关性,比如给定上下文x下y的条件概率。采用神经网络表示,通过损失函数的BP算法训练。多分类任务中每个训练样本标记为。,我们只需要计算一小部分。值,大幅度减少了计算量。可能会,也可能不会越依赖。表示目标类别,目标类型。我们都需要为每个类型。
2022-09-18 22:08:43
275
原创 Flow-based Generative Model
A generator G is a network.The network defines a probability distribution pGp_GpGz∼π(z)z \sim \pi(z)z∼π(z)x=G(z)∼pG(x)x = G(z) \sim p_G(x)x=G(z)∼pG(x)pG(x)=π(z)∣det(JG−1)∣p_G(x) = \pi(z)|det(J_{G^{-1}})|pG(x)=π(z)∣det(JG−1)∣G∗=argmaxG∑i=1mlogpG(xi), {x
2022-06-01 23:05:10
366
原创 固定效应和随机效应模型
三种数据类型横截面数据:特定的时间点对若干个体采集的样本所构成的数据集。时间序列数据:同一个个体在不同时间点上所观测的数据构成的数据集。面板数据:横截面数据与时间序列数据的结合,对横截面中的观测个体在时间上进行连续观测所得到的数据。面板数据模型的基本形式:yit=f(x1it,x2it,⋯ ,xkit)+uity_{it} = f(x_{1it},x_{2it},\cdots,x_{kit}) + u_{it}yit=f(x1it,x2it,⋯,xkit)+uiti=1,2,⋯ ,
2022-05-21 13:43:27
7601
原创 MathematicalStatistics (1)
“Models of course, are never true but fortunately it is only necessary that they are useful” – Geoge BoxWe can conceptualize the data structure and our goals more precisely, begin this in the simple examples.We can derive methods of extracting userful i
2022-05-04 11:52:44
548
原创 Linear Algebra (二)
代数余子式Cofactor of aija_{ij}aij as Cij=C_{ij} =Cij= [+/-] det (n-1 matix with row i and col j erased)Positive when i+j is even.Negative when i+j is odd.通过代数余子式计算矩阵行列式:detA=a11C11+a12C12+...+a1nC1ndet A = a_{11}C_{11} + a_{12}C_{12} + ... + a_{1n
2022-05-02 10:10:40
340
原创 行列式点过程(一)
行列式点过程DPP是离散有限点集Y={1,2,...N}\mathcal{Y}=\{1,2,...N\}Y={1,2,...N}的幂集2Y2^{\mathcal{Y}}2Y上的概率分布。体积与格拉姆矩阵Lij=g⃗(i)g⃗(j),i,j∈YL_{ij}=\vec{g}(i)\vec{g}(j), i,j\in YLij=g(i)g(j),i,j∈Ydet(LY)=det(g⃗(i)g⃗(j):i,j∈Y)det(L_Y) = det(\vec{g}(i)\vec{g}(j):i,j\in Y)
2022-04-23 22:56:46
786
原创 Exploitation and Exploration
推荐系统的经典问题之一,利用(Exploitation) 与 探索(Exploration)问题Exploitation:满足已知的用户需求Exploration:探索未知的用户需求Exploitation的必要性比较容易理解,通过满足用户已知的需求,产生用户价值,这也是推荐系统存在的意义。Exploration的价值怎么理解呢?首先,对于新用户而言,系统并不知道用户的需求,这时必须通过Exploration探索和发现用户的需求。其次,对于老用户而言,兴趣点也是在不断变化中的,这时也需要通过Exp
2022-04-17 10:07:44
598
原创 高斯过程(一)
高斯分布X=[X1X2⋮Xn]∼N(μ,Σ)X = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\X_n \end {bmatrix} \sim \mathcal{N}(\mu, \Sigma)X=⎣⎢⎢⎢⎡X1X2⋮Xn⎦⎥⎥⎥⎤∼N(μ,Σ)称XXX 服从高斯分布,μ\muμ表示n维高斯分布的期望。Σ=Cov(Xi,Xj)=E[(Xi−μi)(Xj−μj)]\Sigma = Cov(X_i,X_j) = E[(X_i-\mu_i)(X_j-\mu_j)]
2022-04-17 09:28:11
751
原创 Linear Algebra (一)
MultiplyAB=CAB = CAB=C[a11⋯a1n⋮⋱⋮am1⋯amn][b11⋯b1p⋮⋱⋮bn1⋯bnp]=[c11⋯c1p⋮⋱⋮cm1⋯cmp]\begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn}\end{bmatrix}\begin{bmatrix} b_{11} & \cd
2022-03-27 16:36:19
985
原创 Deep Deterministic Policy Gradient
π:S→P(A)\pi:\mathcal{S} \rightarrow \mathcal{P(A)}π:S→P(A)at∈A=RNa_t\in\mathcal{A} = R^Nat∈A=RNS\mathcal{S}S : state spacep(st+1∣st,at)p(s_{t+1}|s_t, a_t)p(st+1∣st,at)r(st,at)r(s_t,a_t)r(st,at)Rt=∑i=tTγ(i−t)r(si,ai)R_t = \sum_{i=t}^T\gamma^{(
2022-03-27 14:57:40
208
原创 LambdaMart
Boosting Treef(x)=fM(x)=∑m=1Mh(x;θm)f(\bold{x}) = f_M(\bold{x}) = \sum_{m=1}^Mh(\bold{x};\theta_m)f(x)=fM(x)=m=1∑Mh(x;θm)其中h(x;θm)h(\bold{x;\theta_m})h(x;θm)为第m棵树,θm\theta_mθm为第m棵树的参数,M为决策树的数量。前向分步算法:首先确定初始提升树f0(x)=0f_0(\bold{x}) = 0f0(x)=0第m步的
2022-03-27 14:54:20
1844
原创 Noise Contrastive Estimation
熵统计机器学习中经常遇到熵的概念,在介绍NCE和InfoNCE之前,对熵以及相关的概念做简单的梳理。信息量用于度量不确定性的大小,熵可以看作信息量的期望,香农信息熵的定义:对于随机遍历XXX,香农信息的定义为 I(X)=−log(P(X))I(X) = -log(P(X))I(X)=−log(P(X)),香农熵的定义为香农信息的期望H(X)=E(I(X))=∑xP(x)I(x)=−∑xP(x)log(P(x))H(X) = E(I(X))= \sum_{x} P(x)I(x) = -\sum_{x} P(
2022-03-20 23:08:54
835
Web Information Extraction
2018-11-28
嵌入式系统原理与设计 中文清晰版本
2014-01-24
嵌入式Linux应用程序开发标准教程
2014-01-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人