自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(138)
  • 资源 (4)
  • 收藏
  • 关注

原创 Double/Debiased Machine Learning

独立同步分布的观测数据Wi​Yi​Di​Xi​∣i∈1...n}},其中Yi​表示结果变量,Di​表示因变量,Xi​表示控制变量。目标参数θ0​EmW;θ0​η0​)]0W为观测到的变量,θ0​∈Θ为目标参数,η0​∈T为辅助参数θ0ATE​≡EEYi​∣Di​1Xi​−EYi​∣Di​0Xi​]]mIPW​Wi​;

2025-06-03 09:42:38 369

翻译 Linear Transformer

Q=x⋅WQQ=x\cdot W_QQ=x⋅WQ​K=x⋅WKK = x\cdot W_KK=x⋅WK​V=x⋅WVV = x\cdot W_VV=x⋅WV​V′=softmax(QTKD)VV' = softmax(\frac{Q^TK}{\sqrt{D}})VV′=softmax(D​QTK​)Vsim(q,k)=exp(qTkD,Vi′=∑j=1nsim(Qi,Kj)Vj∑j=1nsim(Qi,Kj))sim(q,k) = exp(\frac{q^T k}{\sqrt{D}},V'_i =\frac{

2025-04-29 20:43:39 23

原创 内积模型的性质

是一种在嵌入学习领域常使用的模型,模型首先得到物品的嵌入,然后通过最大似然估计训练模型参数,模型的学习结果是在嵌入空间中存在共现关系(条件概率较大)的物品相互靠近,不存在共现关系的物品相互远离。但一般情况下条件概率并不具有对称性和传递性,因此这是采用内积模型的时候需要重点考虑的问题。

2025-04-19 09:33:11 585

翻译 冷启动推荐:系统性综述

提示策略(Prompting Strategy) : 该系列研究通过将推荐任务重构为自然语言处理问题,设计了多种提示策略来引导大语言模型(LLMs)生成准确的(系统)冷启动推荐。多步提示(Muti-Step Prompting ): 尽管直接提示法可用于零样本/少样本推荐任务,但其性能表现仍逊色于经过完整用户-物品交互数据训练的传统推荐方法。检索增强(Retrieval-Augmented Recommendation)直接提示(Direct Prompting)模型调优(Model Tuning)

2025-04-06 13:28:00 158

原创 关联规则的评价指标

关联规则的定义:相依表:CCAf11​f10​f1​Af01​f00​f0​f1​f0​f关联规则的支持度:supportA=>CsupportA∩Cf11​f关联规则的置信度:confidenceA=>CsupportAsupportA=>C​f1​ff11​f​f11​f1​关联规则的提升度:liftA=>CsupportC。

2024-12-07 08:10:10 1053

原创 Independent Component Analysis

ICA

2024-11-24 12:44:28 351 1

原创 Fourier Transform

Fourier Transform 的一些重要性质的总结:Fαftβgt)]αFwβGw1)F−1αFwβGw)]αftβgt2)Fft−t0​)]e−iwt0​Fw3)F−1Fw−w0​)]eiw0​tft4)Ffat)]∣a∣1​Faw​5)FFt)]2πf−w6)Fdtndnt​iwnFw7。

2024-11-24 11:59:28 995

原创 Robust Regression

最小二乘回归受数据中的离群点的影响较大,稳健回归通过降低离群点的影响缓解此问题。min∑ρϵi​min∑ρyi​−β​∗Xi​函数ρρϵ≥0ρ00ρϵρ−ϵ目标函数关于带估计参数β​∂β​∑ρyi​−β​Xi​​∑−∂β​ρyi​−β​Xi​​Xi​≜∑ψρyi​−β​Xi​))Xi​其中ψϵ∂β​∂ρϵ​。

2024-07-07 11:00:53 786

原创 Simulated Annealing

【代码】Simulated Annealing。

2024-07-07 10:56:55 1252

原创 Quantile Regression

分位数:pXxτ​ττ∈01, xτ​为随机变量 X的 τ分位数均值回归、中位数回归、分位数回归:lossi∑n​ρyi​y​i​)uyi​−y​i​ρuu2ρu∣u∣ρuαuα−1u​​u≥0u0​。

2024-07-05 21:20:50 860

原创 累积分布函数的一些性质证明

性质1: EX∫0∞​1−Fx))dx−∫−∞0​Fxdx1证明:EX∫−∞∞​xpxdx=∫0∞​xpxdx∫−∞0​xpxdx=∫0∞​∫0x​pxdydx−∫−∞0​∫0x​pxdydx=∫0∞​∫y∞​pxdxdy−∫−∞0​∫−∞y​pxdxdy=∫0∞​1。

2024-07-05 12:07:43 1167

原创 扩散模型的一些公式证明

扩散模型的前向扩散过程:q(x1:T∣x0)=∏t=1Tq(xt∣xt−1),q(xt∣xt−1):=N(1−βt)xt−1,βtI)(1)q(x_{1:T}|x_0) = \prod_{t=1}^Tq(x_t|x_{t-1}),q(x_t|x_{t-1}):=\mathcal{N}(\sqrt{1-\beta_t})x_{t-1},\beta_tI)\quad(1)q(x1:T​∣x0​)=t=1∏T​q(xt​∣xt−1​),q(xt​∣xt−1​):=N(1−βt​​)xt−1​,βt​I)(1)

2024-05-27 20:40:47 2759 2

原创 Neural Turing Maching

Memory : MN×DControllert​i==∑k​expβKMt​iq))expβKMt​iq))​Kuv∣∣u∣∣⋅∣∣v∣∣∣u⋅v​Mt1​iMt​i⋅1−wt​i⋅ei​wt​i⋅ai​wt​i==∑k​expβKMt​iq))expβKMt​iq))​Kuv∣∣u∣∣。

2024-05-19 10:45:37 843

原创 Partial Distance Correlation

特征函数随机变量 X 的特征函数定义为:ϕX(t)≜E[eitX]=∫−∞+∞eitxf(x)dx\phi_X(t)\triangleq E[e^{itX}]=\int_{-\infty}^{+\infty}e^{itx}f(x)dxϕX​(t)≜E[eitX]=∫−∞+∞​eitxf(x)dx其中 fX(x)f_X(x)fX​(x) 为连续随机变量的概率密度函数。特征函数的一些性质如下:Y=X1+X2Y = X_1+X_2Y=X1​+X2​,X1,X2X_1,X_2X1​,X2​相互独立,则

2024-05-19 10:20:21 586

原创 变分自编码器(VAE)相关证明

VAE 模型便是这样的生成模型,VAE模型的优化目标即是所谓的ELBO Loss;各向独立的假设是比较强的假设,限制了模型的假设空间;在满足以上两点要求的前提下,为了提升模型的假设空间,一类做法是提升函数。生成模型通过建模变量的联合分布,学习样本的生成过程。判别模型则是建模变量之间的映射关系。的分布已经不是高斯分布。的计算方法,并通过证明揭示函数。,但是这类做法遇到的一个问题是。等价于样本的极大似然估计。以往的研究者们提出了多种函数。因此最大化 ELBO。以上证明我吗假定函数。

2024-03-31 08:58:46 973

原创 例解变分自编码器(VAE)

本文通过一个回归例子介绍变分自编码器。

2024-03-11 22:28:39 626

原创 Gumbel 重参数化相关性质证明

Gumbel 的采样过程:zargmaxi​gi​logπi​)}gi​−log−logui​))ui​∼U01采样得到的随机变量满足一下分布:gi​∼Gumble011)hi​gi​logπi​∼Gumblelogπi​12证明过程:PuPU≤uuu∈01)G−log−logU))u∈01)Pg。

2023-12-18 21:26:44 685

原创 图示矩阵分解

特征方程在复数范围内恒有解,解的个数为方程的次数(重根按重数计算),因此,n 阶矩阵。定理:一个 n 阶方阵 A 如果有 n 个不同的特征值,那么对应的 n 个特征向量互相线性独立。其中 P 是由 n 个正交特征向量组成的矩阵,D 是有特征值组成的对角矩阵。把一个对称正定的矩阵表示成一个下三角矩阵 L 与其转置的乘积的形式。,P 为A的特征矩阵组成的可逆矩阵,D是有A的特征值组成的对角矩阵。定理:任何 n 阶对称矩阵都有 n 个独立且正交的特征向量。都是 n 阶矩阵,若有可逆矩阵。称为 A 的相似变换。

2023-10-05 14:56:25 346

原创 评分和排名算法

排名是非常高频的需求,通常伴随着某种决策行为,比如投资行为,比赛投注行为,商品选购,等等。排名的对象五花八门,理财产品,参赛队伍,商品,网页,视频,等等。排名就是为这些对象产生一个有序的列表,可以先为对象产生一个评分,然后基于评分产生有序列表,也可以不产生评分直接产生最终的有序列表。排名问题形式简答,但解答却可能不简单,为具体场景设计合适的排名方法,是一个比较困难的问题。

2023-10-04 08:41:52 657

原创 从平均数到排名算法

平均数用更少的数字,概括一组数字。属于概述统计量、集中趋势测度、位置测度。中位数是第二常见的概述统计量。许多情况下比均值更合适。算术平均数是3中毕达哥拉斯平均数之一,另外两种毕达哥拉斯平均数是几何平均数和调和平均数。

2023-09-23 23:23:09 514

原创 AB测试结果分析

一、假设检验根据样本(小流量)的观测结果,拒绝或接受关于总体(全部流量)的某个假设,称为假设检验。假设检验的基本依据是小概率事件原理(小概率事件几乎不发生),如果小概率事件发生了,则有充分理由推翻原假设,否则接受原假设,检验的具体过程是:首先假定原假设成立,并寻找一个原假设成立条件下的发生概率微小的事件,称为检验事件,对应的统计量称为检验统计量其次是采集样本最后观测步骤 1 所定义的小概率事件是否发生若小概率事件发生,则拒绝原假设,接受备用假设若小搞错了时间未发生,则接受原假

2023-09-13 14:34:59 773

原创 Box-Cox 变换

的取值不同,box-cox变换包含了三类函数族:对数函数族、指数函数族、导致函数。的极大似然估计,使得。

2023-07-30 17:13:33 908

原创 bootstrap

​ 我们具有一个从总体中采样得到的样本 D,根据格里纹科定理,样本 D 的经验分布在样本容量 时等于总体的分布,也就是说当 n 较大时,样本 D 的经验分布是总体分布的很好的近似。上面的计算步骤其实是有些问题的,因为 p 值的定义是在原假设H_0成立的条件下计算的,上面第一步从总体中采样并不能满足原假设一定成立,因此依据这里采样的样本计算的并不能近似 p 值。这是基于抽样分布定理的假设检验方法,依赖的假设是所选择的检验统计量在原假设成立的条件下服从不含参数的特定分布,比如正太分布、t分布、卡方分布等等。

2023-05-18 11:14:21 1272

原创 PAC计算学习理论介绍

机器学习的过程是学习算法 $\mathcal{A}$ 依据 $E_{in}(g)\approx 0$ 为标准,从假设集合 $\mathcal{H}$ 中选择假设 g ,并期望满足 $E_{out}(g)\approx 0$,以达到获取目标函数 f 的近似函数的目标.

2023-03-29 17:51:12 1094

原创 数理统计与推荐系统

​ 社会活动或自然现象中变量之间存在着多种相互联系、相互制约的关系,对这些关系的观测,规律的研究,有利于提升对社会活动或自然现象的变化规律的理解,并进一步利用规律对活动或现象进行预测、干预。​ 变量之间的关系有些属于确定性的关系,也就是当其中某些变量的取值确定后,另外一些变量的取值可以完全确定。比如某商品售价 10 元一件,当销售量 x 确定后,销售额 y 可以通过方程 y=10xy = 10xy=10x 完全确定。​ 还有些变量之间虽然存在密切的联系,但是当其中某些变量取值确定后,另外的变量的取值并不能完

2023-03-24 10:18:18 314

原创 Reinforcement Learning

从贝尔曼方程说起

2023-02-08 22:05:21 473

原创 The Kalman Filter

n,n​=x^n,n−1​+α(zn​−x^n,n−1​)^n+1​=x^n​+Δtx˙^n​x˙^n+1​=x˙^n​n​=pn,n−1​+rn​pn,n−1​​n,n​=(1−Kn​)pn,n−1​n+1,n​=pn,n​。

2022-11-06 19:57:42 278

翻译 Dynamic Memory based Attention Network for Sequential Recommendation

S={x1​,x2​,...,x∣S∣​}={Sn​}n=1N​其中Sn​={xn,1​,xn,2​,...,xx,T​}表示第 n 个序列,T表示子序列的长度。

2022-09-21 10:45:11 207

原创 Candidate Samlping

采样训练方法则构造这样一个训练任务,对于每个训练样本。比如给定一个句子中前面的若干单词,预测接下来的单词,就是典型的多分类任务。普通训练方式(比如softmax或logistics回归)中对于每个训练样本。之间的相关性,比如给定上下文x下y的条件概率。采用神经网络表示,通过损失函数的BP算法训练。多分类任务中每个训练样本标记为。,我们只需要计算一小部分。值,大幅度减少了计算量。可能会,也可能不会越依赖。表示目标类别,目标类型。我们都需要为每个类型。

2022-09-18 22:08:43 275

原创 Flow-based Generative Model

A generator G is a network.The network defines a probability distribution pGp_GpG​z∼π(z)z \sim \pi(z)z∼π(z)x=G(z)∼pG(x)x = G(z) \sim p_G(x)x=G(z)∼pG​(x)pG(x)=π(z)∣det(JG−1)∣p_G(x) = \pi(z)|det(J_{G^{-1}})|pG​(x)=π(z)∣det(JG−1​)∣G∗=argmaxG∑i=1mlogpG(xi), {x

2022-06-01 23:05:10 366

原创 固定效应和随机效应模型

三种数据类型横截面数据:特定的时间点对若干个体采集的样本所构成的数据集。时间序列数据:同一个个体在不同时间点上所观测的数据构成的数据集。面板数据:横截面数据与时间序列数据的结合,对横截面中的观测个体在时间上进行连续观测所得到的数据。面板数据模型的基本形式:yit=f(x1it,x2it,⋯ ,xkit)+uity_{it} = f(x_{1it},x_{2it},\cdots,x_{kit}) + u_{it}yit​=f(x1it​,x2it​,⋯,xkit​)+uit​i=1,2,⋯ ,

2022-05-21 13:43:27 7601

原创 MathematicalStatistics (1)

“Models of course, are never true but fortunately it is only necessary that they are useful” – Geoge BoxWe can conceptualize the data structure and our goals more precisely, begin this in the simple examples.We can derive methods of extracting userful i

2022-05-04 11:52:44 548

原创 Linear Algebra (二)

代数余子式Cofactor of aija_{ij}aij​ as Cij=C_{ij} =Cij​= [+/-] det (n-1 matix with row i and col j erased)Positive when i+j is even.Negative when i+j is odd.通过代数余子式计算矩阵行列式:detA=a11C11+a12C12+...+a1nC1ndet A = a_{11}C_{11} + a_{12}C_{12} + ... + a_{1n

2022-05-02 10:10:40 340

原创 行列式点过程(一)

行列式点过程DPP是离散有限点集Y={1,2,...N}\mathcal{Y}=\{1,2,...N\}Y={1,2,...N}的幂集2Y2^{\mathcal{Y}}2Y上的概率分布。体积与格拉姆矩阵Lij=g⃗(i)g⃗(j),i,j∈YL_{ij}=\vec{g}(i)\vec{g}(j), i,j\in YLij​=g​(i)g​(j),i,j∈Ydet(LY)=det(g⃗(i)g⃗(j):i,j∈Y)det(L_Y) = det(\vec{g}(i)\vec{g}(j):i,j\in Y)

2022-04-23 22:56:46 786

原创 Exploitation and Exploration

推荐系统的经典问题之一,利用(Exploitation) 与 探索(Exploration)问题Exploitation:满足已知的用户需求Exploration:探索未知的用户需求Exploitation的必要性比较容易理解,通过满足用户已知的需求,产生用户价值,这也是推荐系统存在的意义。Exploration的价值怎么理解呢?首先,对于新用户而言,系统并不知道用户的需求,这时必须通过Exploration探索和发现用户的需求。其次,对于老用户而言,兴趣点也是在不断变化中的,这时也需要通过Exp

2022-04-17 10:07:44 598

原创 高斯过程(一)

高斯分布X=[X1X2⋮Xn]∼N(μ,Σ)X = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\X_n \end {bmatrix} \sim \mathcal{N}(\mu, \Sigma)X=⎣⎢⎢⎢⎡​X1​X2​⋮Xn​​⎦⎥⎥⎥⎤​∼N(μ,Σ)称XXX 服从高斯分布,μ\muμ表示n维高斯分布的期望。Σ=Cov(Xi,Xj)=E[(Xi−μi)(Xj−μj)]\Sigma = Cov(X_i,X_j) = E[(X_i-\mu_i)(X_j-\mu_j)]

2022-04-17 09:28:11 751

原创 Linear Algebra (一)

MultiplyAB=CAB = CAB=C[a11⋯a1n⋮⋱⋮am1⋯amn][b11⋯b1p⋮⋱⋮bn1⋯bnp]=[c11⋯c1p⋮⋱⋮cm1⋯cmp]\begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn}\end{bmatrix}\begin{bmatrix} b_{11} & \cd

2022-03-27 16:36:19 985

原创 Deep Deterministic Policy Gradient

π:S→P(A)\pi:\mathcal{S} \rightarrow \mathcal{P(A)}π:S→P(A)at∈A=RNa_t\in\mathcal{A} = R^Nat​∈A=RNS\mathcal{S}S : state spacep(st+1∣st,at)p(s_{t+1}|s_t, a_t)p(st+1​∣st​,at​)r(st,at)r(s_t,a_t)r(st​,at​)Rt=∑i=tTγ(i−t)r(si,ai)R_t = \sum_{i=t}^T\gamma^{(

2022-03-27 14:57:40 208

原创 LambdaMart

Boosting Treef(x)=fM(x)=∑m=1Mh(x;θm)f(\bold{x}) = f_M(\bold{x}) = \sum_{m=1}^Mh(\bold{x};\theta_m)f(x)=fM​(x)=m=1∑M​h(x;θm​)其中h(x;θm)h(\bold{x;\theta_m})h(x;θm​)为第m棵树,θm\theta_mθm​为第m棵树的参数,M为决策树的数量。前向分步算法:首先确定初始提升树f0(x)=0f_0(\bold{x}) = 0f0​(x)=0第m步的

2022-03-27 14:54:20 1844

原创 Noise Contrastive Estimation

熵统计机器学习中经常遇到熵的概念,在介绍NCE和InfoNCE之前,对熵以及相关的概念做简单的梳理。信息量用于度量不确定性的大小,熵可以看作信息量的期望,香农信息熵的定义:对于随机遍历XXX,香农信息的定义为 I(X)=−log(P(X))I(X) = -log(P(X))I(X)=−log(P(X)),香农熵的定义为香农信息的期望H(X)=E(I(X))=∑xP(x)I(x)=−∑xP(x)log(P(x))H(X) = E(I(X))= \sum_{x} P(x)I(x) = -\sum_{x} P(

2022-03-20 23:08:54 835

Web Information Extraction

Web Information Extraction : Extract relevant information from web documents.

2018-11-28

嵌入式系统原理与设计 中文清晰版本

嵌入式开发不可错过的资料,可以参考一下 第1章,嵌入式系统概述 第2章,嵌入式处理器 第3章,嵌入式存储器 第4章,接口、总线和典型外设 第5章,嵌入式硬件设计及其方法 第6章,嵌入式操作系统 第7章,嵌入式软件开发 第8章,嵌入式网络 第9章,项目实例分析 a,LED驱动 b,温度控制系统 c,多路视频服务器 d,智能家居系统 e,指纹识别系统

2014-01-24

嵌入式Linux应用程序开发标准教程

嵌入式Linux教程 第1章,Linux快速入门 第2章,linux基础命令 第3章,linux下C基础 第4章,嵌入式系统基础 第5章,嵌入式linux开发环境的搭建 第6章,文件IO编程 第7章,进程控制开发 第8章,进程间通信 第9章,多线程编程 第10章,嵌入式linux网络编程 第11章,嵌入式linux设备驱动开发 第12章,Qt图形编程基础

2014-01-24

OPENGL编程指南

[OPENGL编程指南] (美)Dave.Shreiner 扫描版

2014-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除