
千里路
文章平均质量分 76
「已注销」
这个作者很懒,什么都没留下…
展开
-
将sas7bdat转为csv
将sas7bdat转换为csv原创 2022-06-07 20:58:51 · 2163 阅读 · 1 评论 -
依分布收敛的定义细节
1 定义依分布收敛的定义是这样的:随机变量序列{Xn}n=1∞\{X_n\}_{n=1}^{\infty}{Xn}n=1∞,若它们的累积分布函数cdf序列{F1}n=1∞\{F_1\}_{n=1}^{\infty}{F1}n=1∞,与某个随机变量XXX的cdf FFF,满足limn→∞Fn(x)=F(x)\lim_{n\to\infty} F_n(x)=F(x)n→∞limFn(x)=F(x)在任意F(x)F(x)F(x)的连续点xxx处都成立。则称它们依分布收敛到随机变量XXX,记原创 2021-09-28 12:56:55 · 2686 阅读 · 0 评论 -
Jensen不等式及其应用
Jensen不等式的形式非常多,这里关注有关于期望的形式。1 Jensen不等式Jensen不等式:已知函数ϕ:R→R\phi: \mathbb{R}\to\mathbb{R}ϕ:R→R为凸函数,则有ϕ[E(X)]≤E[ϕ(X)]\phi[\text{E}(X)]\leq \text{E}[\phi(X)]ϕ[E(X)]≤E[ϕ(X)]。证明过程很直接,因为ϕ:R→R\phi: \mathbb{R}\to\mathbb{R}ϕ:R→R为凸函数,所以存在线性函数l:R→Rl: \mathbb{R}\to原创 2021-08-12 20:14:27 · 1438 阅读 · 0 评论 -
最小角回归详解
本文介绍LAR(Least angle regression,最小角回归),由Efron等(2004)提出。这是一种非常有效的求解LASSO的算法,可以得到LASSO的解的路径。1 算法介绍我们直接看最基本的LAR算法,假设有NNN个样本,自变量是ppp维的:先对XXX(N×pN\times pN×p)做标准化处理,使得每个predictor(XXX的每列)满足x⋅j′1N=0x_{\cdot j}' 1_N=0x⋅j′1N=0,∥x⋅j∥=1\Vert x_{\cdot j}\Vert=1∥x原创 2021-06-29 17:33:37 · 1409 阅读 · 1 评论 -
QR分解与线性回归
1 一元回归与多元回归任何一本初级水平的计量经济学、统计学或机器学习相关书籍,都会详细推导多元线性线性回归的解,在这里就不再赘述。我们给出本文用到的一些设定。yyy为NNN维因变量向量,假设y=Xβ+ϵy=X\beta+\epsilony=Xβ+ϵ,如果自变量为ppp维,将XXX排为N×(p+1)N\times (p+1)N×(p+1)矩阵,其中第一列x⋅0=1Nx_{\cdot 0}=1_Nx⋅0=1N为全是111的截距项,我们有最小二乘估计:β^=(X′X)−1X′y\hat \beta =原创 2021-06-24 17:39:11 · 899 阅读 · 0 评论 -
Curse of Dimensionality
1 Curse of dimensionality我们知道,kkk-NN算法是一种非常简单又很有效果的算法,它的核心思想就是局部近似。究其原因,就是因为它可以很好地对条件期望进行近似,一方面它用样本均值代替了期望,另一方面它用给定某个点的邻域代替了该点,结合起来,就是用在邻域内的样本均值,取代了在该点处的条件期望。但是,在高维问题中,kkk-NN会逐渐变得无效。为什么?还要从高维问题的一些特点说起。首先,高维空中的样本,分布非常稀疏。假设有一个单位体积的超立方体(hypercube),即每个维度的“边原创 2021-06-22 16:06:49 · 223 阅读 · 0 评论 -
LASSO的解法
LASSO非常实用,但由于它的惩罚项不可以常规地进行求导,使得很多人以为它无法显式地求解出解析解。但其实并不是这样的。1 单变量情形:软阈值法将NNN个样本的真实值记为NNN维向量yyy,将NNN个样本的自变量记为zzz,假设我们已经将自变量做过标准化,即z′ℓn=0z' \ell_n=0z′ℓn=0,z′z/N=1z'z/N=1z′z/N=1,这也意味着在LASSO模型中截距项为000。系数β\betaβ是要优化的参数,惩罚项参数为λ>0\lambda\gt 0λ>0。LASSO就是要原创 2021-06-17 15:55:19 · 2088 阅读 · 0 评论 -
经验分布函数简介
1 概念如果我们想知道某个随机变量XXX的分布FFF,这在一般情况下当然是无法准确知道的,但如果我们手上有它的一些独立同分布的样本,可不可以利用这些样本?一个很简单的办法就是,把这些样本的“频率”近似为随机变量的“概率”。经验分布函数(empirical distribution function):给每个点1/n1/n1/n的概率质量,得到CDF:F^n(x)=∑i=1nI(Xi≤x)n\hat{F}_n(x) = \dfrac{\sum_{i=1}^{n}I(X_i\leq x)}{n}F^n原创 2021-06-15 14:17:48 · 7966 阅读 · 0 评论 -
Hoeffding不等式简介
1 Hoeffding不等式Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。它的思想与Markov不等式有些类似,我们先给出它的形式:Hoeffding不等式:Y1,…,YnY_1,\ldots,Y_nY1,…,Yn为独立观测,E(Yi)=0E(Y_i)=0E(Yi)=0,ai≤Yi≤bia_i\leq Y_i\leq b_iai≤Yi≤bi。对于ϵ>0\epsilon\gt 0ϵ>0,∀t>0\forall t \gt 0∀原创 2021-06-14 19:33:30 · 1158 阅读 · 0 评论 -
正态分布密度函数的系数
正态分布的密度函数,可以一般化地写为f(x)=kexp[−12(x−b)′A(x−b)]f(x) = k \exp\left[-\dfrac{1}{2}(x-b)' A (x-b)\right]f(x)=kexp[−21(x−b)′A(x−b)]事实上,如果某个多维随机变量的密度函数可以写成该形式,那么它就服从正态分布。其中bbb是均值,正定矩阵AAA是协方差矩阵的逆,它们共同决定了正态分布的形式。而另外一个字母kkk,仅仅是归一化系数,它是使得整个密度函数的积分等于111的那个值。如果有人背原创 2021-06-10 23:21:06 · 1808 阅读 · 0 评论 -
条件期望误差的有限性
1 CEF error的有限性问题在回归中,记条件期望函数(conditional expectation function,CEF)为E[Y∣X=x]E[Y|X=x]E[Y∣X=x],则可将因变量YYY分解为Y=E[Y∣X=x]+eY=E[Y|X=x]+eY=E[Y∣X=x]+e可记e=Y−E[Y∣X=x]e=Y-E[Y|X=x]e=Y−E[Y∣X=x]为条件期望函数误差(CEF error)。显然,eee满足E[e∣X]=0E[e|X]=0E[e∣X]=0,E[e]=0E[e]=0E[e]=原创 2021-06-05 13:23:47 · 632 阅读 · 0 评论 -
数据标准化
1 为何需要标准化有的数据,不同维度的数量级差别较大,导致有的维度会主导整个分析过程。如下图所示:该图的数据维度d=30d=30d=30,样本量n=40n=40n=40,上面的图是对原始数据做PCA后,第一个PC在各个维度上的权重的平行坐标图,下面的图则是对数据做标准化之后的情况。可以发现,在原始数据中,第444和242424个维度的权重非常大。如果其他的维度也包含了重要的信息,而我们只取第一个PC做研究,可能就会造成信息损失。2 如何标准化那该如何预处理数据?一般而言有两种处理方法。2.1 S原创 2021-05-17 19:32:55 · 671 阅读 · 0 评论 -
平行坐标图简介
高维数据的可视化是一个很大的问题,Inselberg(1985)提出了一种好办法,称为平行坐标图(parallel coordinate plots)。它有竖直的(vertical)和水平的(horizontal)两种画法。Vertical parallel coordinate plots:对于一个ddd维的样本,它的值是一个随机向量X=(X1,X2,…,Xd)′X=(X_1,X_2,\ldots,X_d)'X=(X1,X2,…,Xd)′,不断在坐标系中描出点(X1,1)(X_1,1)(X1,1原创 2021-05-14 12:05:35 · 1285 阅读 · 0 评论 -
工具变量原理
在做回归时,很多时候会有E(xtεt)≠0\text{E}(x_t \varepsilon_t)\neq 0E(xtεt)=0的情况,这也意味着不满足外生性条件E(ε∣X)=0\text{E}(\varepsilon|X)=0E(ε∣X)=0,此时的OLS估计量β^\hat\betaβ^就不再满足无偏性,并且随着nnn的变大,它的bias也无法变小。若对此无法理解,请先掌握《小样本OLS回归梳理》中的内容。此时该怎么办?一种解决方法是利用一些与ε\varepsilonε无关的变量,这就是工具变量原创 2021-04-25 13:52:04 · 1266 阅读 · 0 评论 -
方差分解公式
在有些时候,直接计算随机变量的方差非常麻烦,此时可以用方差分解公式,将方差分解为条件期望的方差加条件方差的期望:Var(X)=Var[E(X∣Y)]+E[Var(X∣Y)]\text{Var}(X)=\text{Var}[\text{E}(X|Y)]+\text{E}[\text{Var}(X|Y)]Var(X)=Var[E(X∣Y)]+E[Var(X∣Y)]证明非常简单,注意到Var[E(X∣Y)]=E{[E(X∣Y)]2}−{E[E(X∣Y)]}2=E{[E(X∣Y)]2}−[E(X)]2\原创 2021-04-21 17:10:20 · 5753 阅读 · 1 评论 -
行列式的求导
在应用中,经常会碰到需要对某个矩阵的行列式进行求导的情况。而行列式的计算方法比较复杂,如果将它展开成后计算,会比较麻烦,因此最好直接记住一些结论。本文以计算∂∣A∣∂A\dfrac{\partial |A|}{\partial A}∂A∂∣A∣和∂ln∣A∣∂A\dfrac{\partial \ln |A|}{\partial A}∂A∂ln∣A∣为例,介绍如何对行列式求导,并希望大家可以记住结论。首先,为防止大家线性代数的内容忘得差不多了,我们先以方阵AAA(n×nn\times nn×n)为例原创 2021-04-19 17:09:42 · 8592 阅读 · 4 评论 -
几乎必然收敛的含义
1 几乎必然收敛的概念几乎必然收敛(almost sure convergence),又叫以概率1收敛(convergence with probability 1),定义为:随机变量序列{Xn}\{X_n\}{Xn}满足P(limn→∞Xn→X)=1\mathbf{P}(\lim_{n\to \infty} X_n\to X)=1P(n→∞limXn→X)=1则Xn→a. s. XX_n\xrightarrow{\text{a. s. }}XXna. s.原创 2021-04-15 22:43:18 · 5102 阅读 · 0 评论 -
正态分布的条件分布与边缘分布
本文总结多元正态分布的条件分布与边缘分布,证明不难,但都比较繁琐,故不做详细证明,有兴趣可以参考Pattern Recognition and Machine Learningy一书。1 正态分布的条件分布对于联合正态分布变量x∼N(μ,Σ)x\sim N(\mu,\Sigma)x∼N(μ,Σ),定义精度矩阵(the precision matrix)为协方差矩阵的逆,即Λ≡Σ−1\Lambda\equiv \Sigma^{-1}Λ≡Σ−1,做分块处理:x=[xaxb],μ=[μaμb],Σ=[Σaa原创 2021-04-14 13:38:06 · 5556 阅读 · 0 评论 -
多元正态分布初识
在本科阶段的教材中,往往会有多元正态分布的公式出现,但课堂上都不会重点讲解,而在研究生入学考试中也基本不会考。但在实际应用中,多元的情况却非常常见。本文通过对多元正态分布的公式进行拆解,来看看它到底是怎么回事。多元正态分布公式对于DDD维正态分布变量xxx,直接上它的密度公式:N(x∣μ,Σ)=1(2π)D/21∣Σ∣1/2exp{−12(x−μ)′Σ−1(x−μ)}\mathcal{N}(x|\mu,\Sigma)=\dfrac{1}{(2\pi)^{D/2}}\dfrac{1}{\vert\原创 2021-04-13 13:22:11 · 695 阅读 · 0 评论 -
利用矩母函数求独立随机变量之和的分布
在求独立的随机变量之和的分布时,可用矩母函数法。1 矩母函数法定理 已知X1,…,XnX_1,\ldots,X_nX1,…,Xn为独立的随机变量,各种的矩母函数为M1,…,MnM_1,\ldots,M_nM1,…,Mn,a1,…,ana_1,\ldots,a_na1,…,an为常数,则Y=∑i=1naiXiY=\sum_{i=1}^{n}a_i X_iY=∑i=1naiXi的矩母函数为MY(t)=E[exp(t∑i=1naiXi)]=∏i=1nMi(ait)M_Y(t)=\tex原创 2021-04-12 20:58:07 · 3075 阅读 · 0 评论 -
Cauchy-Schwarz不等式、Hölder不等式与Minkowski不等式
本文介绍几个常用的与期望有关的不等式。1 Cauchy–Schwarz不等式Cauchy–Schwarz不等式的形式为:[E(XY)]2≤E(X2)E(Y2)[\text{E}(XY)]^2 \leq \text{E}(X^2)\text{E}(Y^2)[E(XY)]2≤E(X2)E(Y2)证明非常简单,只需先将YYY分解为相互正交的两部分(类似于OLS回归):Y=E(XY)E(X2)X+(Y−E(XY)E(X2)X)Y=\dfrac{\text{E}(XY)}{\text{E}(X^2)}原创 2021-04-08 15:26:44 · 1685 阅读 · 0 评论 -
概率空间与随机变量的概念
中学阶段的概率的概念,无法满足后续学习的要求,因此必须从测度论角度重新定义概率。本文整理了一些相关概念。1 概率的公理化定义定义 概率空间(probability space):三元参数组(Ω,F,P)(\Omega, \mathcal{F}, \mathbf{P})(Ω,F,P)定义了一个概率空间。其中Ω\OmegaΩ是样本空间,即一个随机试验的所有可能结果,F\mathcal{F}F是样本空间Ω\OmegaΩ的子集的集合,称为σ\sigmaσ-域(σ\sigmaσ-field),P\mathbf{原创 2021-04-07 15:05:47 · 979 阅读 · 0 评论 -
Python模拟随机漫步
本文用Python模拟随机漫步行为。1 使用内建的的random模块import randomposition = 0walk = [position]steps = 1000for i in range(steps): step = 1 if random.randint(0, 1) else -1 position += step walk.append(position)random模块每次只能生成一个样本值,效率很低。如果要生成大量样本值,可用numpy.r原创 2021-03-27 12:20:47 · 473 阅读 · 1 评论 -
NumPy数组切片的复制问题
在使用NumPy数组时,有一个要注意的地方:在取数组的切片时,取出来的切片(Slices)仅仅是原始数组的视图(Views),而非它的复制!这与Python的built-in的list不同。arr = np.arange(10)arr输出:array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])接着,可以用广播的方式给其中的切片赋值:arr[5:8] = 12arr输出:array([ 0, 1, 2, 3, 4, 12, 12, 12, 8, 9])如果我原创 2021-03-26 16:13:19 · 645 阅读 · 1 评论 -
定矩阵的性质
正定(P. D.,positive definite)、负定(N. D.)、半正定(P. S. D.,positive semidefinite)、半负定(N. S. D.)统称定矩阵。定矩阵有如下一些性质:aaa为n×1n\times 1n×1向量,则A=aa′A=aa'A=aa′必为半正定矩阵;若AAA半正定(正定),则AAA的所有特征值均不小于(大于)000;若AAA为n×nn\times nn×n的实对称半正定矩阵,则必存在矩阵CCC使得A=C′CA=C'CA=C′C。注意这里的CCC不是原创 2021-01-17 19:59:00 · 752 阅读 · 0 评论 -
实对称矩阵的基本性质
设AAA为n×nn\times nn×n实对称矩阵,则AAA的特征值都是实数;不同特征值对应的特征向量相互正交;AAA可对角化,即存在一个正交阵(orthogonal matrix)XXX(即X’X=I)和一个对角阵Λ=diag{λ1,…,λ2}\Lambda=\text{diag}\{\lambda_1,\ldots,\lambda_2\}Λ=diag{λ1,…,λ2},使得X′AX=ΛX'AX=\LambdaX′AX=Λ;∣A∣=∏i=1nλi\vert A\vert=\prod\limi原创 2021-01-17 19:43:01 · 1759 阅读 · 0 评论 -
一般回归问题、线性回归与模型的正确设定
1 一般回归问题一般来说,计量经济学教材会从线性回归讲起,但这里再在线性回归之前,理一理更一般性的回归问题。先看定义一下什么叫回归:定义1 回归函数(Regression Function):E(y∣x)\mathbb{E}(y|\mathbf{x})E(y∣x)就是yyy对x\mathbf{x}x的回归函数。再定义一个度量预测得好不好的指标:定义2 均方误(Mean Squared Error,MSE):假设用g(x)g(\mathbf{x})g(x)预测yyy,则预测量g(x)g(\ma原创 2021-01-07 22:46:50 · 858 阅读 · 0 评论 -
马尔可夫不等式和切比雪夫不等式
Markov’s Inequality中文叫马尔科夫不等式或马尔可夫不等式。若随机变量XXX只取非负值,则∀a>0\forall a>0∀a>0,有P(X≥a)≤E(X)a\mathbb{P} (X\ge a) \le \dfrac{\mathbb{E}(X)}{a}P(X≥a)≤aE(X)证明:取Ya=aI(X≥a)Y_a=a\mathbb{I}(X\ge a)Ya=aI(X≥a),则必有Ya≤XY_a\le XYa≤X,进而有E(Ya)≤E(X)\mathbb{E}原创 2020-12-09 14:35:36 · 1517 阅读 · 0 评论 -
贝叶斯方法与Ridge回归的联系
贝叶斯方法与Ridge回归有什么联系?废话少说,我们直接来看。为了方便说明问题,考虑一维的自变量,将一系列自变量排成向量的形式:x=(x1,⋯ ,xN)T\mathbf{x}=(x_1,\cdots,x_N)^Tx=(x1,⋯,xN)T,对应的目标函数为t=(t1,⋯ ,tN)T\mathbf{t}=(t_1,\cdots,t_N)^Tt=(t1,⋯,tN)T。我们假设样本中每个ttt都独立,且服从正态分布,分布的均值为y(x,w)=∑j=0Mwjxjy(x,\mathbf{w})=\sum_{原创 2020-12-02 23:33:47 · 562 阅读 · 0 评论 -
一个二分类下没有免费午餐定理的题
一个证明题周志华《机器学习》第一章中,有一个关于“没有免费的午餐”定理的题目,题目是这样的:假设样本空间X\mathcal{X}X和假设空间H\mathcal{H}H都是离散的,令P(h∣X,La)P(h|X,\mathcal{L}_a)P(h∣X,La)为算法La\mathcal{L}_aLa基于训练数据XXX产生假设hhh的概率,令fff代表真实目标函数。考查二分类问题,fff可以是任何函数X↦{0,1}\mathcal{X} \mapsto \{0,1\}X↦{0,1},函数空间为{0,1}∣原创 2020-10-28 21:39:45 · 344 阅读 · 0 评论