Puyi93-优快云博客

原创 Hilbert空间中随机变量的一点几何直觉

本文从几何视角探讨随机变量的基本性质。通过将离散型随机变量映射为三维空间中的点，并以概率平方根加权构造向量表示。定义随机变量内积为期望E(XY)，诱导的范数对应E(X²)¹/²，正交性对应独立性。期望可视作固定方向上的投影，所有期望都落在"期望线"上。中心化变量位于期望线的法平面，其长度即为标准差。相关系数等于中心化变量投影夹角的余弦。最后通过勾股定理揭示了期望平方与方差的关系，为概率概念提供了直观的几何解释。

2025-11-15 14:37:17 952

原创 LASSO框架（Belloni高维估计微课笔记）

本课程介绍了高维估计方法，从经典最小二乘（LS）到Lasso回归。在低维设定（N>p）下，LS估计的收敛速度与噪声、设计矩阵条件和维度p/N有关。而在高维问题（p/N→∞）中，通过稀疏性假设（‖β*‖0≤s≪N）和Lasso方法，可以利用受限等距（RE）条件将有效维度降低为s ln p，获得√(s ln p/N)的收敛速度。课程还讨论了Lasso的变体、后Lasso估计和置信区间构建等问题。

2025-11-12 16:17:01 660

原创分位数回归的交叉问题与模型误设

本文通过模拟研究探讨了分位数回归中的模型误设问题。在location-scale shift模型中，真实分位数函数为分段线性形式，当x在γ0 + γ1x=0两侧分布时，线性分位数回归会产生明显偏差。模拟结果显示：1）当数据集中在交点单侧时，线性模型拟合良好；2）数据分布在交点两侧时，线性模型出现严重误设，导致分位数曲线交叉；3）引入二次项可有效改善模型设定错误。研究验证了Koenker(2005)的观点，表明分位数回归模型设定对估计准确性具有重要影响，特别是在解释变量范围较广时需谨慎选择函数形式。

2025-08-13 15:27:49 1063

原创 LaTeX中所有数字都应该在数学环境中吗？

本文讨论了LaTeX中数字在文本中的排版问题

2025-05-23 22:58:07 884

原创用对称化与chaining技术bound经验过程上确界的期望（Guntuboyina理论统计学笔记）

本文讨论了经验过程理论中的对称化技巧、Rademacher复杂度、VC维、覆盖数与packing number以及chaining技巧。对称化技巧通过引入Rademacher随机变量，将问题转化为Rademacher复杂度的计算。对于Boolean函数类，利用VC维和Sauer--Shelah引理，可以推导出Rademacher复杂度的上界。

2025-05-22 14:21:13 1137

原创经验过程简介与suprema的集中（Guntuboyina理论统计学笔记）

本文介绍了UC Berkeley 2018年春季学期由Aditya Guntuboyina教授讲授的研究生课程《理论统计》（210B）的部分内容，主要聚焦于经验过程理论。课程首先探讨了经验过程中的两个核心问题：一致大数定律（ULLN）和一致中心极限定理（UCLT）。通过引入Rademacher复杂度和chaining方法，课程详细讲解了如何控制经验过程中的随机变量，并介绍了McDiarmid不等式、Bennett不等式和Talagrand不等式等工具，用于分析随机变量的集中性和收敛速度。

2025-05-20 15:18:08 978

原创 LaTeX中次级列表及其引用

在LaTeX中实现次级列表及其引用。

2025-02-12 13:30:49 347

原创概率理论的测度论基础（Sheffield概率理论课程笔记）

概率的测度论基础

2025-01-21 11:17:02 939

原创用Marcinkiewicz-Zygmund不等式bound独立随机变量之和的尾部概率

对于n个i.i.d.的随机变量Xi，有时需要boundSn∑i1nXi的尾部概率P∣Sn∣/n≥t（即均值大于某个阈值t）

2025-01-13 23:10:57 1115

原创通过骰子问题比较几种集中不等式的bound

这是Vershynin高维概率论的第四课和第五课的笔记。

2024-12-22 23:45:37 899

原创概率方法与近似版Caratheodory定理

通过证明近似版本Caratheodory定理介绍了概率方法（probabilistic method），也叫Maurey经验方法（Maurey’s empirical method）

2024-11-03 15:21:56 1222

原创从MC积分法看高维概率论的作用

用一个例子讲了为什么要研究高维概率论

2024-10-31 23:13:12 1136

原创 O_p(1)的epsilon-delta语言表示与极限表示

一般的课本上，在讲解Op_(1)时都是用ϵ−δ语言表示的，但在文献中，有时候会用极限表示，本文讲解两种语言如何转化。

2024-10-12 15:13:25 1126

原创 Knight恒等式（Knight, 1998, AoS）

分位数回归的文献中经常提到Knight不等式，但又不说明到底是什么，怎么来的，本文做个记录。

2024-10-08 14:03:07 705

原创几种线性模型（王松桂等《线性模型引论》笔记）

本书一共9章。第一章通过实例引进各种线性模型. 第二、三章补充矩阵论和正态分布的背景知识。从第四章起, 系统讨论线性模型统计推断的基本理论与方法，包括OLS、假设检验、置信区间、预测、线性回归模型、方差分析模型、协方差分析模型和线性混合效应模型。因此关于本书的笔记，略去对第二、三章的整理，而是在后面相应的位置再对所涉及的知识点做整理。

2024-09-12 13:12:36 1169

原创分位数回归简介（QR笔记）

本文是Koenker (2005) 第1章的笔记，QR是指分位数回归，本书是分位数回归中最经典的著作（没有之一）。本章主要用例子讲解什么是QR，以及QR的优势。

2024-09-09 12:03:37 1069

原创 beamer默认主题与unicode-math的右三角符号冲突

在LaTeX中，如果想使用更加深度定制的数学符号体系，很多人会选择用unicode-math包，配合XeLaTeX进行编译。但在beamer的default主题中，如果导入了unicode-math包，会发生冲突，导致右三角符号被改变（变大）。

2024-08-08 15:46:41 527

原创分布函数至多只有可数个不连续点

概率论中的经典问题：分布函数会有多少不连续点？

2024-07-04 14:22:06 1419

原创丘赛中的数据科学相关资料

丘成桐大学生数学竞赛中与数据科学相关的资料

2024-07-02 09:49:45 1117

原创向量空间中任一元素都可唯一地投影至两个正交的子空间中吗？

向量空间中任一元素都可唯一地投影至两个正交的子空间中

2024-06-03 22:14:56 875

原创概率测度的符号冲突

概率测度的符号冲突

2024-05-28 23:05:21 1047

原创 R中的任意开集可表示为可数个不相交的开区间之并

R中的任意开集可表示为可数个不相交的开区间之并

2024-05-12 15:27:17 2235 1

All of Data Science