统计学
文章平均质量分 86
3A是个坏同志
SG-Studio负责人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
推导二项型事件的随机变量标准误差:两种方法
二项型事件的标准误差公式是这样的,其中f为先验分布(根据中心极限定理为正态分布)的PDF。给定采样数据和边界i,可以计算q值(采样数据中x<i的频率)和对应的值(CDF值为i时对应的x),然后用该公式得到随机变量X在x<i这件事上的标准误差。我们来看看这个公式怎么推导。首先定义一下符号,二项型事件的一个典型是VaR,这里我们以VaR为例:设F是随机变量为收益值的CDF,所以我们有,是某个收益金额,q是收益小于这个金额的概率;n是采样数量。先进行一些前置推导:根据收益期望为0,则有:当时,收益小于q的概率原创 2025-03-05 18:00:42 · 876 阅读 · 0 评论 -
回归分析扫盲:为什么非线性模型不能直接用最优子集选择法
有个学经济的同学说我说的不对,这篇文章说的这个方法其实是经济学建模常用的方法“最优子集选择法”——如果你也这么认为,那就说明你既不懂数学上的函数拟合、也不懂经济学上的回归分析。首先,“最优子集选择法”不是用来干这件事的,其次,“最优子集选择法”也不能在这种模型上用。下面我来讲讲为什么。原创 2023-08-25 21:44:50 · 798 阅读 · 0 评论 -
针对结构映射的SVM算法:核心思路解读
最近在准备做一个NER和指代消解相关的课题,在和同学们读相关文章。今天有个同学找到了个挺有意思的文章,用SVM做NER的。我感觉这想法挺奇特的,SVM怎么处理文本和序列?于是我去看了一下,他找的那篇文章是个套壳文章,核心算法引用了一篇很多年之前发表的,讲如何将SVM用于结构化数据映射的文章............原创 2022-08-13 19:58:51 · 885 阅读 · 0 评论 -
神经网络可以解决一切问题吗:一场知乎辩论的整理
前言:2014年,Deepmind提出了神经图灵机。其后,各种传统软件系统的可微版本被提出,基于自动微分框架的反向计算能力,神经网络被应用于大量新颖的场景。基于这些事实,一些机器学习外围的理论研究人员认为,由于神经网络与图灵机的计算模型(可以被认为)等价,因此可以解决一切有价值的问题;或者认为,一切人脑有可能解决的问题,都可以通过深度学习解决。昨天在刷知乎的时,针对这一观点,我与一个同学展开了讨论,由于里面有一些有价值的信息,因此把讨论记录整理到这里。本文所述的内容可以看作是之前《Policy Evalua原创 2022-07-31 18:20:37 · 1894 阅读 · 1 评论 -
Policy Evaluation的收敛性是怎么一回事
完美的学习算法昨天和同学在群里讨论DRL里bad case的问题。突然有同学提出观点:“bad case其实并不存在,因为一些算法已经理论证明了具有唯一极值点,再加上一些平滑技巧指导优化器,就必然可以收敛。”当听到这个观点时,我是一时语塞。因为当前深度学习研究的最大问题就是,花了很大资源训练的千万参数神经网络根本不work,一切都白白浪费。因此才有NAS之类方法尝试根据一些训练初期的动力学性质调整结构,找出合适的超参数,但也是效果平平。如果真有一个这么完美的学习算法,那岂不是任何问题都能解决了?但根原创 2022-03-31 21:30:39 · 1707 阅读 · 0 评论 -
针对多轮推理分类问题的软标签构造方法
Motivation在非对称博弈中,我们常常要对对手的状态(如持有的手牌类型)进行推理。此类推理问题有两个特点:(1) 虽然存在正确结果,但正确结果往往无法经过一次推理得到。因为随着游戏的进行,才能获得足够的信息 (2) 虽然无法一次性获得正确的结果,但可以基于现有信息推理获得更正确的分布。更正确的分布会有益于我们在接下来的游戏中做出正确决策。基于这两个特点,我们考虑一个简化的问题:我们想要知道对手持有的(唯一)一张手牌的类型。该问题可以被理解为多分类问题。考虑使用神经网络的情况,由于需要进行多轮推原创 2022-02-19 02:15:54 · 3680 阅读 · 0 评论 -
针对垂直问题的高性能机器学习算法设计
这是我前几天在CCF青年大会学生论坛的报告内容。因为台上每个人就给十分钟,所以算法细节和一些我自己的想法都没讲,这是15分钟的完整讲稿。现在深度学习非常火,像计算机视觉、自然语言处理这些面向很多问题的泛领域都有很强大的预训练模型。这些预训练模型能解决很多问题,所以现在面对一个特定问题,很多人的基本操作就是基于预训练模型套上数据调一下,看看效果怎么样。这么做能解决很多问题,但因为预训练模型体量一般都很大,这么搞不管是训练还是推断都有很大的计算开销。而且本身调这个过程也充满了不确定性,所以大家说深度学.原创 2021-05-17 16:33:47 · 456 阅读 · 0 评论 -
没学好统计学的下场
刚才看了一篇文章:Huimin,Zhang,Lingfei,etal.TheCinderellaComplex:Wordembeddingsrevealgenderstereotypesinmoviesandbooks.[J].PloSone,2019,14(11):e0225385.这篇文章是说神魔的呢?我们来看看摘要:我们对数千部电影和书籍的分析揭示了这些文化产品是如何将陈规定型的性别偏见编织成道德故事,并通过讲故事使这种性别偏见流传下去。通过运用词语嵌...原创 2021-03-01 22:28:07 · 639 阅读 · 0 评论 -
投资组合理论的简单介绍
现代投资组合理论有很多分支,如:投资组合理论、资本资产定价模型、套利定价模型、行为金融理论以及有效市场理论等。这些理论改变了人们对资产管理的传统认知,促使现代的资产管理更系统化和更科学化的发展。1952年,经济学家Markowitz发表了《证券组合选择》,其中建立了均值–方差模型,并且对收益和风险进行了量化,从而确定了最优的资产组合基本模型。这项研究成果使现代金融理论的研究进入了一个崭新的阶段。不过它也存在一些缺陷:首先,大部分证券收益率都不满足正态分布;其次,用方差来度量风险,违背了投资者的风险心理;此外原创 2021-01-01 17:39:38 · 1859 阅读 · 0 评论 -
还是别看学位论文
最近我实验室的一个组在做疫情预测的工作。效果还行,论文也写的差不多了。不过上面的老师说引的文章都太老了,让再加点新的。于是今天下午我就和大家一起看文献。之所以之前引的都比较老,主要是因为传染病预测这块分两派,一派是理论建模派,主要工具就是微分动力模型,一般医院等非数理统计背景的机构(包括新冠疫情这段时间网上那些“数学模型告诉你为什么呆在家里”)喜欢用这个,因为直接对接传染病理论,列几个微分方程就能求出函数来,十分清晰。缺点就是可能没什么用,因为现实里的很多复杂情况不是你加几个方程就能cover的了的。这原创 2020-07-01 12:54:05 · 901 阅读 · 1 评论 -
让深度学习歇一会吧
本来想写长文,但是这几天休息不好,就简单写了。几个月前我看到一篇“用深度学习解微分方程”的文章,号称“AI攻破高数,吊打Mathematica”,各大“AI媒体”大概都推送了,很多人应该也都知道。其实速度上吊打没什么稀奇的,毕竟神经网络的推断相当于是O(1)的,如果愿意,可以吊打任何算法(当然准确度就……)。关键是解微分方程的过程其实是一种形式推理,神经网络作为一个通过数据来拟合函数的方法,是如何能保证推理步骤的准确性的呢?于是下载看了一下那个文章,惊奇的发现它居然有一个表在拿自己和Mathematic原创 2020-05-25 03:01:03 · 1535 阅读 · 3 评论 -
什么是外生变量和内生变量
python的计量经济学包statsmodels中使用endog和exog作为数据参数的变量名,即在估计问题中使用的观测变量。在不同的统计软件包或教科书中经常使用的其他名称,例如endog/exog被叫做因变量(dependent variable)/自变量(independent variable)、y/x、left hand side(LHS)/right hand side (RHS)、回归变数(regressand)/回归量(regressors)、outcome/design、响应变量/解释变量。原创 2020-05-19 21:03:50 · 23982 阅读 · 0 评论
分享