2、数据而非教条:大数据、开放数据与未来机遇

数据而非教条:大数据、开放数据与未来机遇

一、经验模型的魅力与局限

经验模型通常具有一些吸引人的特点。它们往往是多个相对简单的组件模型的组合应用。例如在信用评分中,大量的申请人会被分成不同的细分群体(就像分类树那样),然后为每个细分群体构建单独的模型(通常是描述申请人特征的线性模型)。这种模型非常容易描述,即使是对统计学不太了解的人也能明白。与基于信念网络等复杂模型来总结多个相互作用特征之间关系的模型相比,它的结构更加易于理解。

随机森林分类器也是一个例子。在随机森林中,许多非常简单的组件分类器组合在一起,给出类别归属的总体估计概率。谷歌翻译的核心也是简单的文本字符串匹配操作。

有一个关于统计分析的基本定理:熟练且敏锐地使用简单模型,并深入理解其特性和局限性,比盲目应用高级方法更有效。上述涉及大量简单组件模型的经验模型就是这一定理的例证。

所有模型从定义上来说都是错误的。因为所有模型都必须是简化的,必然会忽略一些细节。正如Rosenblueth和Wiener在1945年所说:“宇宙中没有一个重要部分是如此简单,以至于可以不经过抽象就被掌握和控制。抽象就是用一个结构相似但更简单的模型来替代所考虑的宇宙部分。”抽象是建模中必要且有价值的方面,无论是在经验建模中忽略数据的微小波动,还是在实体建模中忽略微小影响和高阶效应。

Jorge Luis Borges的故事《论科学的精确性》描述了制图师们对越来越大比例尺地图的精度不满意,最终制作出一幅与帝国大小相同、点对点匹配的地图。但后代人意识到这幅地图毫无用处,任其被自然破坏。这表明模型若要有用处,就必须是错误的,但这种错误必须是“正确的方式”,这就是为什么数据分析是一门需要技巧的专业。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值