听起来比较抽象,我们举个例子。
傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞,嗯,明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,心里期待着享受这个好瓜。

由路面微湿、微风、晚霞得出明天是个好天气。根蒂蜷缩、敲声浊响、色泽青绿推断出这是个好瓜,显然,我们是根据以往的经验来对未来或未知的事物做出预测。
人可以根据经验对未来进行预测,那么机器能帮我们做这些吗?
能,这就是数据挖掘。

“经验”通常以“数据”的形式存在,数据挖掘的任务就是从历史数据(之前挑瓜的经历,注意是经历还不是经验)中挖掘出有用的“知识”,也就是所谓“模型”(现在就形成经验了),在面对新情况时(未抛开的瓜)模型就可以用来预测(是不是好瓜)。
用高中生能理解的数学语言来讲,数据挖掘建模任务的本质就是,根据一些历史已有的、从输入空间 X(如 {[色泽青绿;根蒂蜷缩;敲声浊响],[色泽乌黑;根蒂蜷缩;敲声沉闷],[色泽浅白;根蒂硬挺;敲声清脆]} )到输出空间 Y(如 {好瓜,坏瓜,坏瓜})的对应,找出一个函数 f,来描述这个对应关系,这个函数就是我们要的模型。
有了模型之后再做预测就简单了,也就是拿一套新 x,用这个函数算一个 y 出来就完了。

那么,模型又是怎么建立出来,也就是这个函数是怎么找出来的呢

数据挖掘可以通过历史数据建立预测模型,用于风险控制、工艺改进等场景。一个完整的挖掘项目包括业务理解、数据理解、数据准备、建模、评估和部署。预处理和建模是最具技术挑战性的部分,需要对数据进行清洗、构造和算法选择。普通人学习数据挖掘需掌握数学基础,而预处理和建模的深入理解尤为关键。
最低0.47元/天 解锁文章
931

被折叠的 条评论
为什么被折叠?



