一、碎语
在开始记述最近看的的模型分类的三种方式前,先唠几句闲嗑(或许,这也是自我编写自我的博客最自在的地方,没有什么严格的条条框框,随心所欲的记述一些脑子里突然想到的有的没的的想法,然后顺带记录点正事。待他日回首,些许能从这些碎语中,勾连起曾在此时此刻的某种心境。)。
知识的输入和输出,通过何种形式传播,在这个短视频爆火的时代,好像文字或者书本的市场严重受到了积压。信息化的发展,让我们每个人获取新知识的途径变短了,也变容易了。却好像也让我们对于知识的渴求,欲望若即若离,似乎在想着暴增暴涨,却不曾真正的静下心来沉淀自己。看书没有几分钟,就突然心生各种奇奇怪怪的杂念,去接杯水吧,顺带看眼手机吧,诶,再看下哪哪哪个动漫更新没,放松下自己。殊不知,在这些自我放纵切换的瞬间,整个人的精力或者说注意力也随之转换。
突然想起一个词:自律,大概这就是所谓的自律,能够不动如山的落实在自己最初想做的事情上。还想起来一句常见的话:为什么大多数人宁愿吃生活的苦,也不愿吃学习的苦?,因为生活苦大多是被动接受,或者说不得不受吧,渐渐让人麻痹;而学习的苦,是自作自受,主动找虐,需要保持敏锐的触感,从而渐渐让人清醒。懒惰使我们在尚未完全清醒前,就选择继续沉睡,甚或是装睡。延时满是和即时享乐,内啡肽和多巴胺的快乐,只有切身都体会过其带来的快乐,或许闲唠的生活苦和学习苦,就都不攻自破,正向的反馈一旦产生,就会持之以恒的持续下去吧。要看见光,就得感受过穿越黎明前的黑暗,若非如是,可能即便沐浴在阳光下,也感受不到阳光的存在吧。
闲篇彻底扯远了,回归正题,关于模型的分类,根据个人目前看到的资料和信息,可以从三个不同的视野,对模型进行分类。
二、模型的三种分类方式
1. 监督学习和非监督学习
这种分类方式,是根据训练样本中是否带有标签1,从而分类的。
- 也就是说,训练集中既有特征,也有标签,就是监督学习。通过训练,找到特征和标签之间的联系,从而针对只有特征的数据,可以通过训练的模型,得到对应的标签。(根据标签是连续的还是离散的,进一步细分为回归问题和分类问题。)
- 只有特征没有标签,就是非监督学习。这类模型学习的是数据的内在联系和相似性,从而将样本划分为若干群,即为聚类,或者是对高维的数据进行降维。
2. 参数模型和非参数模型
这种模型分类方式,则是通过训练的模型的形式是否确定来区分的。
- 也就是说,在开始训练模型前,就已经假定好模型的表达式形式,那就是参数模型。训练过程中,就是确定目标表达式中的参数的值。如:线性模型:y=ax+b,训练就是确定参数 a ,b 的值。
- 对应的,在训练模型时,模型的表达式是不确定的,通过在训练过程中逐步确定表达式的,即为非参数模型。
优缺点记忆点
a. 参数模型:
- 优点: 可解释性好,训练和学习速度快,需要的数据量相对小。
- 缺点: 需要提前对目标函数做出假设,容易产生欠拟合(现实问题一般相对复杂,假定的参数模型相对简单)。
b. 非参数模型: - 优点: 不用假定目标函数形式,学习函数可以从训练数据中学习到任意形式的函数。(当训练数据量趋于无穷时,非参数模型可以逼近任意复杂的真实模型。)在数据量大,逻辑复杂的问题中效果往往好于参数模型。
- 缺点: 有很多超参数要选择,计算量更大,对问题的可解释性更弱。
3. 生成模型和判别模型
这种分类方式,则是从模型学习的方式来区分的。
- 也就是说,生成模型是通过学习特征和标签一起出现的概率(官方说法:联合概率),进而确定特征出现的情况下,标签出现的概率(条件概率)。常见的模型有朴素贝叶斯,隐马尔可夫模型,混合高斯模型等。
- 而判别模型则是直接学习条件概率。常见的模型都是此类,如 决策树模型,SVM模型,逻辑回归模型等等。
优缺点记忆点
a. 生成模型
- 优点: 在数据量充足的情况下,能较好的估计概率密度,模型的收敛速度快,并且能处理隐变量的问题。
- 缺点: 相比判别模型,需要的数据量更大,计算量也大,准确性和适用范围弱于判别模型。
b. 判别模型 - 优点: 对数据量相对要求比较低,准确性和适用范围更广。
- 缺点: 不能处理隐变量问题(隐变量是个啥,需要再瞅瞅,忘光光了),数据量大,模型训练速度比生成速度慢。
三、小结
简单而言,就是出发角度不同,从而形成了不同的分类方式。但也同时说明,从不同的角度出发,会让我们对一件事情可以有更多方位的了解,看见不同的着眼点,从而更好的帮助找到我们需要的契合点。
如下是博主个人微信公众号二维码,后续的更新也会同步微信公众号,根据在公众号中建立的标签体系,更方便查看相关系列文章。
博主写博文就是方便对自己所学所做的事做一备份记录或回顾总结。具体问题,欢迎留言。
《拿下Offer:数据分析师求职面试指南》,徐麟,电子工业出版社,北京,2020,9787121389252 ↩︎