为什么要学习深度学习?
随着人工智能时代的到来,掌握深度学习相关算法是进军人工智能领域的必备技能。
全球各大科技巨头纷纷拥抱深度学习,自动驾驶、Al医疗、语音识别、图像识别、
智能翻译以及战胜围棋世界冠军的AlphaGo,背后都是深度学习在发挥重大作用。
深度学习入门要学什么?
入门深度学习最重要的就是需要掌握三大基本网络框架,即CNN卷积神经网络、RNN循环神经网络和GAN对抗神经网络。
(1) CNN卷积神经网络:最流行的深度学习模型,当前图像识别领域的研究热点。主要应用于图像分类、目标检测、人脸识别、风格迁移等;
(2) RNN循环神经网络:应用领域最广泛的深度学习模型,只要考虑时间先后顺序问题的都可以使用RNN来解决,常见的应用领域有:自然语言处理、机器翻译、语音识别、音乐合成、聊天机器人、推荐算法等;
(3) GAN对抗神经网络:非监督式学习的一种方法,GAN的应用范围较广,扩展性也很强,主要应用于图像生成、数据增强和图像处理等领域。
推荐视频:
学习内容
常用统计模型
一、多元回归
研究一个因变量、与两个或两个以上自变量的回归,亦称为多元线性回归,是反映一种现象或事物的数量依多种现象或事物的数量的变动而相应地变动的规律,建立多个变量之间线性或非线性数学模型数量关系式的统计方法。
在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。
主要解决以下几个问题:
(1) 确定几个特定的变量之间是否存在相关关系, 如果存在的话, 找出它们之间合适的数学表达式;
(2) 根据一个或几个变量的值, 预测或控制另一个变量的取值, 并且可以知道这种预测或控制能达到什么样的精确度;
(3) 进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之间, 找出哪些是重要因素, 哪些是次要因素, 这些因素之间又有什么关系等。
1、分类
分为两类:多元线性回归和非线性线性回归。其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为y=u,u=lnx来解决;
2、 注意事项
在做回归的时候,一定要注意两件事:
(1) 回归方程的显著性检验
(2) 回归系数的显著性检验
检验在建模中往往不注意的地方,好的检验结果可以体现出你模型的优劣,这点一定要注意。
二、聚类分析
- 聚类分析,又称群分析,是根据“物以类聚”的道理对样品或指标进行分类的一种多元统计分析方法,是将个体或对象分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强,目的是把相似的研究对象归成类,使类内对象的同质性最大化和类与类间对象的异质性最大化。
- 常常作为数据分析过程中,前期进行数据摸底和数据清洗、数据整理的工具,常见的业务应用场景:目标用户的群体分类、搜索推荐业务、不同产品的价值组合、探测、发现孤立点、异常值等。
1、分类
聚类主要有三种:
(1) K均值聚类
(2) 系统聚类
(3)二阶聚类
类的距离计算方法:
(1) 最短距离法
(2) 最长距离法
(3) 中间距离法
(4) 重心法
(5) 类平均法
(6) 可变类平均法
(7) 可变法
(8) 利差平均和法
2、注意事项
在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景知识和相关的其他方法辅助处理。
还需要注意的是:如果总体样本的显著性差异不是特别大的时候,使用的时候也要注意!
三、分类
分类是一种典型的有监督的机器学习方法,其目的是从一组已知类别的数据中发现分类模型,以预测新数据的未知类别。
需要说明的是:预测和分类是有区别的,预测是对数据的预测,而分类是类别的预测。
1、常用分类模型:
(1)神经网络
(2)决策树
2、注意事项
A. 神经网络适用于下列情况的分类:
(1) 数据量比较小,缺少足够的样本建立数学模型
(2) 数据的结构难以用传统的统计方法来描述
(3) 分类模型难以表示为传统的统计模型
B. 神经网络的优点:
分类准确度高,并行分布处理能力强, 对噪声数据有较强的鲁棒性和容错能力,能够充分逼近复杂的非线性关系,具备联想记忆的功能等。
C. 神经网络缺点:
需要大量的参数,不能观察中间学习过程,输出结果较难解释,会影响到结果的可信度,需要较长的学习时间,当数据量较大的时候,学习速度会制约其应用。
四、判别分析
- 判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值,判别其类型归属问题的一种多变量统计分析方法。
- 基本原理:按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标,确定某一样本属于何类。
当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。 - 解决问题:已知某种事物有几种类型,现在从各种类型中各取一个样本,由这些样本设计出一套标准,使得从这种事物中任取一个样本,可以按这套标准判别它的类型。
- 判别分析是基于已知类别的训练样本,对未知类别的样本判别的一种统计方法,也是一种有监督的学习方法,是分类的一个子方法!
具体是:在研究已经过分类的样本基础上,根据某些判别分析方法建立判别式,然后对未知分类的样本进行分类。
1、判别方法
根据判别分析方法的不同,可分为下面几类:
(1)最大似然法
(2)距离判别法
(3) Fisher判别法
(4) Bayes判别法
2、 注意事项:
判别分析主要针对的是有监督学习的分类问题。这里重点注意其优缺点:
(1) 距离判别方法简单容易理解,但是它将总体等概率看待,没有差异性;
(2) Bayes判别法有效地解决了距离判别法的不足,即:其考虑了先验概率——所以通常这种方法在实际中应用比较多!
(3) 判别分析要求给定的样本数据必须有明显的差异,在进行判别分析之前,应首先检验各类均值是不是有差异,如果检验后某两个总体的差异不明显,应将这两个总体合为一个总体,再由剩下的互不相同的总体重现建立判别分析模型。
(4)Fisher判别法和bayes判别法的使用要求:两者对总体的数据的分布要求不同,Fisher要求对数据分布没有特殊要求,而bayes则要求数据分布是多元正态分布,但实际中却没有这么严格。
五、主成分分析
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性,人们自然希望变量个数较少而得到的信息较多。
大多情形下,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
主成分分析是一种降维数的数学方法,常用于对高维数据集作降维,将一个大的变量集合转化为更少的变量集合,同时保留大的变量集合中的大部分信息。通过降维技术将多个变量化为少数几个主成分的统计分析方法。
在建模中,主要用于降维、系统评估、回归分析、加权分析等等。
在应用主成分分析时候,应该注意:
(1)综合指标彼此独立或者不相互干涉;
(2) 每个综合指标所反映的各个样本的总信息量等于对应特征向量的特征值。通常要选取的综合指标的特征值贡献率之和应为80%以上;
(3)其在应用上侧重于信息贡献影响力的综合评价;
(4)当主成分因子负荷的符号有正也有负的时候,综合评价的函数意义就不明确。
六、因子分析
因子分析是指研究从变量群中提取共性因子的统计技术。因子分析是基于降维的思想,在尽可能不损失或者少损失原始数据信息的情况下,将错综复杂的众多变量聚合成少数几个独立的公共因子,这几个公共因子可以反映原来众多变量的主要信息,在减少变量个数的同时,又反映了变量之间的内在联系。
最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子,将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
它和主成分分析的最大区别是:其是一种探索性分析方法,即:通过用最少个数的几个不可观察的变量来说明出现在可观察变量中的相关模型,它提供了一种有效的利用数学模型来解释事物之间的关系,体现出数据挖掘的一点精神!
1、分类
R型因子分析,即对变量的研究,此为常用
Q型因子分析,即对样本的研究
2、因子分析和主成分分析的区别和联系
(1)两者都是降维数学技术,前者是后者的推广和发展
(2)主成分分析只是一般的变量替换,其始终是基于原始变量研究数据的模型规律;而因子分析则是通过挖掘出新的少数变量,来研究的一种方法,有点像数据挖掘中的未知关联关则发现!
七、时间序列
时间序列预测法是一种定量分析方法,它是在时间序列变量分析的基础上,运用一定的数学方法建立预测模型,使时间趋势向外延伸,从而预测未来市场的发展变化趋势,确定变量预测值。
基本思想:根据系统的有限长度的运行记录(观察数据),建立能够比较精确地反映序列中所包含的动态依存关系的数学模型,并借以对系统的未来进行预报。
基本原理:一是承认事物发展的延续性。应用过去数据,就能推测事物的发展趋势。二是考虑到事物发展的随机性。任何事物发展都可能受偶然因素影响,为此要利用统计分析中加权平均法对历史数据进行处理。
特点:简单易行,便于掌握,但准确性差,一般只适用于短期预测。
基本特点是:假定事物的过去趋势会延伸到未来;预测所依据的数据具有不规则性;撇开市场发展之间的因果关系。
1、分类
时间序列的变动形态一般分为四种:
- 长期趋势变动
- 季节变动
- 循环变动
- 不规则变动(随机性变化)
方法分类:
(1) 平均数预测
(2) 移动平均数预测
(3) 指数平滑法预测
(4) 趋势法预测
(5) 季节变动法
2.注意事项
(1)季节变动法预测需要筹集至少三年以上的资料
(2)移动平均法在短期预测中较准确,长期预测中效果较差;
(3)移动平均可以消除或减少时间序列数据受偶然性因素干扰而产生的随机变动影响。
文章介绍了深度学习的重要性,特别是CNN、RNN和GAN三种神经网络模型在图像识别、自然语言处理等领域的应用。同时,提到了多元回归、聚类分析等统计模型在数据分析中的角色,强调了它们在理解和预测数据模式中的作用。
36万+

被折叠的 条评论
为什么被折叠?



