数据科学技术与应用简答题

  1. 有监督学习和无监督学习的区别

1)有监督学习利用经验(历史数据),学习表示事物的模型,关注利用模型预测未来数据。一般分为分类问题和回归问题。
A.分类问题是对事物所属类别的判别,类型的数量是已知的。
B.回归问题的预测目标是连续变量
2)无监督学习倾向于对事物本身特性的分析,常见问题包括数据降维和聚类问题。
A.数据降维是对描述事物的特征数量进行压缩的方法。例如个人信息包括性别、身高、体重、课程、爱好等。面对特定的分析目标比如职业生涯规划问题,只需选取与之相关的特征进行分析,去掉无关数据,降低处理的复杂度。
B.聚类问题的目标也是将事物划分为不同的类别。与分类问题不同的是事先并不知道类别的数量,它根据事物之间的相似性,将相似的事物归为一簇。

2.决策树的原理
决策树是怎么预测的呢?

决策树采用样本的特征值作为节点,用特征的取值作为分支。叶子节点对应于分类结果,其他节点则对于于一个特征测试。每个节点从根节点出发,根据节点的特征测试选择样本的路径,直至到达某个叶子节点,则得到该样本的分类。

决策树是怎么构建的呢?

构造决策树的过程是一个递归的过程:为当前节点选择特征项,以便将该节点拥有的样本集划分为两个子集,形成分支节点;反复添加节点直至所有子集的分类标签一致,即达到叶子节点为止。在树的构造过程中,每次在样本特征集中选择最合适的特征作为分支节点,是决策树学习算法的核心,目标是使决策树能够准确预测每个样本的分类,且树的规模尽可能小。

3.支持向量机的原理

它的基本思想是将数据看多维空间的点,求解一个最优的超平面,将两种不同类别的点分割开来。首先计算每个平面的最短距离,即两类点到该平面最近的点的距离,将最短距离最大的平面视为最优分割面。有些数据集无法使用超平面进行划分,但其映射到高维空间中,则能找到一个超平面将不同类的点分割开,采用的就是核函数,选择适当的核函数就能得到高维空间的分割平面

4.K-means算法原理

聚类过程如下:
1)根据样本与簇中心的距离相似度,将数据集中的每个样本划分到与其最相似的一个簇
2)计算每个簇的中心
3)不断重复这一过程直到每个簇的中心点不再变化。
划分法的基本目标是:将数据聚为若干簇,簇内的点都足够近,簇间的点都足够远。

5.神经网络的原理

神经网络的工作原理可以类比于线性回归模型,其中每个神经元可以看作是一个带有输入、权重、偏置和输出的模型。输入数据乘以权重,求和后加上偏置,然后通过激活函数处理以产生输出。如果输出超过某个阈值,神经元被激活并将信号传递到下一层。这个过程从输入层开始,一直到输出层,形成了一个前馈网络。在训练过程中,神经网络根据训练数据来调整神经元之间的连接权重以及每个神经元的偏置项,使得最终输出层能够最好地拟合训练集的真实值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值