部分题目根据知识点AI出题,仅提供参考
选择题
【单选题】过拟合是指()
A、在训练集表现非常好,在测试集上表现也非常好
B、在训练集表现非常好,但在测试集上表现很差
C、在训练集表现非常差,但在测试集上表现也很差
D、在训练集表现非常差,但在测试集上表现非常好
【单选题】欠拟合是指()
A、在训练集表现非常好,但是在测试集上表现很差
B、在训练集表现非常好,在测试集上表现也很好
C、在训练集表现非常差,在测试集上表现也很差
D、在训练集表现非常差,但是在测试集上表现非常好
【单选题】( )可看成是一组描述事物的约定,把人类知识表示成机器能处理的数据结构
A、知识获取
B、知识存储
C、知识表示
D、知识利用
【单选题】知识表示起源于人工智能的( )
A、行为主义
B、连接主义
C、符号主义
D、表示主义
【单选题】遗传算法一般包含下面几个步骤:1、交叉,2、产生初始种群,3、变异,4、选择,5、计算适应度,6、编码,请问下面哪一个顺序是正确的
A、123456
B、654321
C、625413
D、624513
【单选题】模拟退火算法中,下面哪一个是其能不陷入局部极小值,最终找到最做优解的原因。
A、选择当前最好的解作为新解
B、以一定的概率选择新解
C、随机选取一个新解
D、都不正确
【单选题】下面哪一项不是决策树对属性进行划分所使用的准则
A、信息增益
B、信息率
C、基尼指数
D、增益率
1、AI 的全称是什么?
A、Automatice Information
B、Automatic Intelligence
C、Artificial Intelligence
D、Artifical Information
6、下列关于人工神经网络说法错误的是( )
A、人工神经网络是一种应用类似于大脑神经突触连接的结构进行信息处理的数学模型
B、人工神经网络的输出值与网络中使用的激活函数无关
C、神经元间的连接权值反映了单元间的连接强度
D、人工神经网络是一种运算模型,由大量的节点(神经元)和之间的相互联接构成
答案: B
【判断题】
若任一极小值层节点的β值小于或等于它任一先辈极大值层节点的α值,即α(先辈层)≥β(后继层),则可中止该极小值层中这个节点以下的搜索。该节点最终的倒推值就确定为这个β值。 我的答案:对
填空题
决策树剪枝算法主要有(预剪枝)和(后剪枝)两种
直接建模 P(c∣x) 来预测 c 的策略称为(判别式模型)。
先对联合概率分布 P(x,c) 建模,再由此获得 P(c∣x) 的策略称为(生成式模型)。
KNN和K-Means
题目:
在一个二维特征空间中,有以下10个数据点:
( (1, 2), (1, 4), (1, 0), (10, 12), (9, 11), (8, 10), (5, 8), (6, 7), (7, 5), (8, 6) )
a) 假设你希望使用K-Means算法将这些数据点聚成3个簇,请简要描述K-Means算法的工作原理。
b) 使用K-Means算法对上述数据进行聚类分析,假设初始簇中心为:
- ( C_1 = (1, 2) )
- ( C_2 = (9, 10) )
- ( C_3 = (6, 7) )
请列出K-Means算法的迭代步骤,并说明每一步如何更新簇中心,直到算法收敛。
a) K-Means算法的工作原理:
K-Means是一种基于距离的聚类算法,目标是将数据集划分为K个簇,使得每个簇内部的数据点尽量相似(通过最小化簇内点到簇中心的距离),并且不同簇之间的数据点尽量不同。其基本步骤如下:
- 初始化:随机选择K个点作为初始簇的中心(质心)。
- 分配步骤:根据某个距离度量(通常是欧氏距离),将每个数据点分配给离它最近的簇中心。
- 更新步骤:根据当前簇中的所有数据点,重新计算每个簇的中心,即取簇内所有点的均值作为新的中心。
- 迭代:重复步骤2和3,直到簇中心不再变化或者达到最大迭代次数。
b) 使用K-Means算法对上述数据进行聚类分析,假设初始簇中心为:
- ( C_1 = (1, 2) )
- ( C_2 = (9, 10) )
- ( C_3 = (6, 7) )
请列出K-Means算法的迭代步骤,并说明每一步如何更新簇中心,直到算法收敛。
解答:
-
初始化簇中心:
- ( C_1 = (1, 2) )
- ( C_2 = (9, 10) )
- ( C_3 = (6, 7) )
-
第一轮分配步骤:计算每个数据点到3个簇中心的距离,分别将数据点分配到离它最近的簇中心。
数据点 | 到 ( C_1 ) 的距离 | 到 ( C_2 ) 的距离 | 到 ( C_3 ) 的距离 | 分配的簇 |
---|---|---|---|---|
(1, 2) | 0 | 11.66 | 5.0 | ( C_1 ) |
(1, 4) | 2 | 11.04 | 4.12 | ( C_1 ) |
(1, 0) | 2 | 12.04 | 6.08 | ( C_1 ) |
(10, 12) | 13.6 | 3.16 | 6.16 | ( C_2 ) |
(9, 11) | 11.66 | 1.41 | 3.16 | ( C_2 ) |
(8, 10) | 10.44 | 1.41 | 3.16 | ( C_2 ) |
(5, 8) | 5.0 | 5.39 | 2.24 | ( C_3 ) |
(6, 7) | 5.0 | 4.24 | 0.0 | ( C_3 ) |
(7, 5) | 5.0 | 5.39 | 2.24 | ( C_3 ) |
(8, 6) | 6.0 | 4.24 | 1.0 | ( C_3 ) |
分配结果:
- **簇1 (C_1)**:( (1, 2), (1, 4), (1, 0) )
- **簇2 (C_2)**:( (10, 12), (9, 11), (8, 10) )
- **簇3 (C_3)**:( (5, 8), (6, 7), (7, 5), (8, 6) )
- 第一轮更新步骤:根据当前簇中的数据点计算新的簇中心。
- **簇1 (C_1)**:均值 = (1, 2) + (1, 4) + (1, 0) / 3= (1, 2)
- **簇2 (C_2)**:均值 = (10, 12) + (9, 11) + (8, 10) / 3 = (9, 11)
- **簇3 (C_3)**:均值 = (5, 8) + (6, 7) + (7, 5) + (8, 6) / 4 = (6.5, 6.5)
新的簇中心为:
- ( C_1 = (1, 2) )
- ( C_2 = (9, 11) )
- ( C_3 = (6.5, 6.5) )
- 第二轮分配步骤:用新的簇中心重新分配数据点。
数据点 | 到 ( C_1 ) 的距离 | 到 ( C_2 ) 的距离 | 到 ( C_3 ) 的距离 | 分配的簇 |
---|---|---|---|---|
(1, 2) | 0 | 13.6 | 5.0 | ( C_1 ) |
(1, 4) | 2 | 13.04 | 4.12 | ( C_1 ) |
(1, 0) | 2 | 13.04 | 6.08 | ( C_1 ) |
(10, 12) | 13.6 | 3.16 | 6.16 | ( C_2 ) |
(9, 11) | 13.04 | 1.41 | 3.16 | ( C_2 ) |
(8, 10) | 13.04 | 1.41 | 3.16 | ( C_2 ) |
(5, 8) | 5.0 | 5.39 | 1.12 | ( C_3 ) |
(6, 7) | 5.0 | 4.24 | 0.0 | ( C_3 ) |
(7, 5) | 5.0 | 5.39 | 1.12 | ( C_3 ) |
(8, 6) | 6.0 | 4.24 | 0.5 | ( C_3 ) |
分配结果保持不变:
- **簇1 (C_1)**:( (1, 2), (1, 4), (1, 0) )
- **簇2 (C_2)**:( (10, 12), (9, 11), (8, 10) )
- **簇3 (C_3)**:( (5, 8), (6, 7), (7, 5), (8, 6) )
- 第二轮更新步骤:根据簇中的数据点计算新的簇中心(实际可能没有变化)。
- **簇1 (C_1)**:均值 = ( (1, 2) )(没有变化)
- **簇2 (C_2)**:均值 = ( (9, 11) )(没有变化)
- **簇3 (C_3)**:均值 = ( (6.5, 6.5) )(没有变化)
- 收敛:由于簇中心没有变化,算法已经收敛。
最终簇中心和簇分配结果为:
- **簇1 (C_1)**:( (1, 2), (1, 4), (1, 0) )
- **簇2 (C_2)**:( (10, 12), (9, 11), (8, 10) )
- **簇3 (C_3)**:( (5, 8), (6, 7), (7, 5), (8, 6) )
线性回归
线性回归假设函数 & 代价函数计算题
梯度下降归一化计算题
假设你有一个数据集,包含以下特征值:[1,2,3,4,5]。请对这个数据集进行归一化处理,使其特征值范围在 [-1,1] 之间。
其中ui表示第i个特征向量在所有样本中的平均值,Si表示第i个特征向量在所有样本中所取的最大值减去最小值。
知识表示:状态空间图
搜索技术
1、盲目搜索方法的特点。
2、启发式搜索的特点及评价函数的确定方法。
主要特点:
- 启发性:启发式搜索方法使用启发式函数来估计从当前状态到目标状态的距离,从而指导搜索方向。
- 不保证最优性:启发式搜索方法不保证能找到最优解,尤其是在启发式函数不能完美估计解的质量时。
- 效率:启发式搜索方法通常比盲目搜索方法更高效,因为它们可以跳过大量不必要的搜索路径。
- 问题依赖性:启发式搜索方法的效果高度依赖于启发式函数的选择和问题的特性。
- 可调整性:启发式搜索方法允许调整启发式函数,以适应不同的问题或优化目标。
用来评估节点重要性的函数称为评估函数:f(x)=g(x)+h(x)
评估函数f(x)定义为从初始节点S出发,约束地经过节点x到达目标节点S的所有路径中最小路径代价的估计值。g(x)--从初始节点S,到节点x的实际代价;
h(x)--从x到目标节点S,的最优路径的评估代价,它体现了问题的启发式信息,其形式要根据问题的特性确定,h(x)称为启发式函数。
评价函数的确定方法: 启发式搜索中的评价函数(也称为启发式函数)是关键组成部分,以下是一些确定启发式函数的方法:
- 问题知识:基于对问题领域的深入理解,选择或设计一个能够准确估计解质量的启发式函数。
- 经验法则:使用在类似问题中表现良好的启发式函数,或者根据经验法则来设计启发式函数。
- 贪心法:选择每一步都看起来最优的路径,这种方法简单但可能不总是导致全局最优解。
- 模拟退火:使用概率接受较差的解,以避免陷入局部最优。
- 遗传算法:通过模拟自然选择过程来优化启发式函数。
- 机器学习方法:使用机器学习技术来学习启发式函数,尤其是在数据驱动的问题中。
α - β剪枝算法
【Alpha-Beta剪枝算法(人工智能)】 https://www.bilibili.com/video/BV1Bf4y11758/?share_source=copy_web&vd_source=7ffbd7feaeedb3d59fb21e59435a53d8
α ≥ β时需要剪枝
答案:
高级搜索技术
爬山法
爬山法搜索算法的基本原理、优缺点?
基本原理: 爬山法是一种局部搜索算法,它从初始解开始,逐步向邻域解移动,每次移动都选择能够提升性能(即增加适应度函数值)的解。这个过程一直持续,直到达到一个局部最优解,即无法通过移动到邻域解来提升性能。
优点:
- 简单易实现。
- 在某些情况下,如果局部最优解接近全局最优解,爬山法可以快速找到解。
缺点:
- 容易陷入局部最优解,特别是当搜索空间包含多个局部最优解时。
- 对于复杂的搜索空间,爬山法可能无法找到全局最优解。
爬山法解决TSP问题
请用爬山法来解决TSP问题,并比较爬山法的不同变种的效果,说明有什么优势,存在什么缺点?
爬山法(Hill Climbing)
优势:
- 简单高效:爬山算法结构简单,易于实现,且在小规模问题中解的质量较好。
- 迭代速度快:由于只与当前解状态相关,不需对状态进行存储,减少了存储量;同时,只需计算当前解状态的邻近状态,减少了计算量。
缺点:
- 局部最优:爬山算法的主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。
- 全局搜索能力差:由于只考虑当前状态的邻接状态,不能全面搜索解空间。
- 对初始解敏感:对于解空间较大的问题,可能容易陷入局部最优解。
随机爬山法(Stochastic Hill-Climbing)
优势:
- 避免局部最优:通过随机选择更优的邻居点,增加了逃离局部最优解的机会。
- 可能找到更优解:在某些空间中可能找到比最陡爬山法更优的解。
缺点:
- 收敛速度慢:与最陡爬山法相比,随机爬山法的收敛速度通常较慢。
首选爬山法(First-Choice Hill-Climbing)
优势:
- 减少计算量:不需要生成估值表,每次只需要计算一个状态的估值,减少了计算量。
缺点:
- 可能陷入局部最大:与随机爬山法类似,首选爬山法也存在陷入局部最大值的风险。
模拟退火
简述模拟退火算法的基本思想及特点
答:
基本思想: 模拟退火算法是一种概率型算法,它受到物理退火过程的启发。算法从初始解开始,通过随机选择邻域解并接受新解(即使新解比当前解差)来模拟物质冷却过程中的随机运动。随着“温度”的降低,算法越来越倾向于接受更好的解,最终在“温度”接近零时只接受更好的解。
特点:
- 能够以一定的概率跳出局部最优解,增加找到全局最优解的可能性。
- 算法的收敛速度可以通过调整“温度”下降的速度来控制。
- 适用于解决复杂的优化问题。
遗传算法
遗传算法的基本思想?
答:ppt答案
Kimi答案
遗传算法是一种启发式搜索算法,它模仿自然选择和遗传学原理。算法通过初始化一个种群(一组候选解),然后通过选择、交叉(配对和重组)、变异等操作来生成新的种群。这些操作模拟了自然选择过程中的“适者生存”和遗传变异,从而使得种群逐渐进化,最终找到或接近最优解。
遗传算法中的染色体、基因、种群分别表示什么?
答:
- 染色体(Chromosome): 在遗传算法中,染色体代表一个候选解,它是基因的集合。染色体可以被看作是解决问题的潜在方案。
- 基因(Gene): 基因是染色体的基本单位,代表解中的一个特定部分。在编码问题时,基因可以是一个数字、一个字符或者一个更复杂的数据结构,具体取决于问题的性质。
- 种群(Population): 种群是一组染色体,即一组候选解。在遗传算法的迭代过程中,种群会通过选择、交叉和变异等操作不断进化,以期望找到更好的解。种群的多样性对于避免局部最优和探索搜索空间至关重要。
9. 设有两个父代的个体串A= 110110 和B= 010011 ,若随机交叉点为1、3和5,则交叉后的两个新的个体是?
解:A’=110111 B’=010010
解析:第5位进行了互换
设有两个父代个体向量A=15 20 18 20 19 30 和 B=30 25 15 20 15 49,若随机选择对第2个分量以后的所有分量进行交叉,则交叉后两个新的个体向量是?
解:A’=15 20 15 20 15 49 B’= 30 25 18 20 19 30
设有两个父代的个体串A=111000和B=010101,若随机生成的模版T=000111,则交叉后的两个新的个体是?
A: 111000
B: 010101
T: 000111
解析:
- 模版T=000111表示在最后三位进行交叉。
- 个体A和B在模版T指定的位置上基因互换后,得到新的个体A'和B'。
A':111101
B':010000
设变异前的个体为A=010101110110,若随机产生的变异位置是5,变异后新个体是?
解:A’=010111110110
解析:基因突变,只有0、1基因,所以0->1
设选中的个体向量D=10 14 5 48 16 27 96 43 57,若随机产生的两个变异位置分别时3和7,则变异后的新的个体向量是?
解:D’=10 14 96 48 16 27 5 43 57
解析:D的第3位由5变为96,第7位由96变为5
决策树
二、决策树中使用的分类依据主要是通过计算熵来进行的。
1、何为熵
答:熵是一个物理学概念,用于描述热力学系统中能量分布的无序程度。在信息论中,熵被用来衡量信息的不确定性或随机性。熵用来描述系统状态的混乱程度或无序程度。
2、何为信息熵
答:信息熵是由香农在信息论中定义的一个度量,用于量化信息的不确定性(用于衡量一个事件的不确定性)。在信息论中,信息熵是衡量信息量的一个标准。度量样本集合纯度的一个指标。信息熵越高,表示信息的不确定性越大,信息量也越大。
3、何为信息增益、增益率、基尼指数
信息增益(Information Gain):在决策树算法中,信息增益是用于选择最佳属性进行数据划分的度量。它表示在某个属性上划分数据后,系统不确定性减少的程度。信息增益是通过比较划分前后的信息熵来计算的。
增益率(Gain Ratio):增益率是信息增益与属性熵的比值,用于解决信息增益偏向选择取值较多的属性的问题。
基尼指数(Gini Index):基尼指数是衡量数据集纯度的一种度量,用于决策树算法中选择属性。基尼指数越低,数据集的纯度越高。
在这个问题中,我们有以下几个特征:
- 拥有房产(是/否)
- 婚姻状态(单身,已婚,离婚)
- 年收入(单位:千元)
- 无法偿还债务(是/否)
目标变量是我们想要预测的:是否批准贷款申请(是/否)。
我们计算了每个特征的信息增益,得到以下结果:
构建决策树:
- 根节点: 年收入 > 100?
- 是: 批准贷款申请(是)
- 否: 进一步检查其他特征
- 子节点: 婚姻状态 == 已婚?
- 是: 批准贷款申请(是)
- 否: 进一步检查房产状态
- 子节点: 拥有房产?
- 是: 批准贷款申请(是)
- 否: 拒绝贷款申请(否)
- 子节点: 拥有房产?
- 子节点: 婚姻状态 == 已婚?
现在我们有一个新客户的申请数据:
- ID: 11
- 拥有房产: 是
- 婚姻: 已婚
- 年收入: 88
- 无法偿还债务: ? (待预测)
根据我们构建的决策树模型:
- 年收入 ≤ 100 -> 进入子节点
- 婚姻状态: 已婚 -> 批准贷款申请(是)
朴素贝叶斯
提供者:MBX
课后巩固题:
综上所述,先验概率为:
- 垃圾短信的先验概率:0.6
- 非垃圾短信的先验概率:0.4
与垃圾短信有关的文本是:
- 免费试用
- 优惠产品
- 优秀产品
条件概率:垃圾短信
计算“产品质量”、“产品报告”在垃圾短信类别下的条件概率:
- 在垃圾短信中,“产品质量”、“产品报告”没有出现。
- 垃圾短信总共有3条。
P(产品质量∣垃圾短信) = P(产品报告∣垃圾短信) = 0/3 = 0
此处省略非垃圾短信的条件概率
深度学习
看不懂MBX的过程的就看这个:
【卷积计算】 https://www.bilibili.com/video/BV1gW4y1T7nF/?share_source=copy_web&vd_source=7ffbd7feaeedb3d59fb21e59435a53d8
提供者:MBX
参考资料:
原文链接:https://blog.youkuaiyun.com/m0_64562382/article/details/136540124