马斯洛金字塔下的小灵猴儿
5年Java经验 & 2年AI算法经验。获得资格证书:
机器学习算法工程师 & 深度学习架构师 & 软件设计师。感兴趣可以访问我的小网站:https://www.notion.so/e8017771eba64488869494f0bd618723。如果你想要了解更多人工智能方面的知识,可以闲鱼搜索“Ai追光者”,查看你感兴趣的服务哟。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
专业知识判断题练习系列(六)
聚类是一种无监督学习,其目标是将数据集划分为若干个类别,每个类别内部的数据点具有较高的相似性,不同类别之间的数据点差异较大。因此,聚类用于聚类的训练样本的类标记是未知的,而分类所使用的训练样本的类标记是已知的。聚类算法的目标是将数据集分为不同的组,使得每组内部的数据相似度很高,不同组之间的数据相似度很低。回归问题是指预测一个连续变量的值,而线性回归模型中的因变量也是连续的。解析:GIS 算法的收敛速度由计算更新值的步长和误差的大小共同决定,C 值越大,步长越大,但是误差也会变大,收敛速度不一定会更快。原创 2024-07-18 10:41:59 · 172 阅读 · 0 评论 -
专业知识判断题练习系列(五)
因此,本题的答案是正确的,是 T。解析:根据题目中的信息,年龄和健康之间的相关系数为-1.09,这表明年龄和健康之间是负相关的,也就是说,随着年龄的增长,健康水平会下降。解析:监督学习的学习数据是由特征和标签组成的,其中特征是输入数据的属性或特性,而标签则是对应的输出或结果。解析:在 Pandas 中,可以使用 loc 和 iloc 方法选取特定的行数据,其中 loc 方法使用的是行索引的切片形式,而 iloc 方法使用的是行索引位置的切片形式。因此,说法是正确的。因此,题目中的说法是错误的,答案为 F。原创 2024-07-18 10:35:36 · 169 阅读 · 0 评论 -
专业知识多选题练习系列(三)
D : 在线学习的一个优点是,如果我们正在建模的功能随着时间的推移而变化(例如,如果我们正在建模用户单击不同 URL 的概率,并且用户的品味/偏好随着时间的推移而变化),在线学习算法将自动适应这些变化。D : 如果您总是预测非垃圾邮件(输出 y=0),那么您的分类器在训练集上的准确度 accuracy 将达到 99%,但在交叉验证集上的准确率会更差,因为它过拟合训练数据。C :使用在线学习时,您必须保存获得的每个新培训示例,因为您将需要重用过去的示例来重新训练模型,即使在将来获得新的训练例子之后也是如此。原创 2024-07-18 10:28:19 · 132 阅读 · 0 评论 -
专业知识单选题练习系列(九)
解析:选项 A 是正确的,深度学习的概念源于人工神经网络的研究;选项 C不正确,单层神经网络不被认为是深度学习的一种,因为它只有一个隐层,深度学习强调的是多隐层的网络结构。当 C 越大时,表示对误分类的惩罚越严厉,模型的容错能力越小,因此可以使得模型更加倾向于选择复杂的决策边界,进而提高模型的线性可分程度。解析:根据题目中给出的条件,我们可以得出该激活函数输出的值为负数,且非常接近 0,ReLU 和 sigmoid 的值都不可能是负数,tanh 的曲直范围为(-1,1),可以推断出该激活函数是 tanh。原创 2024-07-18 10:19:59 · 102 阅读 · 0 评论 -
专业知识单选题练习系列(八)
解析:答案解析:k-NN 最近邻方法的基本思想是在训练集中寻找与测试样本最近的 k 个样本,根据这 k 个样本的类别进行投票或计算距离平均值,将得票最高或距离最小的类别作为测试样本的预测类别。解析:闵可夫斯基距离是一种距离度量方式,表示为$$D(x,y)=(\sum_{i=1}^{n}|x_i-y_i|^p)^{\frac{1}{p}}$$当 p=1 时,表示为曼哈顿距离,即$$D(x,y)=\sum_{i=1}^{n}|x_i-y_i|$$因此,当表示为曼哈顿距离时,p 为 1,故选项 A 正确。原创 2024-07-17 22:09:31 · 145 阅读 · 0 评论 -
专业知识单选题练习系列(七)
解析:KNN 最近邻方法是一种基于实例的学习方法,它的基本思想是:对于一个新的样本,找到训练集中与之最为相似的 k 个样本,然后根据它们的类别进行决策。因此,选项 C 描述错误,答案为 C。解析:ABC 选项都是根据特定的领域知识或规则进行判断,属于专家系统或规则引擎的范畴,而出行方式的判断则需要通过大量的数据和模型训练来完成,属于机器学习或深度学习的范畴。解析:SVM 的时间复杂度与数据集的大小有关,对于大数据集,SVM的训练时间会非常长,但对于小型或中等大小的数据集,则可以使用SVM 来进行分类。原创 2024-07-17 21:07:25 · 125 阅读 · 0 评论 -
专业知识判断题练习系列(四)
而如果 f 是凹函数,则 Jensen 不等式应该是:E(f(x))<=f(E(x))因此,对于一个凹函数 f,左边部分应该小于等于右边部分。解析:决策树学习是一种基本的分类与回归方法,它是一种逼近离散值目标函数的方法,学习到的函数被表示为一棵决策树。因此,选项中的说法是错误的,答案为 F。25、 [判断] Jessen 不等式 E(f(x))>=f(E(x)),左边部分大于等于右边部分的条件是函数 f 是凸函数,如果 f 是凹函数,左边部分应该是小于等于右边部分。因此,该题的答案是正确的。原创 2024-07-17 20:54:28 · 118 阅读 · 0 评论 -
专业知识判断题练习系列(三)
因此,题目中的说法是正确的,答案为 T。同一簇内的任意两个对象之间的相似度较高,而不同簇之间的任意两个对象之间的相似度较低,这也是聚类的一个基本特点。解析:Lasso 回归是一种线性回归的优化方法,它在线性回归的基础上,对损失函数增加了一个 L1 正则项,将系数向零压缩,从而实现特征选择的目的,减小过拟合风险,提高模型的泛化能力。解析:对数损失度量函数(LogarithmicLoss)是一个常用的分类问题的损失函数,它的取值范围是$[0,+\infty)$,不可能取负值,因此该说法是错误的。原创 2024-07-17 20:47:32 · 95 阅读 · 0 评论 -
专业知识多选题练习系列(二)
1、[多选]以下关于蒙特卡洛方法描述正确的是()。A: 蒙特卡洛方法计算值函数可以采用First-visit方法B: 蒙特卡洛方法方差很大C: 蒙特卡洛方法计算值函数可以采用Every-visit方法D:蒙特卡洛方法偏差很大正确答案:A,B,C解析:A选项正确,蒙特卡洛方法可以采用First-visit方法计算值函数,即只计算每个状态第一次出现时的回报值;B选项错误,蒙特卡洛方法方差与采样个数有关,采样个数越大方差越小;C选项正确,蒙特卡洛方法也可以原创 2024-07-17 20:38:28 · 162 阅读 · 0 评论 -
专业知识单选题练习系列(六)
ii:Leaveoneoutcrossvalidation,即留一法,是一种特殊的 K 折交叉验证,将样本划分为 n 份,每次留一份作为验证集,其余 n-1 份作为训练集,共进行 n 次,时间复杂度为 O(n^2)。解析:本题考查的是图论中的基础算法,需要对各个算法的系数矩阵是否为全幺模矩阵有所了解。解析:阈值越大,分类为 1 的概率就越小,所以分类为 1 的样本数量就会减少,而分类为 0 的样本数量就会增加,因此模型分类的召回率会降低或不变。因此,1 是正确的,2、3、4 是错误的,答案为 A。原创 2024-07-17 19:57:10 · 133 阅读 · 0 评论 -
专业知识单选题练习系列(五)
C 选项中的permutation 函数与 shuffle 函数类似,也是用于对一个序列进行随机打乱的操作,但是它返回的是一个新的打乱后的序列,而不是在原序列上进行操作。选项 A“根节点”是决策树的最顶端节点,选项 B“父节点”是指一个节点的直接上级节点,选项 C“子节点”是指一个节点的直接下级节点,都不是决策树中分类结果的最末端节点。选项 B 错误,标准化不一定是归一化,可以是将数据集的均值变为 0,方差变为 1。所以选项 A 是正确的选项 C 是错误的,选项 D 是包含正确选项的,但不全面。原创 2024-07-17 19:47:31 · 112 阅读 · 0 评论 -
专业知识单选题练习系列(四)
因此,选项 C 计算更多变量是一个更好的选择,可以增加模型的复杂度,提高对训练数据的拟合程度。解析:由于数据集中 99%的 negative class 和 1%的 positive class,因此如果我们预测全部为 negative class 时,准确率也会达到 99%,但是这并不能说明我们的模型是好的,因为我们关心的是 positiveclass 的预测准确率。解析:由于预测值有很大的偏差,说明模型出现了欠拟合的情况,因此可以尝试减小正则项λ,增加模型的复杂度,从而提高模型的表现。原创 2024-07-17 18:27:00 · 179 阅读 · 0 评论 -
专业知识判断题练习系列(二)
具体而言,反向传播算法的过程是先进行前向传播计算出模型的预测值,再计算预测值和真实值的误差,接着从输出层开始反向计算每个参数的梯度。训练集和测试集都来自于同一分布的情况下,模型在测试集上表现良好可以说明模型对于当前数据分布的拟合效果很好,但是在新的数据集上,由于数据分布可能存在变化,因此模型的表现可能会有所下降。因此,为了保证模型的泛化能力,在训练过程中需要进行交叉验证,同时在测试集上表现好的模型还需要在新的数据集上进行验证。因此,学习率需要适当选择,既要保证算法的收敛速度,又要保证收敛到全局最优解。原创 2024-07-17 18:10:08 · 262 阅读 · 0 评论 -
专业知识判断题练习系列(一)
其次,标准化可以使得模型的参数更加容易确定,加快模型的收敛速度,提高模型的训练效率。解析:是的,可以仅基于该黑箱算法构建一个 k-NN 分类算法,方法如下:1.对于每个新的观察,输入到黑箱算法中得到其最近邻 ti 及其对应的类别标签 ci。解析:首先,超参数的选择确实会对模型的性能产生影响,但并非所有超参数都同等重要,不同的超参数对结果的影响程度是不同的。解析:岭回归是一种经典的线性回归的变形方法,它通过对损失函数增加一个 L2 正则化项来限制参数的大小,从而降低模型的方差,提高模型的泛化能力。原创 2024-07-17 18:03:54 · 193 阅读 · 0 评论 -
专业知识多选题练习系列(一)
1、[多选]假设我们要解决一个二类分类问题,我们已经建立好了模型,输出是 0 或 1,初始时设阈值为 0.5,超过 0.5 概率估计,就判别为 1,否则就判别为 0;如果我们现在用另一个大于0.5 的阈值,那么现在关于模型说法,正确的是:A : 模型分类的召回率会降低或不变B :模型分类的召回率会升高C : 模型分类准确率会升高或不变D :模型分类准确率会降低正确答案:A,C解析:首先需要明确几个概念:-召回率:在所有实际为正例的样本中,被正确预测为正例的样本数占比。-准确率原创 2024-07-17 14:58:26 · 301 阅读 · 0 评论 -
专业知识单选题练习系列(三)
选项 A 中,“类似的多个变量”是指变量之间存在较高的相关性,这会导致多重共线性问题,影响模型的稳定性和精确性,因此需要注意。解析:在 SVM 模型中,支持向量是离分割超平面最近的数据点,在线性 SVM 模型中,我们需要找到一个最优的分割超平面,使得该分割超平面能够将两类数据点分开,并且使得离该超平面最近的数据点到该超平面的距离最大。针对该题目,我们可以画出两组数据的散点图,然后根据支持向量的定义(落在在分界面/线上的数据点)找出支持向量,本题答案为:(−1,0),(1,2),(0,0),(1,1)。原创 2024-07-17 14:42:10 · 183 阅读 · 0 评论 -
专业知识单选题练习系列(二)
解析:根据混淆矩阵的定义可知,TP 表示实际为正例且被预测为正例的样本数,FP 表示实际为负例但被预测为正例的样本数,FN 表示实际为正例但被预测为负例的样本数,TN 表示实际为负例且被预测为负例的样本数。解析:解析:首先,对 X、Y、Z 进行变换,得到新的变量 X',Y',Z':X'=X+2,Y'=Y-2,Z'=Z。Pearson 相关性系数是对变量的线性变换不变的,由于 X’是 X 的线性变换,Y'是 Y 的线性变换,而且 Z'和 Z相等,因此有:D1=C1,D2=C2,D3=C3。原创 2024-07-17 14:27:06 · 85 阅读 · 0 评论 -
专业知识单选题练习系列(一)
解析:题目解析:1 是错误的,因为高准确率的模型并不一定是好的模型,模型的选择不应该仅仅基于模型的准确率,还需要考虑模型的可解释性、计算时间、资源消耗等因素。C:Word2Vec 得到的不一定都是语义上的同义词,这是错误的,Word2Vec 是通过训练语料中的词语之间的关系,得到每个词语的向量表示,其相似度可。解析:答案解析:A 选项是正确的。C:AdaBoost 算法的一个解释是该算法实际上是前向分步算法的一个实现,在这个方法里,模型是加法模型,损失函数是指数损失,算法是前向分步算法。原创 2024-07-17 14:12:12 · 147 阅读 · 0 评论