
机器学习算法
文章平均质量分 86
IT与Fintech
分享IT校园招聘与工作Fintech经验
展开
-
【19】机器学习算法面试八股
基本K-Means算法的思想很简单,事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,直到质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,K-Means算法的收敛速度比较慢。原创 2023-07-16 22:21:21 · 340 阅读 · 0 评论 -
【18】机器学习算法面试八股
有三种:最大信息增益、最大信息增益率、基尼系数。而这三种不同的划分标准就对应了三种典型决策树:ID3(最大信息增益)、C4.5(最大信息增益率)、CART(基尼系数)。信息增益:指的是使用某一个属性a进行划分后,所带来的纯度(信息熵用来度量样本集合的纯度)提高的大小。一般而言,信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。但信息增益对可取值较多的属性有所偏好。而信息增益率则解决了特征偏好的问题。原创 2023-07-16 22:20:51 · 526 阅读 · 0 评论 -
【17】机器学习算法面试八股
KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。通过方差表示“距离”朴素贝叶斯是一个基于特征条件独立假设和贝叶斯原理的一种分类算法。朴素贝叶斯通过训练数据得到X与y的联合分布;之后对于要预测的X,根据贝叶斯公式,输出后验概率最大的y。朴素贝叶斯是一种生成式学习算法,其生成方法通过学习X,Y的联合分布来实现的。假设各个特征在给定y的情况下是相互独立的。原创 2023-07-16 22:20:22 · 171 阅读 · 0 评论 -
【16】机器学习算法面试八股
树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。所以树模型(回归树)寻找最优点是通过寻找最优分裂点完成的而像adaboost、svm、lr、KNN、KMeans之类的最优化问题就需要归一化。SVM是使用广泛的分类算法,可以处理非线性和高维的机器学习问题。SVM目标是找到分类的最大间隔,为了更好的求解,针对SVM基本型使用拉格朗日方法找到其对偶问题,从而找到解。原创 2023-07-16 22:19:55 · 243 阅读 · 0 评论 -
【15】机器学习算法面试八股
sorted()指定reverse。原创 2023-07-16 22:19:14 · 235 阅读 · 0 评论 -
【14】机器学习算法面试八股
在动态语言中,不去改变源码而对功能进行追加和变更。原创 2023-07-16 22:18:10 · 410 阅读 · 0 评论 -
【13】机器学习算法面试八股
空洞卷积或者膨胀卷积是在标准的卷积核里注入空洞,以此来增加感受野。相比原来的正常convolution,dilated convolution 多了一个超参数称之为 dilation rate(空洞率)优点是在保持同等计算量的情况下可以扩大感受野,缺点是存在网格效应,丢失局部像素信息。。感受野用来表示网络内部的不同神经元对原图像的感受范围的大小。神经元感受野的值越大表示其能接触到的原始图像范围就越大,也意味着它可能蕴含更为全局,语义层次更高的特征;相反,值越小则表示其所包含的特征越趋向局部和细节。原创 2023-07-16 22:17:29 · 875 阅读 · 0 评论 -
【12】机器学习算法面试八股
神经网络在训练时,前向传播和反向传播都涉及到每个神经元的权重更新wi,也就是我们说的网络参数了,当然这些参数需要一个初始值。方法有很多,全0初始、随机初始等等,每个方法都有优缺点。原创 2023-07-16 22:16:42 · 536 阅读 · 0 评论 -
【11】机器学习算法面试八股
LN:Layer Normalization,LN是“横”着来的,对一个样本,经过同一层的所有神经元间做归一化。Layer Normalization是每个样本内部做标准化,跟size没关系,不受其影响。也适用于RNN等动态网络BN:Batch Normalization,BN是“竖”着来的,经过一个神经元的所有样本做归一化,所以与batch size有关系。缺点:1BN比较依赖size的大小。原创 2023-07-16 22:15:52 · 372 阅读 · 0 评论 -
【10】机器学习算法面试八股
第一步:生成Rand1()函数,等概率产生0和1。第二步:计算整数 n 的二进制表示所拥有的位数 k, k = 1 + l o g 2 n k = 1 +log_2n k=1+log2n第三步:调用k次 Rand1() 产生随机数。原创 2023-07-15 15:56:26 · 395 阅读 · 0 评论 -
【9】机器学习算法面试八股
纯虚函数是一种特殊的虚函数,在许多情况下,在基类中不能对虚函数给出有意义的实现,而把它声明为纯虚函数,它的实现留给该基类的派生类去做。这就是纯虚函数的作用。纯虚函数是一种特殊的虚函数,它的一般格式如下:class <类名>virtual <类型><函数名>(<参数表>)=0;可以使用@property装饰器来创建只读属性,@property装饰器会将方法转换为相同名称的只读属性可以与所定义的属性配合使用,这样可以防止属性被修改。对类的私有属性进行操作。原创 2023-07-15 15:56:00 · 450 阅读 · 0 评论 -
【8】机器学习算法面试八股
python生成器是一个返回可以迭代对象的函数,可以被用作控制循环的迭代行为。生成器类似于返回值为数组的一个函数,这个函数可以接受参数,可以被调用,一般的函数会返回包括所有数值的数组,生成器一次只能返回一个值,这样消耗的内存将会大大减小。使用了 yield 的函数被称为生成器(generator)调用一个生成器函数,返回的是一个迭代器对象。原创 2023-07-15 15:55:30 · 412 阅读 · 0 评论 -
【7】机器学习算法面试八股
Seq2seq属于encoder-decoder结构的一种,利用两个RNN,一个作为encoder一个作为decoder。Encoder负责将输入序列压缩成指定长度的向量,这个向量可以看作这段序列的语义,而decoder负责根据语义向量生成指定的序列。原创 2023-07-15 15:54:49 · 623 阅读 · 0 评论 -
【6】机器学习算法面试八股
实践中的数据集质量参差不齐,可以使用训练好的网络来进行提取特征。把训练好的网络当做特征提取器。决定如何使用迁移学习的因素有很多,这是最重要的只有两个:新数据集的大小、以及新数据和原数据集的相似程度。有一点一定记住:网络前几层学到的是通用特征,后面几层学到的是与类别相关的特征。1、新数据集比较小且和原数据集相似。因为新数据集比较小,如果fine-tune可能会过拟合;又因为新旧数据集类似,我们期望他们高层特征类似,可以使用预训练网络当做特征提取器,用提取的特征训练线性分类器。原创 2023-07-15 15:54:20 · 388 阅读 · 0 评论 -
【5】机器学习算法面试八股
若卷积神将网络的上一层有N个卷积核,则对应的通道数也为N。设群数目为M,在进行卷积操作的时候,将通道分成M份,每个group对应N/M个通道,然后每个group卷积完成后输出叠在一起,作为当前层的输出通道。原创 2023-07-15 15:53:35 · 927 阅读 · 0 评论 -
【4】机器学习算法面试八股
通过对训练数据样本以及属性进行有放回的抽样(针对某一个属性随机选择样本)这里有两种,一种是每次都是有放回的采样,有些样本是重复的,组成和原始数据集样本个数一样的数据集;另外一种是不放回的抽样,抽取出大约60%的训练信息。由此生成一颗CART树,剩下的样本信息作为袋外数据,用来当作验证集计算袋外误差测试模型;把抽取出的样本信息再放回到原数据集中,再重新抽取一组训练信息,再以此训练数据集生成一颗CART树。这样依次生成多颗CART树,多颗树组成森林,并且他们的生成都是通过随机采样的训练数据生成,因此叫随机森林。原创 2023-07-15 15:52:54 · 705 阅读 · 0 评论 -
【3】机器学习算法面试八股
DBSCAN是一种基于密度的空间聚类算法,它不需要定义簇的个数,而是将具有足够高密度的区域划分为簇,并在有噪声的数据中发现任意形状的簇,在此算法中将簇定义为密度相连的点的最大集合。原创 2023-07-15 15:52:14 · 564 阅读 · 0 评论 -
【2】机器学习算法面试八股
频率派认为模型参数是固定的,一个模型在无数次抽样后,参数是不变的;频率派认为模型不存在先验贝叶斯学派认为数据才是固定的而参数并不是。贝叶斯派认为模型存在先验。支持向量机为一个二分类模型,它的基本模型定义为特征空间上的间隔最大的线性分类器。而它的学习策略为最大化分类间隔,最终可转化为凸二次规划问题求解。LR是参数模型,SVM为非参数模型。LR采用的损失函数为logisticalloss,而SVM采用的是hingeloss。在学习分类器的时候,SVM只考虑与分类最相关的少数支持向量点。原创 2023-07-15 15:51:34 · 966 阅读 · 0 评论 -
【1】机器学习算法面试八股
第一个思路:小数据集配合神经网络时,必须要考虑过拟合的问题。最有效的方法应该是扩充数据集:数据集越大,网络泛化性能越好,所以努力扩充数据集,通过平移、翻转、旋转、放缩、随机截取、加噪声、色彩抖动等等方式。其他防止过拟合的方法:比如l1、l2,dropout、BN、验证集、模型集成第二个思路:神经网络需要大数据,所以可以考虑其他机器学习方法。[链接](7. https://blog.youkuaiyun.com/weixin_42057852/article/details/84644348?spm=1001.2原创 2023-07-15 15:50:51 · 1454 阅读 · 0 评论