姚路遥遥
深度学习、计算机视觉
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【AI面试题】什么是数据不平衡,如何解决
1. 什么是数据不平衡 数据不平衡主要指的是在有监督机器学习任务中,样本标签值的分布不均匀。这将使得模型更倾向于将结果预测为样本标签分布较多的值,从而使得少数样本的预测性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。2. 解决方法重新采样训练集1)欠采样:通过减少丰富类的大小来平衡数据集。2)过采样:增加稀有样本,通过使用重复,自举或合成少数类等方法。设计使用不平衡数据集的模型1)在原创 2021-02-23 02:42:30 · 2991 阅读 · 0 评论 -
【AI面试题】特征归一化
1. 概述特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常为[0,1]。特征归一化主要是用来解决数据的量纲不同的问题。2. 常用的特征归一化方法1)Min-Max Scaling(归一化/区间缩放法) 对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对数据的等比例缩放。代码如下:from sklearn.preprocessing import MinMaxScalerx1 = Min原创 2021-02-23 02:12:10 · 502 阅读 · 0 评论 -
【AI面试题】One-hot的作用,为什么不直接使用数字作为表示
One-hot主要用来编码类别特征,即采用哑变量(dummy variables)对类别进行编码。它的作用是避免因将类别用数字作为表示而给函数带来抖动。直接使用数字会将人工误差而导致的假设引入到类别特征中,比如类别之间的大小关系,以及差异关系等等。...原创 2021-02-23 02:16:54 · 856 阅读 · 0 评论 -
【AI面试题】AlexNet、VGGNet、GoogLeNet,ResNet等网络之间的区别是什么
AlexNet: AlexNet相比传统的CNN,主要改动包括Data Augmentation(数据增强)、Dropout方法,激活函数用ReLU代替了传统的Tanh或者Siigmoid、采用了Local Response Normalization(LRN,实际就是利用临近的像素数据做归一化,(现在基本不用了))、Overlapping Pooling(有重叠,即Pooling的步长比Pooling Kernel的对应边原创 2021-02-28 15:54:12 · 2500 阅读 · 0 评论 -
【AI面试题】回归问题常用的性能度量指标(评价指标)
1. 均方误差(MSE) MSE(Mean Square Error):是反映估计值与被估计值之间差异程度的一种度量。公式如下:2. 均方根误差(RMSE) RMSE(Root Mean Square Error):观测值与真值偏差的平方和与观测次数n比值的平方根,用来衡量观测值同真值之间的偏差。公式如下:3. 和方误差(SSE)原创 2021-02-24 00:00:15 · 1100 阅读 · 0 评论 -
【AI面试题】逻辑回归和线性回归的区别
逻辑回归和线性回归之间既有区别又有联系。逻辑回归和线性回归最大的不同点是逻辑回归解决的是分类而线性回归解决的是回归问题。逻辑回归又可以认为是广义线性回归的一种特殊形式,其特殊之处在于其目标(label/target)的取值服从二元分布。 所谓逻辑回归是一种特殊的广义线性回归,我们可以通过狭义线性回归到逻辑回归的转化来理解。狭义线性回归的表达式原创 2021-02-23 20:46:51 · 1271 阅读 · 0 评论 -
【AI面试题】Kmeams算法流程以及Kmeans++介绍
1. Kmeans算法流程随机初始化K个中心点;计算所有样本分别到K个中心点的距离;比较每个样本到K个中心点的距离(这里的距离也可以使用欧氏距离),并将样本分类到距离最近的中心点所在的类别中;对K个类别组成的样本点,重新计算中心点(计算方法是计算子集中所有元素各个维度的算术平均数);重复2~4,直到中心点不再变化。2. Kmeans++ Kmeans++的算法思想是使得初始化的聚类中心点之间的距离尽可能的原创 2021-02-24 18:29:45 · 1634 阅读 · 0 评论 -
【AI面试题】过拟合和欠拟合
1. 在模型评估过程中,过拟合和欠拟合具体指什么现象 过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现好,但是在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是:欠拟合时候,偏差比较大;而过拟合时,偏差较小但方差较大。2. 降低过拟合和欠拟合的方法2.1. 降低过拟合的方法1)特征 – 减少不必要的特征 &n原创 2021-02-23 02:35:49 · 881 阅读 · 0 评论 -
【AI面试题】为什么必须在神经网络中引入非线性
如果神经网络中没有引入非线性层,那么神经网络就变成了了线性层的堆叠。而多层线性网络的堆叠本质上还是一个线性层,我们以两层线性网络的堆叠为例: 我们用f(x)表示第一层线性网络,g(x)表示第二层线性网络,则两层网络的堆叠表示为:我们令:那么原来的表达式就变为:原创 2021-02-24 18:45:10 · 1092 阅读 · 0 评论 -
【AI面试题】逻辑回归如何处理多标签分类问题
如果y不是在[0,1]取值,而是在K个类别中取值,那么这时,问题就变为一个多分类问题。有两种方式可以处理该类问题:当K个类别不是互斥的时候,即每次对样本进行分类时,不需要考虑它是不是还可能是别的类别。那么我们可以为每个类别建立一个逻辑回归模型。用它来判断样本是否属于当前按类别。(即多标签值:指一个样本实例可以出现两个以上的标签值)当K个类别互斥的时候,即当y=i的时候意味着y不能取其他的值,这种情况下Softmax更合原创 2021-02-24 17:49:08 · 1822 阅读 · 0 评论 -
【AI面试题】Softmax的原理是什么,有什么作用
原创 2021-02-28 15:30:19 · 648 阅读 · 0 评论 -
【AI面试题】分类问题常用的性能度量指标(评价指标)
分类问题常用的性能度量指标有精确率、召回率、F1、TPR、FPR。分类问题度量指标的基础是混淆矩阵:上表中:TP表示正样本被预测为正样本(真正例,True Positive)FN表示正样本被预测为负样本(假负例,False Negative)TN表示负样本被预测为负样本(真负例,True Negative)FP表示负样本被预测为正样本(假正例,False Positive)● 准确率: 所有预测正确的样本(正样本预测为正,负样本预测为负)与所有样本的比值:● 精确率(查准率): .原创 2021-02-23 22:13:39 · 1742 阅读 · 0 评论 -
【AI面试题】随机森林算法的原理、随机性、优缺点
1. 随机森林算法原理 随机森林算法是Bagging集成框架下的一种算法,它同时对训练数据和特征采用随机抽样的方法来构建更加多样化的模型。随机森林具体的算法步骤如下:1, 假设有N个样本,则有放回的随机选择N个样本(每次随机选择一个样本,然后将该样本放回并继续选择)。采用选择好的N个样本用来训练一个决策树,作为决策树根节点处的样本。2. 假设每个样本有M个属性,在决策树做节点分裂时,随机从这M个属性中选取m个属性,满足原创 2021-02-25 17:49:47 · 4663 阅读 · 0 评论 -
【AI面试题】GBDT原理、如何用于分类、常用损失函数
1. 简述GBDT原理2. GBDT如何用于分类3. GBDT常用损失函数原创 2021-02-27 00:42:52 · 405 阅读 · 0 评论
分享