
机器学习
文章平均质量分 66
diluosixu
这个作者很懒,什么都没留下…
展开
-
特征工程-数据处理
实现方式1: 手动 df['data'].map({'one year': 1, 'two year':2})1、数值缩放:标准化、归一化、L1/L2正则化、robust_scale、取对数log、softmax等。对于连续变量是否存在其他值表示缺失值的情况,可以先转化为数值变量再进行分析,例如如果是用空格代表缺失值。实现方式1:pandas.factorize(df['country'])[0]缺失值处理方法:删除、均值、中位数、众数、特殊值、随机值填充等。连续变量和离散变量之间相关性则可以卡方检验;原创 2024-08-27 18:29:49 · 590 阅读 · 0 评论 -
KNN
KNN模型(一)KNN算法1.工作原理假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。 输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。 计算新数据与样本数据集中每条数据的距离。 对求得的所有距离进行排序(从小到大,越小表示越相似)。 取前 k (k 一般小于等于 20 )个样本数据对应的分类标签。 求 k 个数据中出现次数最多的分类标签作为新数据的分类。给定一个训练数据集,对新的输入实例,在训练数据集中找到与原创 2021-04-15 14:29:55 · 232 阅读 · 0 评论 -
GBDT解决分类问题
一、GBDT是通过梯度下降(作为残差的近似)更新的决策树集成的boosting模型。(1)GBDT无论用于分类还是回归一直是使用的CART回归树。原因:如果选用的弱分类器是分类树,类别相减是没有意义的。上一轮输出的是样本x属于A类,本轮训练输出的是样本x属于B类,A类减B类是没有意义的。(2)GBDT每轮的训练是在上一轮训练的残差基础上进行训练的,残差指的是当前模型的负梯度值。二、使用GBDT来解决多分类问题,实质是把它转化为回归问题。在回归问题中,GBDT每一轮迭代都构建了一棵树,实质是构建了一个原创 2021-03-11 17:04:09 · 1386 阅读 · 0 评论 -
如何解决样本不平衡
在机器学习实践中,通常会遇到数据中正负样本不平衡(数据倾斜)的情况,如果选取的算法不合适,或者评价指标不合适,那么实际应用线上时效果往往不尽人意。如何解决样本不平衡问题?1.从数据角度(1)主动获取:获取更多的少量样本数据(2)算法采样:上采样、下采样、生成合成数据smote采样方法:从少数类创建新的合成点,以增加其基数。但是smote算法也有一定的局限性:1)在近邻选择时,存在一定的盲目性。在算法执行过程中,需要确定K值,即选择几个近邻样本,这个需要根据具体的实验数据和实验人自己决定。2)该算原创 2021-03-11 01:27:10 · 860 阅读 · 0 评论 -
简单易学的机器学习算法——朴素贝叶斯
一、贝叶斯定理 1、条件概率 条件概率是指在事件B发生的情况下,事件A发生的概率,用表示。 2、全概率公式 含义是:如果和构成样本空间的一个划分,那么事件B的概率,就等于和的概率分别乘以B对这两个事件的条件概率之和。 3、贝叶斯推断 其中称为先验概率,即在事件B发生之前,我们对事件A的概率的一个判断转载 2017-09-13 22:16:28 · 201 阅读 · 0 评论 -
线性回归的梯度下降法
摘要:这是我学习斯坦福大学《机器学习》课程的第一个算法。该算法属于回归模型中最简单的模型——线性回归,使用梯度下降法达到最优拟合。课程中对机器学习的定义是:Field of study that gives computers the ability to learn without being explicitly programmed.字面意思为不通过显式编程赋予计算机学习的能力。课程开始转载 2017-09-12 13:58:12 · 530 阅读 · 0 评论