机器学习
文章平均质量分 93
机器学习
追逐☞
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习(14)——模型调参
通过以上策略和代码示例,可以在千万级数据集上高效完成模型调参。实际应用中建议结合业务特点调整参数范围,并通过自动化流水线实现持续优化。原创 2025-05-19 22:16:31 · 1694 阅读 · 0 评论 -
机器学习(13)——LGBM(2)
LightGBM是一种高效的梯度提升树算法,由微软开发,旨在解决传统梯度提升树在处理大规模数据时的性能瓶颈。其核心特点包括高效性、低内存使用和高精度。LightGBM通过基于直方图的算法优化,将连续特征离散化为直方图,减少计算量,并支持多线程和GPU加速,显著提升训练速度。此外,它继承了梯度提升树的高精度特性,支持分类、回归任务,并提供特征重要性评估和早停机制等功能。LightGBM广泛应用于电商、金融、医疗和工业等领域,尤其适合处理大规模数据。其优点在于训练速度快、内存占用低,但可能对参数设置较为敏感。原创 2025-05-18 21:00:23 · 1344 阅读 · 0 评论 -
机器学习(12)——LGBM(1)
LightGBM因其高效性和优秀的性能,已成为许多机器学习竞赛和工业界应用的首选工具之一。高维特征通常是稀疏的,许多特征互斥(不会同时取非零值)。EFB将这些特征捆绑在一起,将复杂度从O(#features)降到O(#bundle),同时不影响准确性。LightGBM(Light Gradient Boosting Machine)是微软开发的一个基于决策树算法的分布式梯度提升框架,专为高效性和可扩展性设计。LightGBM属于梯度提升决策树(GBDT)家族,是XGBoost之后的一个重要改进。原创 2025-05-18 20:57:06 · 1497 阅读 · 0 评论 -
机器学习(11)——xgboost
XGBoost是一种高效的梯度提升决策树(GBDT)实现,广泛应用于机器学习和数据科学领域。它通过组合多个弱学习器(如决策树)来构建强学习器,具有以下核心特点:1)使用二阶导数优化,提升模型精度;2)引入正则化项,防止过拟合;3)支持并行计算,提高训练效率;4)采用后剪枝和稀疏感知算法,增强模型灵活性。XGBoost还通过列块存储、缓存优化和外存计算等技术,进一步优化了大规模数据处理能力。与LightGBM相比,XGBoost在树生长策略、特征处理和内存使用等方面有所不同,适用于不同场景。实践建议包括参数调原创 2025-05-18 17:06:01 · 2674 阅读 · 0 评论 -
机器学习(10)——神经网络
神经网络(Neural Networks,简称NN)是一类模仿生物神经系统的数学模型,用于处理和解决各种类型的任务,如分类、回归、模式识别等。神经网络属于机器学习领域的一个重要分支,特别是在深度学习(Deep Learning)中起到了核心作用。神经网络通过层次化非线性变换实现强大的函数拟合能力,其成功依赖于:架构设计(如CNN处理图像、Transformer处理文本)。优化技术(如Adam、Dropout)。大规模数据与算力支撑(GPU/TPU)。原创 2025-04-26 16:20:45 · 2106 阅读 · 0 评论 -
机器学习(9)——随机森林
它通过构建多个决策树(Decision Tree),并通过集成学习的思想,最终输出多个决策树的结果的平均值或多数投票结果,从而提高模型的准确性和稳定性。随机森林的核心思想是通过构建多个决策树,并结合它们的结果来进行预测。决策树继续生长,直到满足一定条件(例如,树的深度达到预设的最大值,或者节点的样本数小于某个阈值)为止。随机选择特征:在每个决策树的每个节点,选择一个随机的特征子集来进行分裂,而不是使用所有特征。在每个节点的划分时,随机选择一个特征子集,而不是使用所有特征,从而减少不同决策树之间的相关性。原创 2025-04-25 00:05:29 · 1487 阅读 · 0 评论 -
机器学习(8)——主成分分析
主成分分析(PCA,Principal Component Analysis)是一种常用的降维技术,旨在通过线性变换将数据转换到一个新的坐标系中,使得数据的方差最大化,从而提取出数据中的主要特征。它在数据预处理、降维、噪声去除和数据可视化等领域有广泛应用。PCA通过正交变换提取数据主要变化方向,是降维和特征提取的基石。理解其数学本质(特征分解)和局限性(线性假设)有助于在实际任务中合理应用。进阶方法(如核PCA)可解决非线性问题。原创 2025-04-24 23:09:16 · 1175 阅读 · 0 评论 -
机器学习(7)——K均值聚类
K均值是聚类任务的基础算法,核心在于迭代优化质心位置。尽管有局限性(如需预设K值),但其高效性和易实现性使其在实践中广泛应用。改进方法(如K-Means++)和评估技巧(肘部法则)可进一步提升效果。原创 2025-04-24 22:22:30 · 1605 阅读 · 0 评论 -
机器学习(6)——朴素贝叶斯
朴素贝叶斯算法(Naive Bayes)是一种基于贝叶斯定理的概率分类算法,在机器学习和数据挖掘中广泛应用。它被称为“朴素”的原因是它假设特征之间是条件独立的,这简化了模型的复杂度,使得它在许多实际问题中能够表现得相当高效,尤其适用于文本分类、垃圾邮件识别等任务。朴素贝叶斯是一种简单但强大的概率分类器,尤其适合高维稀疏数据和实时预测场景。尽管其独立性假设在实际中可能不成立,但在许多任务(如文本分类)中仍表现优异。理解其数学基础(贝叶斯定理)和变种(高斯/多项式/伯努利)是灵活应用的关键。原创 2025-04-16 00:41:44 · 1093 阅读 · 0 评论 -
机器学习(5)——支持向量机
SVM 核心:最大化间隔的超平面,支持核方法处理非线性。关键参数:正则化参数CCC。核函数类型(RBF/线性/多项式)。RBF 核的γγγ。适用场景:中小规模高维数据(如文本分类、图像识别)。需强泛化能力的分类任务。原创 2025-04-14 00:03:29 · 1724 阅读 · 0 评论 -
机器学习(4)—— K近邻算法
给定一个待分类(或回归)的数据点,找到训练集中距离该数据点最近的K个邻居,然后通过这些邻居的标签(分类问题)或数值(回归问题)来预测该数据点的标签或数值。:待预测样本的类别由其K个最近邻居的**多数投票(Majority Voting)**决定。”,通过计算待预测样本与训练样本的距离,找到最近的K个邻居,基于这些邻居的标签进行预测。计算待分类点与所有训练集点之间的距离,常用的距离度量包括欧几里得距离、曼哈顿距离等。:计算样本间距离的方法(如欧氏距离、曼哈顿距离)。:选择最近的K个邻居(影响模型复杂度)。原创 2025-04-12 17:58:28 · 1079 阅读 · 0 评论 -
机器学习(3)——决策树
决策树(Decision Tree)是一种非参数的监督学习算法,适用于分类和回归任务。其核心思想是通过一系列规则(if-then结构)对数据进行递归划分,最终形成一棵树形结构,实现预测或分类。原创 2025-04-12 17:57:48 · 1434 阅读 · 0 评论 -
机器学习(2)——逻辑回归
逻辑回归(Logistic Regression)是一种用于分类问题的统计方法,特别是用于二分类问题。尽管其名字中有“回归”二字,但逻辑回归实际上是一种分类模型。它通过一个线性模型来预测一个事件的发生概率,输出值在0到1之间。原创 2025-04-12 17:57:07 · 1283 阅读 · 0 评论 -
机器学习(1)—线性回归
线性回归(Linear Regression)是一种用于预测一个连续型目标变量(因变量)与一个或多个自变量(特征变量)之间关系的统计方法。它的基本思想是通过拟合一条直线(在多变量情况下是超平面),来建立自变量和因变量之间的关系模型。原创 2025-04-05 09:51:48 · 1419 阅读 · 0 评论 -
机器学习模型开发知识沉淀
在使用算法去挖掘数据中的规律时,离不开准确的数据支撑。然而在不同场景挖掘模型中,使用的训练数据也有着很大区别,选择恰当的入模特征,对模型最终效果起着决定性作用。数据选择步骤发现问题数据:识别缺失值、重复值、异常值(Outliers)或噪声数据,判断是否需要清洗或修正。验证数据一致性:检查字段格式(如日期、数值类型)、单位是否统一,避免因数据错误导致模型偏差。识别数据偏差:发现数据分布不平衡(如分类任务中类别不均衡)、采样偏差或时间序列中的断档问题。统计特征分析:计算均值、方差、分位数、偏度(Skewness原创 2025-02-13 00:23:01 · 1136 阅读 · 0 评论
分享