
算法
文章平均质量分 73
XGBoost、LightGBM、RF等
徐福记c
全栈工程师
展开
-
无穷小的发明是一场深刻的思想革命
这一过程表明,。原创 2025-04-10 00:37:44 · 212 阅读 · 0 评论 -
卡尔曼滤波与贝叶斯定理之间的数学关系
预测步骤:对应于贝叶斯定理中的先验概率,表示在没有观测到新的测量数据的情况下,系统状态的估计值及其不确定性。校正步骤:对应于贝叶斯定理中的后验概率,通过结合新的测量数据(似然概率)更新先验概率,得到更准确的状态估计。高斯分布假设:卡尔曼滤波假设系统的状态和测量都服从高斯分布,通过不断更新均值和协方差矩阵,动态调整对系统状态的信任度。通过这种数学上的对应关系,卡尔曼滤波能够在动态系统中有效地结合预测和测量,提供更精准的状态估计。这种方法在许多领域都有广泛应用,尤其是在涉及动态系统和噪声数据的场景中。原创 2025-04-10 00:22:20 · 186 阅读 · 0 评论 -
如何理解“无穷小”?
无穷小并非简单的运算符号,而是描述动态趋近过程的数学工具。动态性依赖极限过程,体现变量趋近于零的特性;操作性:通过严格定义支持极限、导数、积分等运算;应用性:在微积分、物理学和工程学中解决实际问题。理解无穷小需跳出“数”的直觉,从变量、极限和工具性的角度把握其本质。原创 2025-04-10 00:19:15 · 360 阅读 · 0 评论 -
高斯分布(正态分布)的场景分析
高斯分布(正态分布)是一种非常常见的概率分布,在许多自然和社会现象中都可以观察到。原创 2025-04-10 00:01:04 · 440 阅读 · 0 评论 -
卡尔曼滤波:预测和测量都不完美,但可以互相弥补
假设你有一辆遥控小车,它在直线上跑。(比如小车每秒跑2米,初始位置是0米)。问题:如果车轮打滑或加速,估算会有误差。(比如GPS)。问题:传感器可能有延迟或不精准。单独用这两个方法都不够准,原创 2025-04-09 23:23:54 · 186 阅读 · 0 评论 -
AUC:评估机器学习解决分类问题的性能
从图中可以看到,这是一个多类别分类问题的ROC曲线图,展示了三个类别的分类性能。原创 2025-04-09 10:28:09 · 157 阅读 · 0 评论 -
ReAct模式: 模拟人类思考和行动的过程,为AI Agent提供了一种有效的实现途径
ReAct模式是AI Agent开发中的一种重要设计模式,它通过模拟人类思考和行动的过程,为AI Agent提供了一种有效的实现途径。原创 2025-04-09 09:45:21 · 284 阅读 · 0 评论 -
机器学习中,R²(决定系数)和准确率(Accuracy)的区别
表示模型解释了 85% 的数据变异性,说明模型的预测能力较强,但不能简单地理解为“准确率只有 85%”。表示模型解释了 85% 的数据变异性,说明模型对数据的拟合较好,但并不意味着预测值与实际值完全一致。:R² 表示模型解释了数据的变异性比例,但并不直接反映预测值与实际值的误差大小。,它衡量的是模型对数据变异性的解释能力,而不是预测值与实际值的匹配程度。:模型部分解释了数据的变异性,值越接近 1,模型的解释能力越强。R² 衡量的是模型对数据变异性的解释能力。:MSE 的平方根,与实际值的单位一致。原创 2025-04-08 17:23:16 · 216 阅读 · 0 评论 -
GridSearchCV:XGBoost超参数优化的自动化工具
这段代码的主要目的是使用网格搜索优化的超参数,同时设置超时保护机制以防止长时间运行。代码逻辑清晰,注释详细,适合用于实际项目中的超参数优化。原创 2025-04-08 13:34:50 · 260 阅读 · 0 评论 -
临床诊断信息:高基数且细致的分类变量,适合采用目标编码和特征哈希
选择合适的编码方法取决于数据的特性和模型的需求。在实际应用中,通常需要根据具体问题选择最合适的编码方式。对于“临床诊断”这种高基数且细致的分类变量,目标编码和特征哈希是较为实用的选择。如果数据量足够大且计算资源充足,词嵌入也是一个值得尝试的方法。原创 2025-04-08 11:08:58 · 265 阅读 · 0 评论 -
几种常见的字符串转换为数值的方法的对比
原理:根据业务逻辑或领域知识,将字符串映射为数值。适用场景:特定业务场景(如将“高”、“中”、“低”映射为3、2、1)。优点:灵活,可以根据业务需求定制。缺点:需要领域知识,可能不适用于通用场景。示例代码data = {'等级': ['高', '中', '低', '中', '高']}mapping = {'高': 3, '中': 2, '低': 1}df['等级_encoded'] = df['等级'].map(mapping)print(df)方法适用场景优点缺点独热编码低基数分类变量。原创 2025-04-08 11:00:43 · 160 阅读 · 0 评论 -
OneHotEncoder:将分类变量 转换为 数值型特征
是一种常用的数据预处理技术,用于将分类变量转换为数值型特征。它通过独热编码避免了序数关系的问题,但可能导致维度爆炸。在实际应用中,需要根据数据特性和模型需求选择合适的编码方式。原创 2025-04-08 10:59:33 · 336 阅读 · 0 评论 -
交叉验证:将数据集拆分成5个子集,把指定模型在每个数据子集上独立训练和测试,从而更好地评估模型性能
交叉验证是一种强大的工具,用于评估模型的性能和选择最佳模型。它通过多次划分数据集并评估模型性能,提供了更可靠的结果。在医疗领域,交叉验证特别有用,因为数据量通常较小,且模型的准确性对临床决策至关重要。原创 2025-04-08 10:48:36 · 358 阅读 · 0 评论 -
投票回归器:组合多个基础模型的预测结果,提高整体预测性能
投票回归器通常能够提高模型的稳定性和泛化能力,但并不保证在所有情况下都优于所有基础模型。实际效果需要通过实验验证,选择合适的组合策略和基础模型至关重要。在实际应用中,建议通过交叉验证来评估集成模型的性能,并与其他模型进行比较,以确定最佳方案。原创 2025-04-08 10:24:19 · 248 阅读 · 0 评论 -
XGBoost中的学习率(Learning Rate)是控制模型更新步长的核心超参数
学习率(通常用eta或表示)是梯度提升框架中的步长缩放因子,其数学定义为:作用:学习率决定了每棵新树对模型更新的贡献比例。较小的学习率需要更多迭代次数,但能更精细地调整模型;较大的学习率加速收敛,但可能跳过最优解。核心作用:学习率是梯度提升步长的调节器,直接影响模型收敛速度和稳定性。调参原则:小步长+多迭代:适合复杂数据,但需权衡计算成本。大步长+早停:适合简单数据或快速原型开发。进阶技巧:结合。原创 2025-04-08 00:08:44 · 879 阅读 · 0 评论 -
分裂增益的本质是子节点优化潜力与父节点基准及正则化约束的博弈结果。通过贪心算法,实现多棵树的协同优化,而非追求单棵树的最佳
分裂增益的公式为:关系推导:分裂增益本质是分裂后总收益与分裂前基准收益分裂增益的本质是子节点优化潜力与父节点基准及正则化约束的博弈结果。理解这一关系有助于优化树结构(如调整λ、γ)和提升模型性能。原创 2025-04-08 00:05:34 · 333 阅读 · 0 评论 -
在XGBoost中,特征(Feature)和分裂点(Split Point)是决策树构建的核心要素
要素作用数学本质优化目标特征信息载体,决策依据属性维度xj,编码样本特性提升模型解释性与预测能力分裂点决策边界,残差优化阈值s,划分样本到子节点最大化损失减少量(Gain)协同递归构建树结构,梯度驱动优化梯度统计量G,H动态调整分裂策略平衡偏差与方差,防止过拟合特征和分裂点共同构成XGBoost的决策逻辑,其设计体现了梯度优化与结构复杂度控制的平衡,是模型高效性和可解释性的核心基础。原创 2025-04-07 23:57:36 · 880 阅读 · 0 评论 -
GBDT的梯度提升流程
通过 (T) 次迭代,最终得到一个强学习器 FT(x),它是多个基学习器的加权和。GBDT 的优点在于其强大的拟合能力和对各种损失函数的适应性,因此在实际应用中被广泛使用。梯度提升(Gradient Boosting Decision Tree, GBDT)是一种基于梯度下降思想的集成学习算法,其。GBDT 的核心思想是通过逐步拟合残差来优化模型。计算当前模型的残差(负梯度)。更新模型,逐步逼近真实值。用基学习器拟合残差。原创 2025-03-31 22:12:30 · 257 阅读 · 0 评论 -
SHAP:模型可解释性的核心工具
SHAP是一款专注于模型可解释性的开源工具。它通过计算Shapley值来衡量每个特征对模型预测结果的影响,从而揭示模型内部的决策逻辑。SHAP支持多种类型的机器学习模型,包括线性回归、决策树、神经网络等,适用于分类和回归任务。作为一款现代化的工具,SHAP不仅提供了强大的解释能力,还注重易用性和灵活性。其模块化的设计使得开发者可以根据具体需求自由组合功能模块,从而实现高效分析。SHAP作为一款专注于模型可解释性的工具,凭借其强大的功能和灵活的设计,正在改变传统的机器学习分析方式。原创 2025-04-01 00:21:27 · 824 阅读 · 0 评论 -
XGBoost的目标函数
贪心算法是一种在每一步选择当前最优解的算法,而不考虑全局最优解。其特点包括:局部最优:每一步只关注当前最优解。不可回溯:一旦做出选择,就不会回头重新选择。高效性:通过逐步优化,快速找到局部最优解。在XGBoost中,贪心算法用于每一步选择当前最优的树结构和叶子节点预测值,从而逐步优化目标函数。原创 2025-03-31 23:37:23 · 121 阅读 · 0 评论 -
回归问题(Regression Problem)是什么?
总之,回归问题是机器学习中的一个重要任务,广泛应用于金融、气象、医疗、商业等领域。回归问题(Regression Problem)是机器学习中的一种常见任务,其目标是预测一个连续值输出。常用的评价指标包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)等,用于衡量预测值与真实值之间的差异。输出:一个连续的数值(例如预测明天的气温、某房子的价格等)。回归问题的输出是一个连续的数值,例如房价、温度、销售额等。:根据房屋的面积、位置、房间数量等特征,预测房屋的价格。原创 2025-03-30 22:42:13 · 272 阅读 · 0 评论 -
XGBoost解决多分类问题的目标函数softmax
是 XGBoost 中用于多分类问题的目标函数。它通过 softmax 函数将样本分到不同的类别中。:对于每个样本,模型会输出一个向量,其中每个元素表示该样本属于某个类别的原始预测值。原始预测值通过 softmax 函数转换为概率分布,确保所有类别的概率之和为 1。:可以使用准确率(accuracy)、F1 分数等评估多分类模型的性能。适用于多分类问题,其中目标变量有多个互斥的类别。:选择概率最大的类别作为最终预测结果。:目标变量应编码为从 0 开始的整数。每个样本属于且仅属于一个类别。原创 2025-04-02 15:08:18 · 272 阅读 · 0 评论 -
使用了 train_test_split 函数来将数据集划分为训练集和测试集
使用了函数来将数据集划分为训练集和测试集。原创 2025-04-01 09:45:54 · 139 阅读 · 0 评论 -
对数据集中的某个分类列(target_type)进行编码,将其转换为整数形式,并将编码后的结果存储到一个新的列(品种_encoded)
对数据集中的某个分类列()进行编码,将其转换为整数形式,并将编码后的结果存储到一个新的列(品种_encoded)中。使用创建一个标签编码器实例le_type。是一种常用的工具,用于将分类数据(如字符串或类别标签)转换为整数形式。使用方法对列进行编码。会:学习分类值的映射关系(例如,将每个唯一值映射到一个整数)。将学习到的映射关系应用于数据,生成编码后的整数数组。将编码后的结果存储到列中,以便后续使用。原创 2025-03-31 20:25:09 · 271 阅读 · 0 评论 -
XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升的机器学习算法
XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升的机器学习算法,其核心思想是通过逐步构建一个加法模型,最终由多棵回归树组成。原创 2025-03-31 23:26:45 · 266 阅读 · 0 评论 -
XGBoost回归模型设计与实现:医疗诊断中的糖尿病风险预测
我们面临的是一个医疗诊断问题,目标是基于患者的体检数据(如血糖、血压、BMI、年龄等)预测糖尿病风险。:预测血糖水平(连续值):判断患者是否患有糖尿病(二分类)原创 2025-04-01 00:05:33 · 157 阅读 · 0 评论 -
XGBoost 中解决回归问题的2个目标函数
它通过最小化伽马分布的负对数似然来优化模型,特别适用于保险索赔严重性、医疗费用等场景。通过选择合适的目标函数,可以更好地优化模型的性能,使其在特定数据集上表现更佳。是最常见的回归目标函数,通过最小化预测值和真实值之间的平方误差来优化模型。**:适用于目标变量可能呈现伽马分布的场景,例如保险索赔严重性、医疗费用等。适用于大多数回归任务,特别是在数据中没有太多异常值的情况下。它通过最小化预测值和真实值之间的伽马分布的负对数似然来优化模型。**:适用于大多数回归任务,特别是在数据中没有太多异常值的情况下。原创 2025-04-02 15:04:28 · 610 阅读 · 0 评论 -
基于 XGBoost 的回归任务,使用房价数据集进行训练和测试
基于 XGBoost 的回归任务,使用了波士顿房价数据集进行训练和测试。代码结构清晰,功能完整,适合初学者学习如何使用 XGBoost 进行回归任务。原创 2025-04-02 14:09:17 · 173 阅读 · 0 评论 -
XGBoost基本原理分析
原理核心:梯度提升+正则化决策树,通过贪心分裂和二阶导数优化实现高效建模。适用场景:结构化数据、非线性关系、高维稀疏特征、中小到大规模数据。实际应用:从金融风控到医疗诊断,XGBoost因其高效性、灵活性和精度成为工业界和竞赛中的首选工具之一。原创 2025-03-30 18:38:29 · 702 阅读 · 0 评论 -
基于 XGBoost 的多分类任务
基于 XGBoost 的多分类任务,使用了鸢尾花数据集进行训练和测试。原创 2025-04-02 14:04:33 · 227 阅读 · 0 评论 -
XGBoost中贪心算法(Greedy Algorithm)求得的局部最优解并不一定是全局最优解
和。原创 2025-03-31 23:40:48 · 378 阅读 · 0 评论 -
信息熵是信息论中的一个核心概念,用来衡量随机变量的不确定性
统计意义上,信息熵反映了随机变量的平均不确定性,熵值越大,不确定性越高;例如,熵值为 (H(X)) 的随机变量,理论上可以用 (H(X)) 比特的平均长度进行无损编码。它假设在满足某些约束条件的情况下,选择熵最大的概率分布,因为这种分布最“均匀”,不确定性最高。它表示在不知道随机变量具体取值的情况下,我们对它可能取值的“平均不确定性”。信息熵衡量了随机变量的不确定性。在信息论中,熵增意味着系统中的不确定性增加,或者信息量的平均值增加。如果事件的概率越接近 0(几乎不可能发生的事件),其对熵的贡献越大。原创 2025-03-30 21:46:04 · 354 阅读 · 0 评论 -
分箱(Binning)是一种数据预处理技术,用于将连续的数值型数据划分为离散的区间(或类别)
分箱是一种重要的数据预处理技术,用于将连续数据转换为离散数据。分箱(Binning)是一种数据预处理技术,用于将连续的数值型数据划分为离散的区间(或类别)。例如,将 100 个数据点划分为 4 个区间,每个区间包含 25 个数据点。通过分箱,可以将连续值转换为离散值,从而简化数据、减少噪声或提取特征。:在机器学习中,分箱可以将连续特征转换为离散特征,提高模型性能。:适用于偏态分布的数据,可以避免某些区间数据点过多或过少。:将复杂的连续数据简化为离散区间,便于分析。:通过分箱可以平滑数据,减少异常值的影响。原创 2025-03-31 20:08:17 · 347 阅读 · 0 评论 -
XGBoost 机器学习算法-基本情况介绍
解决的问题:结构化数据的高效建模,平衡精度与复杂度。参数调优:依赖实验方法,非统计分析。数据需求:灵活适应小到大数据,但需结合问题复杂度调整策略。原创 2025-03-30 18:28:57 · 240 阅读 · 0 评论 -
AUC、MSE和R²是机器学习中不同任务场景下的核心评估指标
AUC、MSE和R²是机器学习中不同任务场景下的核心评估指标,其区别主要体现在等方面。原创 2025-04-04 22:48:55 · 760 阅读 · 0 评论 -
是不是特征越多,XGBoost的预测效果越好?
特征数量并不是越多越好。关键在于特征的质量和相关性。通过特征选择和优化,可以找到最佳的特征组合,从而提高模型的预测性能和泛化能力。原创 2025-04-05 00:03:12 · 198 阅读 · 0 评论 -
血量预测:从模型构建、推荐方案和医学分析三个维度分析
类别型变量(科室、临床诊断、申请类型)采用目标编码(Target Encoding):对HGB/PLT等实验室指标采用中位数填充,对类别型特征(科室、诊断)用众数填充。:采用分层5折交叉验证,评估指标用加权F1-score(应对血型不均衡):科室与HGB的组合特征(如外科+HGB<70的特殊标记)构建异常值检测模块(如HGB<30g/L时触发人工审核)开发医疗专用特征编码器(处理科室/诊断编码的领域知识)带注意力机制的LSTM(适合处理诊断文本的序列特征):开展多中心临床验证(建议纳入至少5家三甲医院)原创 2025-04-04 19:15:23 · 902 阅读 · 0 评论 -
如何解决三个算法模型全部扑街的问题
基于领域知识添加特征:如凝血动态指标(INR变化率)、患者病史组合特征(HGB+PT时序变化)对SHAP值高的特征(HGB/PT)进行分段处理(如HGB<7g/dL作为二值特征)自动生成特征:多项式特征(HGB², PT×TT)、统计特征(滑动窗口均值/方差)检查样本量(n)与特征数(p)的比例,若n < 10p需优先扩充数据。数据增强:通过SMOTE(分类问题)或添加噪声(回归问题)生成合成样本。引入交互项(如HGB×PT)或临床决策规则(如ISTH评分)数据分布异常(如非线性关系、离群值)原创 2025-04-05 01:03:09 · 1015 阅读 · 0 评论 -
LightGBM 和 XGBoost 两种机器学习算法的区别
GOSS 用于对数据进行采样,它会保留具有较大梯度的样本,因为这些样本对模型的训练影响更大,同时对梯度较小的样本进行下采样,从而在保证模型精度的同时提高训练速度。例如,在处理包含数百万条记录和数千个特征的数据集时,LightGBM 可以在较短的时间内完成训练,而 XGBoost 可能需要更长的时间。例如,在互联网行业处理海量的用户行为数据(如点击预测、广告推荐等)时,LightGBM 能够快速地训练出模型,并且在稀疏特征(如用户 - 商品交互特征)较多的情况下,仍然能够保持较好的性能。原创 2025-04-04 19:13:29 · 843 阅读 · 0 评论 -
XGBoost的预测结果评估,R²多少才合理?
建议直接运行代码并根据实际输出调整参数。若需复现特定R²值,可控制数据生成噪声或添加人工规律。,即数据线性相关性高且噪声较小。理论上,XGBoost在此数据上的R²应接近。在本地环境中执行完整代码,观察输出结果(需安装。(数据来源:Kaggle回归竞赛基准测试)(理想线性模型R²=1)。生成数据时,默认参数为。原创 2025-04-05 00:32:42 · 590 阅读 · 0 评论