机器学习
文章平均质量分 90
流烟默
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
集成学习算法随机森林(Random Forest)基础入门
简单 + 鲁棒 + 高效 + 可解释(相对) = 工业界的“瑞士军刀”偏差-方差权衡(通过集成降低方差)准确性与可维护性自动化与可控性即使在深度学习时代,随机森林仍是快速验证、小数据建模、特征工程评估的首选工具。随机森林与 XGBoost/LightGBM 的对比如何可视化随机森林中的单棵树在不平衡数据上的改进策略(如 class_weight)随机森林的数学原理(泛化误差界)随机森林算法(Random Forest Algorithm):是一套构建模型的规则和流程(即“怎么做”)。原创 2025-11-09 14:15:50 · 1421 阅读 · 0 评论 -
Optuna超参数调优图例解读之平行坐标图
本文分析了一张用于超参数调优的平行坐标图,揭示了各参数与模型性能的关系。核心发现包括:学习率应控制在0.02-0.04,树数量建议500-900,最大深度4-6,特征采样比例0.65-0.85。虽然图中显示部分参数(如正则化系数)影响较小,但实际最优解中这些参数仍取非零值,表明超参数之间存在复杂交互效应。最终得出了包含学习率0.0278、树数量631等参数的最佳配置,取得了0.9194的高性能指标。原创 2025-11-08 17:43:05 · 853 阅读 · 0 评论 -
Optuna超参数调优图例解读之Optimization History Plot(优化历史图)
这张优化历史图展示了超参数调优的过程,横轴为试验次数(0-99),纵轴为目标值(如准确率)。蓝点表示每次试验得分,红线记录全局最佳值。图中显示:1)前10次试验快速找到0.92的高分;2)中期(10-60次)保持稳定;3)后期无显著提升。结论:优化过程高效收敛,0.92可能是性能上限,建议停止调优并输出最佳参数组合。若需进一步改进,可尝试局部搜索或更换优化算法。原创 2025-11-08 17:28:18 · 936 阅读 · 0 评论 -
Optuna超参数调优图例解读之超参数重要性图
你的模型性能主要由决定,其次是和;其余参数基本可以忽略。原创 2025-11-08 17:25:27 · 862 阅读 · 0 评论 -
模型理解与可解释性图表案例解读之SHAP 瀑布图(Waterfall Plot)
SHAP Waterfall Plot 是一种“逐步累积”的可视化方法模型预测值如何从“全局平均值”开始,一步步被每个特征推动,最终到达这个样本的预测结果。→ 全体用户的平均风险得分→ 这个用户的风险得分每一步:一个特征“跳下去”,把水位(预测值)往上或往下推这个用户虽然曾有自杀念头(高危),但由于压力极低、生活方式健康,模型综合判断其为“低风险”。这说明:单一高危因素不能决定一切,整体生活状态才是关键。原创 2025-11-08 17:18:59 · 1329 阅读 · 0 评论 -
模型理解与可解释性图表案例解读
观察点结论🔥 最关键特征是最核心预测因子📈 主要驱动因素心理压力(学业、经济)是主要风险来源🧍♂️ 人口属性年龄、性别、城市等基本无关紧要🧩 模型合理性符合医学逻辑,具备良好可解释性⚠️ 潜在问题过度依赖自杀意念,需警惕漏诊“本模型识别出‘是否有过自杀念头’为最具影响力的预测因子,占比超过65%,表明该变量在抑郁症筛查中具有决定性作用。其次,学业压力、经济压力和整体压力水平也显著影响预测结果,而性别、年龄等人格特征则贡献微弱。原创 2025-11-07 16:24:49 · 894 阅读 · 0 评论 -
模型训练过程监控指标案例解读
本文分析了机器学习模型的三联训练曲线图(损失图、AUC图和错误图),展示了模型在训练过程中表现。左图显示训练和验证损失持续下降并趋于稳定,表明模型收敛良好且未过拟合;中图AUC值达到0.915,证明模型具有很强的分类能力;右图错误率降至16%,显示模型具有较高准确度。综合分析表明该XGBoost模型训练充分、性能优越,适用于抑郁症筛查等实际应用。此外,文章还厘清了"学习曲线"、"训练曲线"和"验证曲线"的概念关系,指出每个图都是一个完整的学习曲线,原创 2025-11-07 15:56:18 · 696 阅读 · 0 评论 -
常见的模型性能评估图表案例解读
大学生心理健康预测模型评估分析 本研究采用两种核心指标评估分类模型性能:精确率-召回率曲线(PR曲线)和受试者工作特征曲线(ROC曲线)。PR曲线(AP=0.943)显示模型在识别抑郁学生方面表现优异,即使召回率达到80%时精确率仍保持在0.9以上。ROC曲线(AUC=0.926)同样表明模型具备极强的判别能力,在低误判率下即可识别多数真实病例。两种曲线结果相互印证,证实模型在心理健康筛查中具有高准确性和稳定性。特别值得注意的是,该模型对少数类(抑郁学生)的识别能力突出,适合高校心理健康早期筛查场景。建议根原创 2025-11-07 14:00:47 · 1009 阅读 · 0 评论 -
机器学习模型中预测方法predict和predict_proba
机器学习模型预测方法的选择和应用场景: predict() 与 predict_proba() 的区别 predict() 直接输出类别标签(如0/1),适用于只需分类结果的场景。 predict_proba() 输出概率(如类别1的概率),适用于需置信度、AUC计算或阈值调整的任务。 方法选择依据 仅需分类结果时用 predict();若需概率分析、调整阈值或评估模型性能(如AUC),则用 predict_proba()。 AUC-ROC与预测概率的关系 AUC完全依赖概率输出,通过不同阈值下的TPR/F原创 2025-11-07 09:22:21 · 755 阅读 · 0 评论 -
机器学习中拟合、欠拟合、过拟合是什么
机器学习中的拟合问题与正则化方法 摘要:本文系统介绍了机器学习中的拟合问题。拟合指模型学习数据规律的过程,良好拟合需平衡训练表现与泛化能力。过拟合时模型过度记忆训练数据细节(如噪声),导致验证集表现差;欠拟合则因模型过于简单无法捕捉数据规律。防止过拟合的方法包括:正则化(L1/L2)、早停、数据增强等。L2正则化(Ridge)平滑权重,适用于多数场景;L1(Lasso)可实现特征选择;Elastic Net结合二者优点;Dropout专用于神经网络。选择方法需考虑模型类型、数据特点及需求,如线性模型优先L2原创 2025-11-06 19:26:30 · 990 阅读 · 0 评论 -
机器学习中交叉验证(CV)、CV fold(交叉验证折) 和 数据泄露
本文介绍了机器学习中的交叉验证(CV)及相关概念。CV是一种评估模型性能的技术,常见形式是k折交叉验证,将数据分为k个子集(fold),每次用k-1个fold训练,1个验证,重复k次。重点强调了"未来信息泄露"问题,即在预处理时错误使用了验证/测试集信息,导致评估失真。正确的做法是:在每次CV中,先划分数据,仅用训练集计算预处理参数,再转换训练和验证集。文中还给出了实现5折分层交叉验证的代码示例,包括数据划分、模型训练和性能评估流程,确保评估结果可靠。原创 2025-11-06 18:40:49 · 949 阅读 · 0 评论 -
超参数调优中Optuna 和贝叶斯优化区别与联系
Optuna与贝叶斯优化的关系: Optuna是一个基于Python的超参数优化框架,而贝叶斯优化是一种智能搜索策略。两者不是同一概念,但Optuna默认使用TPE算法(贝叶斯优化的一种实现)来高效调整超参数。 核心区别: 贝叶斯优化是数学方法(如TPE、高斯过程),通过历史数据建模指导参数选择; Optuna是工具库,支持多种优化算法(默认TPE),提供可视化、剪枝等易用功能。 总结:Optuna是执行贝叶斯优化等策略的实用工具,尤其适合自动化超参数调优。原创 2025-11-06 14:36:16 · 946 阅读 · 0 评论 -
贝叶斯优化中的 trial 和 best_iteration 的区别与联系
Optuna的超参数优化过程分为两层:外层是n_trials表示的独立超参数实验次数(如100次),每次实验由Optuna选择一组超参数训练模型;内层是XGBoost模型自身的训练过程,通过best_iteration确定最优树的数量。两者分别控制全局超参数选择和局部模型训练优化。代码中还通过惩罚机制防止过早停止的模型被选中,确保选择泛化能力强的参数组合。最终选出验证集AUC最高的超参数作为最优解。原创 2025-11-06 14:29:35 · 874 阅读 · 0 评论 -
贝叶斯优化的核心评估单元 objective(trial) 深度解析
设计原则实现方式分离关注点动态参数(**params) vs 固定配置(等)可复现性统一控制所有随机源效率优先n_jobs=-1充分利用硬件鲁棒性自动处理类别不平衡(工程安全不将数据存入模型,仅传必要配置.fit()fit。原创 2025-11-06 11:34:25 · 1239 阅读 · 0 评论 -
基于Optuna 贝叶斯优化超参数时优化方向和监控指标是否可以不一致?
本文分析了Optuna和XGBoost在超参数优化中的分工协作关系。Optuna层面通过direction='maximize'设定以AUC最大化为优化目标;XGBoost层面则通过eval_metric=['logloss','auc']在训练过程中监控多个指标,其中logloss用于早停机制确保训练稳定性,auc用于辅助监控。这种设计实现了训练过程指标与优化目标的分离,既保证了训练稳定性又满足了业务需求。文章还讨论了优化策略的改进空间,但肯定了当前设计的合理性,认为这是职责分离的优秀实践。原创 2025-11-06 11:11:40 · 469 阅读 · 0 评论 -
XGBoost超参数调优完全指南:基于贝叶斯优化的智能调参系统
本文提出了一种基于贝叶斯优化的XGBoost超参数调优方法,特别针对学生抑郁预测等不平衡分类任务。该方法设计了完整的调优器架构,包含参数状态管理和安全预处理机制。核心优化过程采用TPE算法智能搜索超参数空间,并引入早停机制和过拟合惩罚策略。文章详细解析了10个关键参数的搜索范围和调优优先级,其中n_estimators、max_depth和learning_rate被列为最高优先级参数。该方法通过自动计算类别权重、多指标监控和异常处理机制,实现了高效稳健的超参数优化,在实际应用中取得了良好效果。原创 2025-11-06 10:29:29 · 1221 阅读 · 0 评论 -
基于Optuna 贝叶斯优化超参数调优之使用TPE创建研究对象
本文介绍了使用Optuna框架创建超参数优化研究(Study)对象的核心语句optuna.create_study()。该对象用于管理整个优化过程,包含三个关键参数:1) direction='maximize'指定优化目标方向为最大化验证集AUC;2) sampler=TPESampler采用基于贝叶斯优化的Tree-structured Parzen Estimator算法,智能选择超参数组合;3) seed=self.random_state设置随机种子保证结果可复现。TPE算法通过区分"好原创 2025-11-05 19:42:02 · 824 阅读 · 0 评论 -
机器学习中的 fit()、transform() 与 fit_transform():原理、用法与最佳实践
机器学习中的fit()、transform()和fit_transform()方法详解:fit()用于从数据中学习转换规则或模型参数(如均值/方差等统计量),不改变原始数据;transform()应用已学规则进行数据转换;fit_transform()则合并两步操作,但仅限首次处理训练数据时使用。关键原则是防止数据泄露——测试集只能使用transform()复用训练集的规则。建议使用Pipeline自动化流程,确保预处理与模型训练的一致性。核心要义是"训练集学规则,测试集仅应用规则"。原创 2025-11-05 18:43:02 · 1065 阅读 · 0 评论 -
集成学习算法XGBoost(eXtreme Gradient Boosting)基础入门
XGBoost是一种高效的集成学习算法,基于梯度提升树框架,通过二阶导数优化、正则化和并行计算等技术提升模型性能。相比传统GBDT,XGBoost具有更快的训练速度、更好的泛化能力和更强的工程优化。核心优势包括:处理结构化数据表现优异、支持自定义损失函数、自动处理缺失值以及提供多语言接口。Python中可通过原生API或scikit-learn兼容API快速实现分类、回归等任务,适合金融风控、医疗诊断等高精度需求场景。原创 2025-11-05 17:37:25 · 1217 阅读 · 0 评论 -
机器学习中模型的鲁棒性是什么
模型鲁棒性(Robustness)指模型在数据噪声、扰动或分布变化时仍能保持稳定预测的能力。提升方法包括: 数据层面:添加噪声训练、异常值处理、领域自适应 模型层面:使用集成方法、正则化、对抗训练 训练策略:采用鲁棒损失函数、权重衰减、交叉验证 后处理:预测校准、集成预测、阈值调整 对抗训练通过生成对抗样本并混合训练提升鲁棒性,常用FGSM/PGD等方法。实现步骤包括模型定义、对抗样本生成和联合训练。鲁棒性是模型实用化的关键,需结合实际场景针对性优化。原创 2025-11-05 12:42:48 · 1541 阅读 · 0 评论 -
超参数优化中的随机搜索和网格搜索
摘要:网格搜索和随机搜索是两种主要的超参数优化方法。网格搜索通过穷举所有参数组合确保找到最优解,适用于参数少且离散的场景,但计算成本随参数数量指数增长。随机搜索则通过随机采样高效探索高维参数空间,支持连续参数,计算成本可控,但不保证全局最优。网格搜索适合小规模精确搜索,随机搜索更适合大规模参数探索。实际应用中可先用随机搜索快速定位参数范围,再用网格搜索精细优化。原创 2025-11-05 11:13:03 · 1120 阅读 · 0 评论 -
机器学习模型训练中的pipline基础入门
Pipeline(管道)是机器学习中将数据预处理、特征工程和模型训练等步骤串联封装的工具,核心优势包括简化代码、避免数据泄露、便于超参数优化和确保流程一致性。其关键组成包括转换步骤(Transformers)和评估器(Estimator)。Pipeline通过封装流程显著提升效率,但存在调试困难、灵活性受限等缺点,适合固定流程且需严格数据隔离的场景。原创 2025-11-05 11:05:30 · 840 阅读 · 0 评论 -
OSError: Can‘t load tokenizer for ‘bert-base-chinese‘无法访问https://huggingface.co/models
使用from_pretrained()函数从预训练的权重中加载模型时报错:OSError: Can’t load tokenizer for ‘bert-base-chinese’. If you were trying to load it from ‘https://huggingface.co/models’, make sure you don’t have a local directory with the same name. Otherwise, make sure ‘bert-base-c原创 2025-02-02 12:11:25 · 584 阅读 · 0 评论 -
Windows下安装Anaconda5.3.1+Python3.8+TensorFlow2.13.0-CPU版本总结
Windows下安装Anaconda5.3.1+Python3.8+TensorFlow2.13.0CPU版本总结原创 2023-11-11 20:46:09 · 4346 阅读 · 0 评论 -
RAG(Retrieval-Augmented Generation)检索增强生成基础入门
RAG(Retrieval-Augmented Generation)是一种结合了检索和生成模型的技术,旨在提高自然语言处理任务的性能和准确性。RAG 方法的核心思想是在生成模型的基础上,通过检索模块从大量文档或知识库中获取相关信息,从而增强生成模型的上下文理解和信息丰富度。原创 2024-10-24 11:12:29 · 2190 阅读 · 0 评论 -
自然语言处理(NLP)领域相关模型概述
特性/模型Word2VecGloVeBERTFastTextELMoRoBERTa基本原理神经网络语言模型矩阵分解双向Transformer子词嵌入BiLSTM改进的双向Transformer上下文敏感度局部上下文局部+全局统计双向上下文局部上下文+子词双向上下文更好的双向上下文计算复杂度中等高非常高中等高高适用场景快速原型开发复杂语义分析高精度任务形态丰富语言深度语义理解高性能任务。原创 2025-01-21 17:46:32 · 1088 阅读 · 0 评论 -
NLP自然语言处理中Word2Vec和GloVe概述
GloVe(Global Vectors for Word Representation)和Word2Vec是两种广泛使用的词嵌入方法,它们都旨在将词语转换为高维向量表示,以便于在各种自然语言处理任务中使用。尽管这两种方法的目标相似,但它们的实现方式和理论基础有所不同。是由Google在2013年提出的一种用于生成词向量的技术。它基于分布假说,即上下文相似的词往往具有相似的意义。(Global Vectors for Word Representation)由斯坦福大学的研究人员在2014年提出。原创 2025-01-21 17:48:50 · 1517 阅读 · 0 评论 -
机器学习中一些场景的模型评估与理解图表
机器学习模型评估与解释图表指南 本文系统整理了14种核心的机器学习图表工具,分为四大类: 性能评估:包括ROC曲线、PR曲线和混淆矩阵,用于量化模型分类能力 模型解释:特征重要性图、SHAP摘要和依赖图,揭示模型决策依据 训练监控:学习曲线、验证曲线和损失曲线,优化模型训练过程 业务分析:累计增益图、提升图和校准曲线,将技术指标转化为业务洞察 每种图表均包含: 核心指标说明(如AUC、F1等) 标准图例展示 专业解读要点 典型应用场景 这些可视化工具形成了从技术验证到业务决策的完整分析链条,适用于分类模型的原创 2025-10-22 10:51:36 · 1328 阅读 · 0 评论
分享