
Scikit-learn
文章平均质量分 94
Scikit-learn
WHCIS
新入圈的萌新
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scikit-learn模型部署与生产化终极指南:深入解析持久化、API工程化与ONNX部署(十五)
技术原理:Joblib通过优化内存映射实现高效I/O,其核心算法基于分块序列化:ChunkSize=max(106,TotalMemory100)\text{ChunkSize} = \max\left(10^6, \frac{\text{TotalMemory}}{100}\right)ChunkSize=max(106,100TotalMemory)高级功能:增量学习持久化:1.2 Pickle协议详解协议版本对比:自定义序列化:二、生产级API工程化实践2.1 FastAP原创 2025-02-19 05:26:13 · 1100 阅读 · 0 评论 -
机器学习实战:Scikit-learn四大异常检测算法(IsolationForest、LocalOutlierFactor、OneClassSVM、EllipticEnvelope)(十四)
通过构建随机二叉树快速隔离异常点,异常值因特征差异显著而更易被隔离。通过核函数将数据映射到高维空间,寻找最优超平面最大化与原点间隔。假设数据服从多元高斯分布,计算马氏距离检测偏离分布中心的异常点。通过比较样本点与k近邻的局部密度差异识别异常点,适用于。(Path Length)作为异常得分依据。当 LOF > 1 时判定为异常点。原创 2025-02-19 05:21:58 · 1090 阅读 · 0 评论 -
深入掌握Scikit-learn特征工程:NLP与图像处理指南(十三)
【代码】深入掌握Scikit-learn特征工程:NLP与图像处理指南(十三)原创 2025-02-19 05:14:32 · 866 阅读 · 0 评论 -
深度解析时间序列三大核心技术:交叉验证、滞后特征与谱聚类(Scikit-learn)(十二)
适用于电力网络、交通流量预测。处理不规则采样时序数据。原创 2025-02-19 05:09:22 · 717 阅读 · 0 评论 -
Scikit-learn贝叶斯与广义线性模型指南(十一)
实时分类系统:GaussianNB处理用户行为分类风险评估系统:BayesianRidge进行信用评分需求预测系统:PoissonRegressor预测产品销量保险定价系统:TweedieRegressor实现精准定价。原创 2025-02-19 05:03:26 · 1030 阅读 · 0 评论 -
机器学习实战:Scikit-learn解决类别不平衡问题的全面指南(十)
当某一类别的样本数量显著多于其他类别时(通常超过10:1的比例),我们称之为类别不平衡问题。金融欺诈检测(欺诈交易占比约0.1%)医疗诊断(罕见病阳性样本不足1%)工业缺陷检测(正常产品占比95%以上)原创 2025-02-19 04:58:08 · 704 阅读 · 0 评论 -
Scikit-learn高级工程实践:流水线(Pipeline)与复合估计器(九)
训练逻辑# 转换逻辑# 评估逻辑模块化设计:每个转换器完成单一职责版本控制:对完整流水线进行hash编码文档规范:为每个步骤添加docstring单元测试:验证各步骤的输入输出格式性能分析:使用%%timeit测量各步骤耗时。原创 2025-02-19 04:53:26 · 670 阅读 · 0 评论 -
特征工程工具箱:选择、构造与嵌入(统计特征选择、递归特征消除、VarianceThreshold、特征哈希、嵌入降维)(八)
是否达到目标特征数?保留前k个最大奇异值。原创 2025-02-19 04:47:51 · 597 阅读 · 0 评论 -
Scikit-learn超参数调优终极指南:从暴力搜索到贝叶斯优化深度解析(八)
超参数是模型外部的配置参数,与模型内部通过训练得到的参数(如线性回归的权重)不同,需要人工设定。SVM的惩罚系数C随机森林的树数量(n_estimators)神经网络的学习率(learning rate)return 0.5*fp + 2*fn # 自定义损失权重greater_is_better=False, # 指定优化方向小参数空间优先GridSearch中等维度使用HalvingGrid高维连续空间选择BayesSearch快速原型开发用RandomizedSearch。原创 2025-02-19 04:38:52 · 1008 阅读 · 0 评论 -
Scikit-learn模型评估与验证完全指南:从基础指标到高级分析(六)
在机器学习项目全生命周期中,模型评估是验证算法有效性的核心环节。Scikit-learn作为Python最流行的机器学习库,提供了完整的模型评估工具集。本文将从数学原理、代码实现、可视化分析三个维度,深入解析六大核心评估工具:核心评估工具全景图:二、分类模型深度评估2.1 准确率评估(accuracy_score)数学原理:Accuracy=(TP+TN)/(TP+TN+FP+FN)Accuracy = (TP + TN) / (TP + TN + FP + FN)Accuracy=(TP+T原创 2025-02-19 04:27:19 · 610 阅读 · 0 评论 -
Scikit-learn无监督学习深度解析:聚类、降维与关联规则实战指南(五)
无监督学习是探索数据内在结构的核心技术,适用于无标签数据的模式发现与特征提取。本文基于Scikit-learn库,系统讲解三大核心模块,涵盖KMeans、DBSCAN、层次聚类、PCA、t-SNE、因子分析等主流算法。原创 2025-02-19 04:21:32 · 958 阅读 · 0 评论 -
掌握Scikit-learn回归模型:从原理到实战调优(四)
我们将使用Scikit-learn 1.4版本进行演示,数据集采用加利福尼亚房价数据集(替代已废弃的波士顿房价数据集)。原创 2025-02-19 04:14:09 · 829 阅读 · 0 评论 -
分类模型大全:从线性模型到复杂集成——Scikit-learn 指南(三)
在机器学习领域,分类问题占据核心地位。Scikit-learn 提供了从基础到前沿的完整分类器体系,本文将通过。:寻找最优分割超平面,使得正负样本的线性组合距离最大。原创 2025-02-19 03:38:09 · 833 阅读 · 0 评论 -
数据预处理全解析:从缺失值到特征生成(二)
安全日志转换(处理零值)func=np.log1p, # 使用log(1+x)inverse_func=np.expm1, # 逆变换print("转换结果:\n", log_transformer.transform(X))# 输出:[[0.], [0.693], [1.0986]]原创 2025-02-19 03:30:54 · 897 阅读 · 0 评论 -
Scikit-learn全景图:六大核心模块与统一API设计详解(一)
fill:#333;color:#333;color:#333;fill:none;监督学习无监督学习模型选择数据预处理分类回归聚类降维交叉验证超参数优化标准化缺失值处理Scikit-learn基于NumPy和SciPy构建,采用模块化设计架构。上图展示了库的核心组件及其相互关系,各模块通过统一的API接口实现无缝协作。Scikit-learn是Python中最受欢迎的机器学习库之一,它基于NumPy、SciPy和Matplotlib构建,提供了高效的算法实现和简洁的API设计。原创 2025-02-19 03:21:12 · 882 阅读 · 0 评论