- 博客(36)
- 收藏
- 关注
原创 第十四章聚类方法理论及Python实现
本文系统介绍了两种常见聚类方法:层次聚类和K均值聚类。层次聚类通过自底向上或自顶向下的方式构建树状图,可基于不同类间距计算方法实现;K均值聚类通过迭代优化样本分配和中心更新实现快速聚类。文章详细阐述了距离度量、类定义等核心概念,并提供了Python实现代码。K均值具有简单高效、适合大规模数据的优点,但对初始中心敏感且需预设簇数;层次聚类无需预设簇数但计算复杂度较高。两种方法各具特点,需根据数据特征和需求选择使用。
2025-12-10 17:16:46
966
原创 RNN公式推导、案例实现及Python实现
RNN(循环神经网络)是一种专为序列数据设计的神经网络,通过循环传递隐藏状态实现对历史信息的记忆。本文详细介绍了RNN的理论基础,包括前向传播和反向传播的计算推导,并展示了RNN的5种典型结构(1-to-1、N-to-N、N-to-1、1-to-N和N-to-M)。文章分析了RNN的优点(时序依赖捕捉、参数共享、变长序列处理)和缺点(梯度消失、并行性差、长序列记忆有限)。最后给出了Python实现RNN的代码框架,包括数据生成、预处理和模型构建部分。通过理论推导和实例计算,帮助读者深入理解RNN的工作原理
2025-12-01 17:28:36
903
原创 Logistic 回归理论及Python实现
本文介绍了逻辑斯谛回归和最大熵模型两种对数线性分类方法。逻辑斯谛回归通过S型曲线将线性函数转换为概率,适用于二分类和多分类问题,其核心是输出Y=1的对数几率由输入x的线性函数表示。最大熵模型则基于最大熵原理,在满足约束条件下选择不确定性最大的概率分布。文章详细阐述了两种模型的理论基础,包括逻辑斯谛分布、参数估计方法以及最大熵模型的定义和学习过程,并提供了逻辑回归的Python实现代码,涵盖数据预处理、模型训练和评估等关键步骤。
2025-11-27 11:31:46
414
原创 Python做相关性检验的底层理论
本文系统介绍了皮尔逊(Pearson)、斯皮尔曼(Spearman)和肯德尔(Kendall)三种相关系数的计算方法与应用。皮尔逊相关系数通过协方差与标准差量化两连续变量间的线性相关程度,包含详细计算步骤、手动案例演示和Python实现代码。斯皮尔曼相关系数基于秩次转换计算两变量单调相关性,同样给出了计算流程、实例分析和Python实现方法。三种相关系数分别适用于不同数据特性,文中通过对比展示了它们的特点和应用场景,为特征筛选和相关性分析提供了实用参考。
2025-11-05 18:47:35
694
1
原创 map apply agg transformer 的用法及区别
本文总结了Python数据处理中map、apply、agg和transformer四种函数的用法。map主要用于Series单列数据的元素级一对一映射;apply支持更复杂的元素级或行列级处理,包括自定义函数;agg用于聚合计算;transformer则用于数据转换。文中通过生成示例数据,展示了如何使用map进行文本替换和简单计算,以及apply处理多条件分类和行级计算。每种方法各有特点,适用于不同场景的数据处理需求。
2025-11-05 11:44:43
765
原创 调用API历史和未来气象数据获取
本文介绍了通过Open-Meteo API获取气象数据的方法,包含历史数据和未来16天预报。使用Python代码只需输入经纬度即可获取11项气象指标数据(如温度、风速、降水量等)。历史数据通过archive-api获取,未来预报通过forecast-api获取,两种数据获取方式都配置了缓存和重试机制以保证稳定性。输出结果包含坐标、时区信息,并转换为Pandas DataFrame格式存储。
2025-10-29 09:59:29
270
原创 CNN基础理论讲解及Python代码复现
本文介绍了CNN(卷积神经网络)的核心思想与应用方法。传统神经网络处理图像时存在参数爆炸和空间信息丢失的问题,而CNN通过局部感受野、权重共享和下采样机制高效提取特征。文章详细解析了CNN的三个关键层:1)卷积层(使用3×3或5×5卷积核局部扫描图像);2)池化层(通过最大/平均池化压缩数据);3)全连接层(整合特征进行分类)。通过Excel图示和动画演示直观展示了运算过程,并提供了PyTorch实现代码。CNN通过分层特征提取,实现了从边缘到复杂对象的渐进式识别,在图像处理中展现出显著优势。
2025-10-23 18:03:17
998
2
原创 以宁夏为例:工作日计算
本文提供了计算两个日期间工作日的Python实现,特别针对宁夏回族自治区的节假日情况。该方案具有可扩展性,其他地区只需在字典中添加本地特殊节假日即可复用。实现思路是排除周末和节假日,同时考虑调休上班的情况,适用于需要精确计算工作日的业务场景。
2025-09-01 17:50:23
305
原创 《统计学习方法》之朴素贝叶斯方法结合python实现
本文介绍了朴素贝叶斯分类方法及其应用。朴素贝叶斯基于贝叶斯定理与特征条件独立假设,通过计算后验概率实现分类。文章详细阐述了基本理论、参数估计方法(极大似然估计和贝叶斯估计),并提供了计算案例帮助理解。根据不同特征类型,朴素贝叶斯可分为高斯、多项式和伯努利等变体。最后通过Python代码实现了高斯朴素贝叶斯对鸢尾花数据集的分类,可视化展示了决策边界和混淆矩阵,准确率达到93.33%。该方法在文本分类、医疗诊断等领域具有广泛应用价值。
2025-08-14 15:03:51
799
原创 python 实现KPCA核主成分分析
本文介绍了核主成分分析(KPCA)的理论原理及Python实现。KPCA通过核技巧将数据映射到高维空间,能够有效捕获数据的非线性结构,克服传统PCA只能处理线性关系的局限性。文章详细对比了KPCA与PCA的核心区别、优劣势,并提供了基于sklearn库的完整实现代码。其中重点讲解了KernelPCA的关键参数配置,包括核函数选择、gamma值调整等,并展示了如何计算和可视化KPCA的方差贡献率。通过鸢尾花数据集的实际案例,演示了KPCA的降维效果,并与传统PCA进行了对比分析。
2025-08-12 17:01:31
943
原创 Python基于networkx实现有向图、无向图、无向多重图
NetworkX是一个强大的Python图论与复杂网络分析库,具有易用、灵活、功能丰富等特点。本文介绍了NetworkX的核心优势,包括多种图类型支持(有向无环图、无向图、无向多重图)、丰富的图算法以及与其他数据科学工具的无缝集成。通过代码示例展示了如何创建和可视化不同类型图结构,强调NetworkX在建模复杂关系网络方面的应用价值。
2025-06-19 09:55:11
878
原创 Python机器学习模型中添加日志记录器
日志记录器是Python logging 模块的核心组件,它是应用程序日志系统的入口点,负责捕获、处理和分发日志消息,本文以Python代码为例介绍日志记录器在机器学习模型开发中扮演的关键角色:追踪程序行为、训练过程等等。
2025-06-11 15:12:27
636
原创 Python实现prophet 理论及参数优化
优秀文章参考过讲透一个强大算法模型,Prophet!!想要还了解理论的,可以参考之前写的文章Python实现Prophet时序预测模型为什么季节性的参数会选择优化傅里叶级数?不同自动检测的趋势变化点数量会影响什么?趋势类型决定了模型的什么部分?节假日影响强度是什么意思?… …
2025-06-10 16:03:30
656
1
原创 自适应移动平均(Adaptive Moving Average, AMA)
自适应移动平均(AMA)是一种动态调整的移动平均方法,能够根据市场波动自动调整平滑系数。考夫曼自适应移动平均(KAMA)是其典型实现,通过效率比率(ER)动态调整权重:趋势明显时反应更快,震荡市场时过滤噪音。本文提供了KAMA的Python实现,包括参数优化功能,使用均方误差(MSE)评估不同参数组合(n,fast_sc,slow_sc)的表现。
2025-06-03 16:49:09
896
原创 使用 Cython 编译将.py文件加密成.so文件
最近在学习在服务器上如何部署Python模型,不学不知道,一学吓一跳,要学好多啊,最近看到什么就记录一下什么吧。
2025-05-30 10:55:43
1109
原创 LightGBM的python实现及参数优化
本文重点介绍了LightGBM的实现及调参方法。作为GBDT家族的高效框架,LightGBM通过直方图算法、单边梯度采样等优化策略,在速度和内存效率上优于XGBoost。文章首先详解了LightGBM的关键参数(如num_leaves、learning_rate等),然后给出Python实现的两种方式:Scikit-learn接口和原生API示例。在调优部分,重点讲解了使用GridSearchCV进行超参优化的方法,并提供了乳腺癌数据集的调参代码实现。通过实际案例展示了如何通过参数优化提升模型性能,为Lig
2025-05-27 18:00:51
1067
原创 常见激活函数——作用、意义、特点及实现
激活函数是神经网络中的关键组件,它通过引入非线性因素,增强了模型的表达能力,使其能够处理复杂的任务。激活函数的主要作用包括:突破线性模型的限制、控制输出值范围、影响梯度传播以及增加网络稀疏性。常见的激活函数有Sigmoid、Tanh、ReLU、Softmax和Swish等,每种函数都有其独特的特性和适用场景。选择合适的激活函数对模型性能至关重要,能够显著影响训练效果和计算效率。通过Python实现这些激活函数,可以直观地观察其输出特性,帮助更好地理解其在实际应用中的作用。
2025-05-16 15:16:44
1566
原创 强的可怕的时间序列模型之NBEATS
文章摘要:本文介绍了时序数据分析中常用的模型,特别是N-BEATS(神经网络扩张分析模型)。N-BEATS是一种结合神经网络和统计模型的深度学习方法,具有较高的预测精度和可解释性。文章详细探讨了N-BEATS的理论框架,并通过Python代码展示了如何使用Darts库实现N-BEATS模型。代码部分包括数据准备、模型初始化、训练、预测及结果评估等步骤。N-BEATS适用于多变量时间序列、层次时间序列和概率预测等场景,展示了其在时序数据分析中的广泛应用前景。
2025-05-15 11:41:19
1386
原创 特征选择之互信息MI
在特征选择中,相关系数常用于衡量变量间的线性关系,但对非线性关系效果有限。互信息(MI)能够捕捉离散、连续变量之间的非线性关联,能够量化变量间的信息共享,适用于特征选择、聚类评估等场景。本文首先回顾了相关系数的应用场景(如皮尔逊、斯皮尔曼、肯德尔),随后深入探讨了互信息的本质及其计算公式。最后通过Python代码展示了如何使用sklearn和scipy实现互信息计算,并可视化结果,帮助读者更好地理解互信息MI理论及其应用。
2025-05-12 11:24:56
1735
原创 Boosting算法【AdaBoost、GBDT 、XGBoost 、LightGBM】理论介绍及python代码实现
Boosting 算法理论及python代码实现
2025-04-29 18:00:23
852
原创 决策树CART算法理论基础及python实现
最近看完了李航老师的《统计学习方法》中第五章的决策树,结合书中理论和python代码实践,总结及积累一下知识。
2025-04-03 15:32:17
914
原创 python 数据清洗常用函数(一)
在进行数据分析时,首先需要对数据进行清洗、转换,涉及到对值的排序、替换、删除;数据表的合并等处理,以下整理我常用的12个函数,记录一下
2025-03-28 16:07:50
785
原创 python办公自动化:openpyxl 处理Excel
在批量处理数据时,能用Excel实现的一些表样式在python ,openpyxl处理Excel时最近也用到了,记录一下
2025-03-07 17:14:44
333
原创 python实现将数据存入、读取多个sheet
在Python中,使用pandas和openpyxl处理数据,涉及到写入多个sheet。在每个sheet且不会覆盖原有的sheet数据;读取一个Excel里多个sheet里的数据。总结一下踩过的坑。
2025-03-05 10:52:55
437
原创 《统计学习方法》之主成分分析PCA结合python实现
最近在学习李航老师的《统计学习方法》第16章-主成分分析(PCA),结合运用python代码实现,记录一下。
2025-01-03 16:01:28
785
原创 python实现SVM决策边界可视化、不同核方法及超参调优、模型性能评估和SHAP可解释性案例。
关于支持向量机,最近有看李航老师的《统计学习方法》,总结一下关于支持向量机相关算法知识以及代码。
2024-12-30 12:47:22
1201
原创 机器学习模型的可解释性探索
怎么选择以及训练出一个另人满意的机器学习模型是一直被研究探索的问题,然后当越来越多的模型可以经训练最后做出较为精准的预测,我们的用户是否愿意相信这样的结果?或我们有什么方法可以去说服我们的用户对模型的结果产生信任。因此,就一个高精度的模型,建立信任和确保它按照预期行事至关重要。为了实现搭建用户信任与高精度模型之间内在联系这一目标,通过学习和参考其他优秀文章,本文也介绍并总结几种模型解释算法。
2024-11-21 18:18:36
910
原创 Python模型优化超参寻优过程
以Python自带数据集鸢尾花为例,记录一下在对模型进行超参训练时,如何清晰的记录每组超参数训练模型及其对应得分。
2024-08-06 15:34:22
817
原创 Python爬取生意社-氧化钙生石灰数据
目前爬的都是一些不需要代理或解密就可以爬到的,个人感觉难点就是提取解析文本信息,本次新使用到的是find_next_sibling,其他具体问题还得查找对应的解决方案。关于bs4如何提取文本信息可以参考这个解析库bs4及爬取实例,个人感觉比较好。总之,遇到问题不可怕,可怕的是不会主动去解决问题。
2024-06-07 09:48:56
522
原创 数值型变量的简单相关性分析python应用
相关性,是指两个变量的关联程度。一般地,从散点图上可以观察到两个变量有以下三种关系之一:两变量正相关、负相关、不相关。如果一个变量高的值对应于另一个变量高的值,相似地,低的值对应低的值,那么这两个变量正相关。在土壤中,孔隙率和渗透度就具有典型的正相关。反之,如果一个变量高的值对应于另一个变量低的值,那么这两个变量负相关。如果两个变量间没有关系,即一个变量的变化对另一变量没有明显影响,那么这两个变量不相关。https://baike.baidu.com/item/相关性/10097225?fr=ge_ala。
2024-03-13 19:56:04
1926
原创 python折线图实际应用
第一篇博客,以我的真实数据总结一下2020年!前言今年是很值得记录的一年,上半年在家大半年,由于自律运动锻炼体重下降到了史上最低值,自返校后,我就尽量每天晚上记录体重,年末,我就用体重值和自己的学的数据分析技能简单的做了份总结。一、数据解释真正开始有意识的坚持记录体重是从2020-9-22日开始,我记录的每天晚上上床前的体重,(个人觉得晚上因为体重最重,也最能让人有忧患保持的觉悟,哈哈哈),截止到2020-12-28日,应该共97个数据,实际记录85个,12.26-12.28的3个数据是自己先行预测
2020-12-26 20:30:13
241
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅