自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 别再只懂二分类!逻辑回归+Softmax多分类实战,保姆级教程奉上

如下图,大部分样本,模型对真实类别的预测概率很高,置信度强。虽然Softmax回归的准确率略逊一筹,但是Softmax模型简单、可解释性强,可以作为一个基准模型与其他模型进行对比。接下来我们用鸢尾花数据集做实战,该数据集包含3种鸢尾花(Setosa、Versicolor、Virginica),共150个样本,每个样本有4 个特征(花瓣长度、花瓣宽度、花萼长度、花萼宽度)。Softmax中versicolor类的所有特征权重都接近0,说明它的特征很模糊,难通过单一特征与其他类别明确区分。

2025-09-26 20:08:21 1633 1

原创 基于杰卡德系数搭建推荐系统【小白必备】

这里需要强调的是真实场景下杰卡德系数不会很高,如果调太高,如0.8,会没有高相似用户。其实这背后藏着各种推荐算法,今天就给大家分享一个简单又实用的模型,基于杰卡德系数的电商推荐系统,拆解模型怎么找相似买家、推精准商品。如下图,我们展示了部分推荐的方案,比如U9和U26用户的杰卡德系数为0.8,所以我们有理由给U26用户推荐U9购买过的啤酒。A∩B:两个集合的交集,比如用户A买过的商品和用户B买过的商品的重叠部分。越接近0,越不相似。杰卡德系数的核心是交集并集,计算逻辑不复杂,上手容易,适合小白。

2025-09-25 23:01:54 837

原创 拉伊达+四分位数法,搞定数据异常值不踩坑

拉伊达方法,又称3σ原则,基于 正态分布的特性,即正常数据会集中在平均值附近,约99.7%的数据会落在均值 ±3倍标准差(σ)的范围内。Q1(第25百分位)为2次,Q3(第75百分位)为4次, IQR(四分位间距)2次,正常数据范围为[0次, 7次]。识别出4个异常值,购买频次分别为10,12,14,16次。经计算,均值(μ)为779元,标准差(σ)为194元,正常数据范围为[197元, 1361元],没有异常值。如下图,我们可以看出两个图都有异常值,且异常值点分布在均值的右侧,需要进行异常值处理。

2025-09-24 13:18:48 976

原创 小样本特殊零件质检难题?BNN+MCMC来破局!

这意味着在仅29个测试样本、7个缺陷样本的极端小样本场景下,模型仍能有效区分合格零件与缺陷零件的特征差异,模型具有一定的应用价值。在此情景下,特殊零件的缺陷模式固定,所以我们没有盲目把缺陷样本平衡到50%,而是控制在33.1%,平衡到训练集130样本,缺陷43个,让模型更好的学习小样本特殊零件的特征。在此场景下,特殊零件漏检成本是误检的10倍,所以我们将Loss函数对正常样本误判为缺陷的惩罚从1.5 降到1.2,进而让对缺陷样本误判为正常的惩罚隐性提高。可见,高不确定性样本几乎都是误检或漏检的样本。

2025-09-23 13:07:47 614

原创 均值和众数填缺失值太局限,快来看看这三种模型如何处理缺失值!

简单总结,如果数据线性关系明显,用线性回归;如果需要按用户群分析,用 k-means;如果是核心业务分析,直接用GBTD,精度更加高!在本例中,数据比较简单,所以综合来看k-means聚类的MSE和RMSE都较低,用k-means聚类来填充缺失值效果较好。为什么k-means聚类效果最好呢?这跟数据有关,如下图,我们呈现了数据的偏态和特征的相关性热力图。可以看出数据呈现明显的偏态,且特征间的相关性不高。如果用均值填充,就会抹平数据差异。如果用线性回归拟合,效果会很差。

2025-09-22 20:37:09 1342

原创 从线性到非线性,用混合模型破解数据的隐藏规律

1.线性混合模型:适合场景:整体趋势呈线性,存在分组 / 重复测量数据特点:建模简单,解释清晰,计算效率高2.非线性混合模型:适合场景:变量间存在明确非线性关系特点:需要预设非线性函数形式,对初始参数敏感。

2025-09-21 13:36:19 666

原创 突破K-means局限?基于生成树自动分组cox比例风险模型

比起传统的 RFM 模型,这套组合的优势很明显:Cox比例风险模型+生存树聚类模型不只是贴标签,还能算流失概率,3个群的风险差异清晰,可以个性化运营方案,Bootstrap检验确保结果可靠,避免做无用功。t=P7R7。

2025-09-20 20:41:29 1023

原创 k-means聚类遇上帕累托前沿,多目标分析的效率密码找到了

1. 模型对手机价格衰减率、手机性能衰减阶段、发售时间惩罚力度均不敏感。2.在所有检验场景下,核心消费者群体的最优购买时间差异基本上≤1个月,模型输出稳定可靠。请点击上方链接,关注【小小科研】公众号,后台私信客服,可获取完整版代码哦!t=P7R7。

2025-09-18 20:20:14 921

原创 突破线性局限,广义加性模型提高预测拟合精度

最后,总结一下GAM回归的3个核心优势:1.非线性拟合能力强,无需预设变量关系,轻松处理传统回归搞不定的曲线数据。2.可解释性高,能单独展示每个变量的影响趋势。3.精度超过传统模型,从R方、MSE等指标看优于线性 和多项式回归。如果你在做销量预测、用户行为分析等场景时,传统模型效果不好,不妨试试GAM回归。t=P7R7。

2025-09-16 13:14:27 1350

原创 为什么说决策树是随机森林的核心基石

而支撑随机森林实现高效决策的核心单元,正是决策树,它通过每一棵独立的决策树通过并行训练与结果融合,共同构成随机森林的强大能力。挑重点来说,就是max_depth控制最大深度,min_samples_split控制节点分裂的最小样本量,min_samples_leaf控制叶节点的最小样本量,criterion在分类问题中用gini。决策流程的终止节点,代表最终的分类结果。如下图,每个节点包含三个核心信息:特征判断条件、节点包含的样本数量、样本类别分布,叶节点的颜色差异对应不同的分类结果。

2025-09-15 19:13:40 2075

原创 用Python做方差分析,让数据说话

其实这套流程能套用到所有 “多组比较” 场景:比如比较 3 种施肥方式的效果、4 种教学方法的成绩、5 种产品的销量……核心步骤就 5 个:1.导入库 + 准备数据2.描述性统计,初步了解数据3.检验前提条件(正态性 + 方差齐性)4.拟合方差分析模型,看是否有显著差异5.事后检验,定位具体差异组不用再凭感觉纠结 “哪种方法更好”,用Python跑一遍代码,数据会给你最客观的答案!t=P7R7。

2025-09-14 16:45:18 941

原创 相关性分析全攻略,教你读懂数据的悄悄话

3.“气温” 和 “降雨量” 的系数为负数(-0.5089),说明 “气温高不高” 和 “下不下雨” 呈现负相关,可能是当地气候影响(如地中海气候,气温高时少雨,气温低时多雨)。变量间得是 “线性的”,比如画散点图时,点的分布能大致凑成一条直线,要是是曲线关系(比如 “学习时长超过 10 小时后,分数反而下降”),皮尔逊系数就反映不出真实情况了。1.相关系数:我们算出来是0.9963,接近 1,说明 “气温” 和 “奶茶销量” 是强正相关,气温越高,销量大概率越高,符合预期。气温高的时候,销量也高。

2025-09-13 19:27:49 1074

原创 别让高维数据 “困住” 你!主成分分析与因子分析实操指南

主成分1的学生可能在主科(语文数学英语)中表现较差,在物理、历史科目上表现较优,主成分2的学生可能在主科上表现较优,在物理和历史科目上略逊一筹。更像 “潜在规律探测器”,其数学模型为:x=Λf+ϵ其中,x是可观测的p维变量向量,Λ为因子载荷矩阵,f是m维不可观测的潜在因子向量(m<p),ϵ是特殊因子向量,代表无法被潜在因子解释的部分。如下图,A_包装与 B_设计在图中聚集(对应 “外观评价因子”),C_价格与 D_性价比聚集(对应 “价值评价因子”),E_售后单独分布,清晰体现潜在因子的分组逻辑。

2025-09-11 12:24:20 1110

原创 “原来如此”,判别分析多方法原理与实战

就像看一堆混杂的企业数据,从某个角度看两类数据糊成一团,但Fisher判别能帮我们转个“视角”,让投影后的低风险点全挤在左边,高风险点全堆在右边,界限明明白白。比如先知道低风险企业占比70%,再算得某企业特征“像低风险”的概率是80%,“像高风险”的概率是20%,最终算得它是低风险的后验概率远高于高风险,就判为低风险。就像给低风险企业和高风险企业各画一个“特征中心”(比如低风险企业的资产负债率均值、流动比率均值等),新样本的数据点离低风险中心近,就暂判为低风险。如下图,以净利润增长率为例。

2025-09-10 13:17:58 1262

原创 数据异常值怎么找?手把手教你用局部离群因子模型找

局部离群因子(LOF)模型是一种基于密度的异常检测算法,该算法无需预先假设数据服从特定分布,通过自适应分析数据空间中各区域的密度差异,精准识别偏离正常数据分布的异常值。我们先从可达距离开始理解,数据点 A到B的可达距离,是B的k近邻距离,即B 到它第k个邻居的距离和A到B实际距离中的较大值。LOF>1:数据点的密度低于邻居,LOF 值越大,异常程度越严重(比如 LOF=3,说明数据点的密度只有邻居的 1/3,极可能是异常值)。比如在人群中,独自站在角落的人,周围的密度就比扎堆的人低,很容易被识别为异常。

2025-09-08 12:57:23 1874

原创 无监督异常检测算法!孤立森林模型

而传统的异常值识别方法,要么依赖人工经验判断,面对百万的消费数据时,效率低下,要么像Z-score、IQR等方法,对数据分布有严格要求,面对复杂数据时力不从心。随机森林的弱分叉树,能通过简单的分割实现快速识别异常值:它不像传统决策树那样追求最优分割点以提升分类精度,而是随机选择特征和分割点,用更简单的结构快速完成数据划分,这种弱的特性,让它在识别异常值时更高效。下面是模型识别出来的部分异常值,可以看出有些异常值是因为消费频数为负数被识别为异常值,有些是因为过低的消费金额,过高的消费频数被识别为异常值。

2025-09-05 19:28:12 1784

原创 深度学习避坑指南:一文搞懂梯度消失与梯度爆炸

梯度消失与梯度爆炸的本质是梯度在反向传播中的极端累积,解决问题的核心思路是减少梯度的衰减/膨胀,增强梯度的传递能力。深度学习避坑指南:一文搞懂梯度消失与梯度爆炸在神经网络训练中,模型通过反向传播计算来更新参数。当梯度出现异常时,参数更新就会失控,进而导致模型训练失败。二者的本质是梯度在反向传播过程中的极端变化,但表现却截然相反。t=P7R7深度学习避坑指南:一文搞懂梯度消失与梯度爆炸在神经网络训练中,模型通过反向传播计算来更新参数。当梯度出现异常时,参数更新就会失控,进而导致模型训练失败。

2025-09-04 18:16:18 2171

原创 搞懂GARCH模型,轻松捕捉时序数据的波动!

这表明在ARCH(10)模型中,第1期的残差平方对当前条件方差有显著的影响,即前期的波动冲击会对当前波动率产生作用,体现出波动率的聚类特征。这表明GARCH(1,1)模型具有很强的波动率持续性,即一旦市场出现波动,这种波动会在相当长的时间内持续存在,市场波动率的记忆性很强。显著的alpha[1] 表明前期的波动冲击会对当前的波动率产生显著影响,进一步体现了波动率的聚类性。ADF检验的p值为0.0,小于95%的显著性水平,说明金融资产的对数收益率序列是平稳的,满足GARCH模型对数据平稳性的基本要求。

2025-09-03 22:37:04 1169

原创 揭秘 ARCH 模型:针对金融市场的波动聚类的时序模型

具体而言,模型将当期条件方差设定为滞后误差项平方的线性组合,即通过前 p 期误差项的平方加权求和来描述当前的波动水平(ARCH (p) 模型形式为:σₜ² = α₀ + α₁εₜ₋₁² + ... + αₚεₜ₋ₚ²,其中 σₜ² 为 t 时刻的条件方差,ε 为误差项,α 为待估参数)。如下图,可以清晰看到低波动段(前 300 天,曲线平缓),中波动段(301-600 天,震荡加剧),高波动段(601 天后,剧烈震荡),满足ARCH模型需要数据具有波动聚类特征的条件。通常来说,越小越好。

2025-09-02 15:15:53 1462

原创 非平稳时间序列的随机分析实操指南

非平稳序列的确定性因素分解方法只能提取强劲的确定性信息,,把所有序列的变化都归结为四因素的综合影响,却始终这些问题导致确定性因素分解方法不能充分提取观察值序列中的有效信息,导致模型拟合精度通常不够理想,差分运算的核心作用是通过消除数据的趋势性和周期性,将非平稳序列转化为平稳序列。差分运算的本质是计算相邻时间点数据的差值,公式如下图。通过差分,可消除数据的线性趋势(一阶差分)、二次趋势(二阶差分),让序列的均值和方差趋于稳定。

2025-08-31 22:12:58 896

原创 非平稳时间序列分析的确定性分析实操指南

在自然界中绝大部分序列都是非平稳的时间序列,所以对非平稳序列的分析就显得特别重要。对于非平稳时间序列的分析方法可以分为确定性时序分析和随机时序分析。本文主要介绍确定性时序分析方法。随机时序分析敬请期待!

2025-08-30 10:42:08 1196

原创 进阶讲解!时间序列AR、MA、ARMA模型实操指南

顾名思义,ARMA(p,q)模型(自回归移动平均模型)是AR(p)模型和MA(q)模型的结合,同时考虑历史数据的惯性影响,也考虑近期随机扰动的影响,更加灵活,适用于平稳时间序列的分析和预测。那ARMA (1,1) 更优。如下图,我们可以清晰的看到ARMA(p,q)模型的偏自相关系数是呈现缓慢衰减的态势,从0阶到20阶,自相关系数逐渐降低,但始终有一定数值,即拖尾。如下图,我们可以清晰的看到ARMA(p,q)模型的自相关系数是呈现缓慢衰减的态势,从0阶到20阶,自相关系数逐渐降低,但始终有一定数值,即拖尾。

2025-08-29 21:24:47 1535

原创 时间序列基础实操:定义、统计量与预处理全流程

时间序列预处理,实操才是王道!从定义理解(数据随时间的轨迹)→ 统计量体检(均值、自相关等)→ 预处理 (补缺失、验平稳、筛噪声),当然画时序图和自相关图来看看也是不错的选择。下次遇到时间序列数据,直接照着流程走:先画图看趋势→算统计量摸底→处理缺失和平稳性→检验白噪声… 分析思路瞬间清晰!

2025-08-28 20:52:05 1234

原创 【基础篇】数据分析与建模新手小白自学全流程完整指南!!

设计“教师教学能力问卷”,通过专家评审确保题项覆盖“备课能力”“课堂管理”等内容(内容效度),通过因子分析验证题项是否分成“专业能力”和“沟通能力”两个维度(结构效度),并与“学生成绩提升率”(效标)关联,验证问卷有效性。对“客户满意度”的10个题项(如“产品质量”“物流速度”“客服态度”等)进行因子分析,提取出2个潜在因子:“产品体验因子”(与质量、价格相关)和“服务体验因子”(与物流、客服相关),解释客户满意度的核心驱动因素。基于患者的症状数据(已知“患病类型”),建立模型判断新患者的患病类型。

2025-08-27 20:23:42 1597

原创 别再纠结!RBF、GRNN和PNN神经网络其实很好用

如果你也在神经网络的应用中踩过这些坑,那这篇文章可算来对了。RBF、GRNN和PNN这三种神经网络,常被大家放在一起比较,却又总让人摸不清它们的用法。今天咱们就从模型特点到参数设置,再到实际应用,把这三者扒得明明白白,帮你避开选择困难症,高效用对模型!

2025-08-26 13:32:25 1034

原创 DBSCAN 聚类:基于密度的簇识别利器

它最为突出的特点是基于密度进行聚类,这使得它能够摆脱传统聚类算法对簇形状的限制,精准识别出任意形状的簇,无论是常见的圆形簇,还是不规则的条形、环形簇等,都能较好地进行划分,在数据挖掘等领域有着广泛的应用。首先从数据集中随机选取一个未被标记的点,若该点是核心对象,就以它为起点,将所有从它密度可达的点构成一个簇;,pₙ,其中 p₁=p,pₙ=q,且对于每个 i(1≤i <n),pᵢ₊₁从 pᵢ直接密度可达,则称 q 从 p 密度可达。模型能精准识别出任意形状的簇,无论是常见的圆形簇,还是不规则的条形、环形簇。

2025-08-25 19:57:05 669

原创 从无序到有序:层次聚类如何实现 “物以类聚” 的数据魔法

如下图,横轴是数据点,纵轴是“合并距离”:距离越近,说明两个簇越相似。这个过程会形成一个像“家谱”一样的树状图(dendrogram):树的叶子是单个数据点,越往上,分支合并得越多,直到顶端的“根”——代表所有数据的总簇。拿凝聚式聚类来说,过程很简单:一开始,每个数据都是一个小簇,然后计算每个数据之间的“相似度”(比如距离越近越相似),把最像的数据放在一起,变成一小类;层次聚类的核心思路特别好理解,它要么从单个数据点开始,一步步把相似的“小群体”合并成“大群体”(凝聚式聚类,最常用);

2025-08-24 20:05:27 465

原创 搞定混合数据聚类!k-prototype 聚类模型详解

你是否还在为混合数据的聚类问题头疼?一边是数值型数据(如年龄、收入),一边是分类型数据(如职业、学历),用K-Means聚类分类型数据总出错,用K-Mode聚类数值型数据又不准?别愁!今天要给大家介绍的k-prototype聚类模型,就是解决混合数据聚“类的“一把好手”,既能处理数值型数据,又能搞定分类型数据,让聚类不再受数据类型的限制!

2025-08-23 14:33:26 710

原创 一个很经典的模型——k-means聚类

k-means是一种。

2025-08-22 21:56:27 1587

原创 一个很好用的聚类模型——竞争神经网络

K-means、K-modes、K-prototype等聚类方法因为其简单好用而广为认知。而今天我们要介绍的是同样好用的聚类领域的高手——竞争神经网络和 SOM 神经网络。

2025-08-21 17:55:30 1210

原创 LDA模型如何挖掘海量文本中背后的隐藏主题?

弹幕是一种新兴的实时互动媒介,如今是反映观众观影行为、情感态度和文化参与的重要载体,小小科研团队选取网络平台的 52780 条弹幕作为分析素材,借助 LDA主题模型,究竟能帮我们揭开哪些用户在观看时讨论的核心话题?又能从中发现大家真正的兴趣焦点都集中在哪里呢?

2025-08-20 16:38:06 1200

原创 一个训练的很快的模型——极限学习机

说明回归任务中,少量隐藏单元(如 2及以上)就能让模型具备基本拟合能力,后续增加单元数量,对误差降低帮助小,模型对隐藏单元数量变化没分类任务中那么敏感,可能因为回归任务相对简单,或数据本身特征使模型易收敛。不同隐藏神经元响应模式有别,有的隐藏层对特征变化敏感(如隐藏单元 2、5、9等,激活值随输入特征呈现较明显规律变化,强正相关关系 ),有的相对分散,无明显关系。默认设0.01,若过拟合(训练精度90%,测试精度60%)就增大到0.1、1,若欠拟合就减小到0.001,平衡“拟合数据”和“抗干扰”的能力。

2025-08-19 15:26:38 1038

原创 抽样效率之王?PPS抽样凭什么让数据推断更贴实际

先是对于数据进行三阶段的分层,从“城市”到“居民”的精准筛选,再进行抽样框的设计,进一步了解广东居民在生活习惯上的整体面貌和共同特征。这种方法能让样本自然贴合总体的规模分布,避免小单元过度抽样或大单元代表性不足的问题,尤其适合总体中单元规模差异大的场景,在保证代表性的同时提高抽样效率。抽样设计的核心目标是在兼顾成本、效率与可行性的前提下,确保所抽取的样本能够精准反映总体的特征与规律,最大限度降低抽样误差,为后续分析和决策提供可靠的数据支撑。其中 N 为总体数量,p为样本比例,d为绝对允许误差。

2025-08-18 21:38:19 1468

原创 怎么快速识别杂乱无章的评论文本情感动向?

明确哪些词代表“正面”,如“好吃”“便宜”。明确哪些词为“负面”,如“太慢”“坑”。

2025-08-17 23:03:14 1086

原创 从入门到精通:LightGBM,为什么它是机器学习界的预测大师?

LightGBM的强大,在于它把高效和高精度做到了兼得——既解决了传统GBDT的速度痛点,又保留了梯度提升树的精度优势。但真正用好它,需要理解每个参数背后的逻辑:比如num_leaves和树深度的关系,直方图优化对特征分布的影响……记住:没有万能的参数,只有适合数据的参数。下次面对百万级样本、高维特征的建模任务时,不妨先用LightGBM搭个baseline(基准模型),你会惊讶于它的快准稳!!!

2025-08-16 20:46:49 720

原创 还在对着一堆用户评论发呆?学会文本分词,再乱也能抓重点!

目录一、引言二、文本分词是什么三、实战案例01、准备工具02、文本分词03、词频词性四、分词结果01、高频词告诉你大家在聊什么02、词性标注帮你理清句子结构五、代码展示六、总结 当你爬取到大量用户评论时,想快速知道大家在关注什么?却不知道如何提炼重点?其实,只要掌握「文本分词」这招都能轻松解决。今天就用一个简单的案例,带大家看看文本分词是怎么把杂乱的文本 “变废为宝” 的 —— 从评论里,挖出核心话题、高频词、给每个词分词性!文本分词就是把一段连续的文本,拆分成一个个带有意义的词语。比如:“我爱

2025-08-15 17:10:30 1436

原创 不只识图像,还会读人心!CNN 情感分析原来这么玩

用户作为小小科研重点维护的群体,认作复杂输入,需要提供优质内容。用户经过优质内容特征提取后体感良好,加一个资料分享即可让用户点击关注。当然其他渠道可以添加为注意力机制跳过激活函数。(1)输入层:公众号消息推送→相关用户(高敏感度信号输入)(2)特征提取层:卷积核:优质内容(强滤波作用),输出:更新频率(有效挽留用户)(3)全连接层:资料分享区(普通用户→忠实用户特征传递通道)(4)输出层:激活函数:用户点击‘关注’按钮的决策阈值(ReLU式)预测头:用户行为结果分布(是否关注概率分布)

2025-08-14 14:29:38 971

原创 从DID开始:一文读懂智慧城市减碳的实证逻辑

比如,经济发达的城市可能既更易建设智慧城市,也更注重环保,若直接对比 “建与不建” 的差异,很可能得出错误结论。简单说,同样的 GDP 增长,现在能少排近 1/3 的碳。由于某些与智慧城市建设相关的随机因素会对基准回归结果造成干扰,为消除随机干扰,本研究随机构造伪实验组的虚拟变量和伪政策冲击的时间虚拟变量,设置伪智慧城市建设对2个城市进行1000次的随机冲击。排除不随城市变化的时间趋势,如全国性环保政策(如 “双碳” 目标)、技术进步(光伏成本下降)等,避免将这些 “共性影响” 误归为智慧城市的作用。

2025-08-13 18:18:53 1122

原创 解锁时序密码-LSTM让未来趋势“看得见”

比如2018年12月5日15:15,预测功率为30.167KW,而实际功率只有9.0752KW,实际功率比预测功率低了21.0917个KW,我们猜想可能是因为极端天气的影响导致那天的实际光伏发电效率低。作为循环神经网络(RNN)的升级版,它自带 "记忆功能":既能记住 hours(小时) 级别的短期变化,又能捕捉 days(每日) 级别的长期趋势。对于光伏这种受时间和环境双重影响的场景,LSTM 就像一位经验丰富的运维员,能从历史数据中 "学习" 规律,精准预判正常功率范围,一旦出现偏离就立刻 "报警"。

2025-08-12 22:10:16 1379

原创 灰色关联法:数据迷雾中的 “关联侦探”,帮你看清变量间的隐秘联系​

Step3:代入公式:关联系数 = (Δmin + ρ×Δmax)÷(绝对差值 + ρ×Δmax),其中 ρ 为分辨系数(通常取 0.5)。结果:关联度显示 “施肥量”(0.92)>“灌溉次数”(0.85)>“光照时长”(0.78),农场据此调整施肥方案,产量提升 12%。案例:某奶茶店分析 “月销售额”(参考序列)与 “原料成本”“门店客流”“外卖平台佣金”(比较序列)的关联。背景:某市研究 “早高峰拥堵指数” 与 “私家车数量”“公交班次”“道路施工长度” 的关联。

2025-08-11 21:56:40 946

随机森林完整代码,在博客的基础上完善过后

随机森林完整代码,在博客的基础上完善过后

2025-08-12

BP神经网络,配套优快云博客的文章

BP神经网络,配套优快云博客的文章

2025-08-12

高斯混合聚类模型,非常新兴的聚类模型,可视化

高斯混合聚类模型,完整代码,只需要微微修改

2025-08-12

彻底清理电脑软件工具,完整清除注册表

这个软件下载下来后可以彻底的删除电脑安装的软件

2025-08-12

规划优化类实战代码,博客第一篇

这个资料包包含了代码和配套的讲义内容

2025-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除