- 博客(29)
- 收藏
- 关注
原创 取消项目的版本控制
目录,说明这是一个独立的 Git 仓库(或者是父仓库中的一个“子仓库”)。文件夹后,文件夹便会变成一个普通文件夹,不再包含 Git 版本控制信息。
2025-01-13 10:11:25
229
原创 git拉取、更新、上传代码
桌面右击打开Git Bash,输入git --version 查看版本信息,输出版本信息即为安装成功。暂存区提交至本地仓库git commit。本地仓库提交至远程仓库git push。代码提交至暂存区git add。
2024-11-13 17:52:27
456
原创 Local feature importance
当某个预测结果异常(如预测值过高或过低)时,了解特征的具体贡献可以帮助识别异常原因,便于进行数据清洗或进一步分析。当你需要向利益相关者(如客户、监管机构等)解释模型决策时,了解特征对预测的具体影响可以增强透明度和信任。在模型开发阶段,分析单条数据的特征贡献可以帮助发现潜在的模型偏差或错误,从而进行调整和优化。
2024-10-25 16:57:25
240
原创 pd.concat和pd.merge的区别
通常用于合并结构相同的多个DataFrame。例如,将多个DataFrame纵向(按行)或横向(按列)拼接到一起。
2024-10-10 10:23:56
214
原创 如何查看dataframe中是否存在缺失值?
统计整个df是否有缺失值。# 查看每列是否存在缺失值。# 查看每列元素的数据类型。# 查看每列缺失值的数量。# 查看每列缺失值的比例。
2024-09-26 10:37:19
328
原创 向前传播和向后传播
向前传播的本质在于:将输入数据经过一系列的线性和非线性变换,逐层处理并生成输出。这个过程决定了网络的预测结果,是神经网络的核心工作机制。在训练过程中,向前传播为反向传播提供计算基础;在推理过程中,它负责输出最终预测值。向后传播的本质在于通过链式法则计算神经网络中每个参数对损失函数的影响(梯度),从而通过梯度下降等优化方法更新参数,减少误差,提升模型性能。这个过程是神经网络学习的关键,使得网络能够自我调整并逐渐逼近最优解。
2024-09-26 10:15:41
531
原创 如何判断特征之间是否存在线性关系?
拟合线性回归后,分析残差(预测值与实际值之间的差异)。一般情况下,t 值的绝对值大于 2 可能表示该特征与目标变量之间存在一定的线性关系(但具体标准可以根据样本大小调整)。相关系数的取值范围为[-1, 1],接近 1 或 -1 表示强线性关系,接近 0 表示线性关系弱。如果 p 值小于 0.05,说明在 95% 的置信水平下,该特征与目标变量之间存在显著线性关系。观察点的分布情况:如果点大致沿直线分布,说明存在线性关系。X = df[['feature1']] # 自变量。2、计算特征之间的相关系数。
2024-09-25 18:29:06
440
原创 如何选择合适的回归模型?
3、通过上述两点大概推测合适的模型,使用默认参数拟合数据,逐一校验上述模型。对于其中表现优秀的模型进行交叉验证,以防止过拟合。最后通过grid search确定表现优秀的模型的参数。变量之间是非线性关系,模型考虑选择:多项式回归、支持向量回归 、树模型(如 XGBoost、随机森林)。如果模型的可解释性很重要(例如在医疗或金融领域),简单模型(如线性回归)或树模型(如决策树)可能更合适。复杂模型(如神经网络)虽然性能可能更好,但通常较难解释。变量之间是线性关系,模型考虑选择:线性回归、岭回归;
2024-09-25 18:16:09
378
原创 为什么线性回归模型不适合把字符型特征数值化为有序数据?
问题场景:数据中有一个特征为shape,shape的取值为rectangle和polygon。常用的数值化思路为将polygon数值化为0,rectangle数值化为1。这一数值化过程是不合理的,原因如下。在线性模型中,特征的权重决定了这个特征对预测目标的贡献大小。当 w1>0 时,shape值为 1 会使预测的结果增加w1,而为 0 则不会带来额外的贡献.因此,当 w1>0时,模型会认为。线性回归模型对数值大小是敏感的,因为它假设特征值和目标值之间存在线性关系,即特征的数值大小会直接影响预测结果。
2024-09-25 17:44:59
244
原创 安装torch后仍然报错“缺少fbgemm.dll”的解决方法
Error loading "D:\miniforge3\envs\test\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.
2024-08-08 17:41:41
1013
原创 连接数据库
连接远程数据库 mysql -h 172.16.11.106 -u root -p。连接本地数据库 mysql -u root -p。
2024-08-02 14:06:03
219
原创 解决“Connection to ‘172.16.11.213‘ cannot be established.”以及“Public Key Retrieval is not allowed“
连接远程数据库会报错“Connection to '172.16.11.213' cannot be established.”连接本地数据库会报错“Public Key Retrieval is not allowed”allowPublicKeyRetrieval设置为True;
2024-08-02 10:02:15
304
原创 解决DBeaver报错“SHOW/CREATE不是内部或外部命令,也不是可运行的程序或批处理文件。”
开启服务net start mysql后,需要输入用户名以及密码,再进行show/create等操作。
2024-08-02 09:54:53
210
原创 解决“Public Key Retrieval is not allowed”
将“allowPublicKeyRetrieval”设置为true。
2024-08-02 09:45:08
269
原创 数据分析的各种可视化图表及其使用场景
一、对比型数据:仅对比,无统计学特征。1)并列柱状图--两个维度都需要对比。2)堆叠柱状图--两个维度都需要对比。(1)直方图:频数直方图、频率直方图。(0)、用于数据分析的统计学指标。(5)核密度估计曲线:概率密度图。1、柱状图(+条形图)(4)山脊图/脊线图。
2024-07-21 21:41:57
315
原创 特征提取方法原理详解PCA/LDA
PCA主要用于无监督的降维,通过最大化方差来找到数据的主要成分,适合数据探索和可视化。LDA用于有监督的降维,通过最大化类间差异和最小化类内差异来找到最佳分类方向,适合分类任务。==> 我的总结PCA 适用于数据集没有类别标签时。原因:PCA的主要目的是通过正交变换将原始特征空间中的线性相关特征转换为线性无关特征,从而提取出数据中的主要成分,这些成分能够最大程度地保留原始数据中的方差。在这个过程中,PCA并没有利用数据的类别标签信息。
2024-07-15 22:36:19
484
原创 使用GPU训练模型需要哪些准备?
cudnn是深度学习的加速工具包,基于CUDA的深度学习GPU加速库,安装了cuDNN才能在GPU上完成深度学习的计算。解压cuDNN的压缩包,分别将cuDNN三个文件夹的内容分别复制到cuda对应的文件夹里面。pytorch官网,若没有对应的cuda版本,则选择最接近的额一个版本,生成安装命令。注意,要先安装驱动,再安装cuda,不要颠倒步骤。cuda的版本是由驱动版本确定的。或者输入nvidia-smi,表示本机适合的cuda版本为12.5.* 有cpu版本的torch、gpu版本的torch两种;
2024-07-15 15:35:00
976
原创 机器学习中数据处理的注意事项
1)对于训练数据使用fit_transform,对于测试数据使用transform。2)对于输出数据需要新开一个StandardScaler()4)在训练神经网络模型时,可以将训练数据分批次给模型。先划分数据集,再做归一化。
2024-07-08 17:36:28
276
原创 数据库安装及管理
注意:使用dbeaver连接mysql时,可能会报错:can‘t load driver class ‘com.mysql.cj.jdbc.Driver‘。数据库管理工具使用的是dbeaver。
2024-07-03 17:42:36
106
原创 关系梳理之conda/anaconda/miniforge/虚拟环境
Conda是适用于任何语言的软件包、依赖项和环境管理系统--包括Python,R,Ruby,Lua,Scala,Java,JavaScript,C / C ++,FORTRAN等。:一个轻量级的Conda发行版,默认使用Conda-forge包仓库,适合需要从Conda-forge安装包的用户。(2) Anaconda:基于conda的管理工具集合,它包含了conda、某一个版本的Python、一批第三方库等。Miniconda是一个轻量级的Conda安装包,只包含Conda和其依赖的Python。
2024-07-03 11:30:39
826
原创 Coding tips:nums[:]=temp的作用、在代码中的实际应用场景、在开辟新数组的情况下实现原地排序
2)nums[:]在编程中的实际应用场景:leetcode88 合并两个有序数组。nums2[:]=temp #方式2:nums2仍然指向nums2。nums1[:] = temp # 在开辟新数组的情况下实现原地排序。nums1=temp #方式1:nums1指向temp。#不同赋值方式:本质都是赋值。1) nums[:]作用。
2024-07-01 12:25:03
142
原创 网页实现时“127.0.0.1拒绝了我们的连接请求”的解决方法
博主写的很详细https://www.cnblogs.com/rulasann/p/9442420.html
2024-01-22 21:49:05
356
原创 Coding tips:5种常见的排序
向前面有序的数组a[0:j]中插入新元素a[i]:寻找插入的位置,找到后再插入。# 由于j-1导致的不满足,此处要恢复为正常值j+1,将新元素插入合适的位置j+1。for j in range(len(a)-i-1): # 将最小的排到最后面。# # 通过两两比较,将a[i]插入合适的位置:比一个,换一个。# # 向有序的数组中a[0:j]插入新元素a[i]:边比较边交换值。quick_sort(a,left,p-1) # 对左边的元素排序。# # 遍历待插入的元素。
2023-09-26 19:28:20
37
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人