00S7-优快云博客

原创为什么用神经网络建模的二分类模型，最终的输出要视为logits，然后再对logits进行softmax才能得到负类和正类的概率？为什么二分类模型的输出不能直接视为负类和正类的概率？

实际上，交叉熵损失在内部已经隐含了 logits 到概率的转换（即 logits + softmax + 交叉熵的组合，即为 PyTorch 中的。神经网络最后一层通常是线性层，其输出范围是无界的，可以为负无穷到正无穷，而概率必须限制在[0,1]之间，因此不能直接视为概率。网络直接输出概率（如通过 sigmoid 或人为限制）可能会限制网络对信息的表达能力，导致模型无法灵活学习到更丰富的特征表达。通过 logits 进行输出，模型可自由学习类别之间的相对关系，不会受到人为的概率约束。

2025-04-23 17:22:00 385

原创取消项目的版本控制

目录，说明这是一个独立的 Git 仓库（或者是父仓库中的一个“子仓库”）。文件夹后，文件夹便会变成一个普通文件夹，不再包含 Git 版本控制信息。

2025-01-13 10:11:25 293

原创 git拉取、更新、上传代码

桌面右击打开Git Bash，输入git --version 查看版本信息，输出版本信息即为安装成功。暂存区提交至本地仓库git commit。本地仓库提交至远程仓库git push。代码提交至暂存区git add。

2024-11-13 17:52:27 614

原创 Local feature importance

当某个预测结果异常（如预测值过高或过低）时，了解特征的具体贡献可以帮助识别异常原因，便于进行数据清洗或进一步分析。当你需要向利益相关者（如客户、监管机构等）解释模型决策时，了解特征对预测的具体影响可以增强透明度和信任。在模型开发阶段，分析单条数据的特征贡献可以帮助发现潜在的模型偏差或错误，从而进行调整和优化。

2024-10-25 16:57:25 275

原创 pd.concat和pd.merge的区别

通常用于合并结构相同的多个DataFrame。例如，将多个DataFrame纵向（按行）或横向（按列）拼接到一起。

2024-10-10 10:23:56 319

原创如何查看dataframe中是否存在缺失值？

统计整个df是否有缺失值。# 查看每列是否存在缺失值。# 查看每列元素的数据类型。# 查看每列缺失值的数量。# 查看每列缺失值的比例。

2024-09-26 10:37:19 431

原创向前传播和向后传播

向前传播的本质在于：将输入数据经过一系列的线性和非线性变换，逐层处理并生成输出。这个过程决定了网络的预测结果，是神经网络的核心工作机制。在训练过程中，向前传播为反向传播提供计算基础；在推理过程中，它负责输出最终预测值。向后传播的本质在于通过链式法则计算神经网络中每个参数对损失函数的影响（梯度），从而通过梯度下降等优化方法更新参数，减少误差，提升模型性能。这个过程是神经网络学习的关键，使得网络能够自我调整并逐渐逼近最优解。

2024-09-26 10:15:41 634

原创多任务学习

两种多任务学习模式：基于硬约束的多任务学习和基于软约束的多任务学习。

2024-09-26 09:47:34 1029

原创如何判断特征之间是否存在线性关系？

拟合线性回归后，分析残差（预测值与实际值之间的差异）。一般情况下，t 值的绝对值大于 2 可能表示该特征与目标变量之间存在一定的线性关系（但具体标准可以根据样本大小调整）。相关系数的取值范围为[-1, 1]，接近 1 或 -1 表示强线性关系，接近 0 表示线性关系弱。如果 p 值小于 0.05，说明在 95% 的置信水平下，该特征与目标变量之间存在显著线性关系。观察点的分布情况：如果点大致沿直线分布，说明存在线性关系。X = df[['feature1']] # 自变量。2、计算特征之间的相关系数。

2024-09-25 18:29:06 618

原创如何选择合适的回归模型？

3、通过上述两点大概推测合适的模型，使用默认参数拟合数据，逐一校验上述模型。对于其中表现优秀的模型进行交叉验证，以防止过拟合。最后通过grid search确定表现优秀的模型的参数。变量之间是非线性关系，模型考虑选择：多项式回归、支持向量回归、树模型（如 XGBoost、随机森林）。如果模型的可解释性很重要（例如在医疗或金融领域），简单模型（如线性回归）或树模型（如决策树）可能更合适。复杂模型（如神经网络）虽然性能可能更好，但通常较难解释。变量之间是线性关系，模型考虑选择：线性回归、岭回归；

2024-09-25 18:16:09 579

原创为什么线性回归模型不适合把字符型特征数值化为有序数据？

问题场景：数据中有一个特征为shape,shape的取值为rectangle和polygon。常用的数值化思路为将polygon数值化为0，rectangle数值化为1。这一数值化过程是不合理的，原因如下。在线性模型中，特征的权重决定了这个特征对预测目标的贡献大小。当 w1>0 时，shape值为 1 会使预测的结果增加w1，而为 0 则不会带来额外的贡献.因此，当 w1>0时，模型会认为。线性回归模型对数值大小是敏感的，因为它假设特征值和目标值之间存在线性关系，即特征的数值大小会直接影响预测结果。

2024-09-25 17:44:59 289

原创安装torch后仍然报错“缺少fbgemm.dll”的解决方法

Error loading "D:\miniforge3\envs\test\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.

2024-08-08 17:41:41 1140

原创如何在pychram中配置虚拟环境

conda create -n 虚拟环境名称 python=具体版本。

2024-08-07 15:15:56 205

原创本地(windows)对远程服务器mysql数据库备份及上传

直接在dos窗口中输入以下命令。

2024-08-05 18:39:51 396

原创连接数据库

连接远程数据库 mysql -h 172.16.11.106 -u root -p。连接本地数据库 mysql -u root -p。

2024-08-02 14:06:03 250

原创查看数据库表格的大小

table_schema = 'wms' -- 修改数据库名称。

2024-08-02 11:19:12 167 1

原创解决“Connection to ‘172.16.11.213‘ cannot be established.”以及“Public Key Retrieval is not allowed“

连接远程数据库会报错“Connection to '172.16.11.213' cannot be established.”连接本地数据库会报错“Public Key Retrieval is not allowed”allowPublicKeyRetrieval设置为True;

2024-08-02 10:02:15 413

原创解决DBeaver报错“SHOW/CREATE不是内部或外部命令，也不是可运行的程序或批处理文件。”

开启服务net start mysql后，需要输入用户名以及密码，再进行show/create等操作。

2024-08-02 09:54:53 344

原创解决“Public Key Retrieval is not allowed”

将“allowPublicKeyRetrieval”设置为true。

2024-08-02 09:45:08 323

原创 python安装教程

pycharm中集成python和miniforge。pycharm下载社区版。miniforege下载。

2024-07-26 09:40:15 648

原创如何在命令行终端启动mysql数据库

输入命令 net start mysql。切换至数据库的安装目录下。以管理员身份运行cmd。

2024-07-25 11:04:13 702

原创数据分析的各种可视化图表及其使用场景

一、对比型数据：仅对比，无统计学特征。1）并列柱状图--两个维度都需要对比。2）堆叠柱状图--两个维度都需要对比。（1）直方图：频数直方图、频率直方图。（0）、用于数据分析的统计学指标。（5）核密度估计曲线：概率密度图。1、柱状图（+条形图）（4）山脊图/脊线图。

2024-07-21 21:41:57 445

原创特征提取方法原理详解PCA/LDA

PCA主要用于无监督的降维，通过最大化方差来找到数据的主要成分，适合数据探索和可视化。LDA用于有监督的降维，通过最大化类间差异和最小化类内差异来找到最佳分类方向，适合分类任务。==> 我的总结PCA 适用于数据集没有类别标签时。原因：PCA的主要目的是通过正交变换将原始特征空间中的线性相关特征转换为线性无关特征，‌从而提取出数据中的主要成分，‌这些成分能够最大程度地保留原始数据中的方差。‌在这个过程中，‌PCA并没有利用数据的类别标签信息。

2024-07-15 22:36:19 711

原创使用GPU训练模型需要哪些准备？

cudnn是深度学习的加速工具包，基于CUDA的深度学习GPU加速库，安装了cuDNN才能在GPU上完成深度学习的计算。解压cuDNN的压缩包，分别将cuDNN三个文件夹的内容分别复制到cuda对应的文件夹里面。pytorch官网，若没有对应的cuda版本，则选择最接近的额一个版本，生成安装命令。注意，要先安装驱动，再安装cuda，不要颠倒步骤。cuda的版本是由驱动版本确定的。或者输入nvidia-smi，表示本机适合的cuda版本为12.5.* 有cpu版本的torch、gpu版本的torch两种；

2024-07-15 15:35:00 1062

原创机器学习中数据处理的注意事项

1）对于训练数据使用fit_transform，对于测试数据使用transform。2）对于输出数据需要新开一个StandardScaler()4）在训练神经网络模型时，可以将训练数据分批次给模型。先划分数据集，再做归一化。

2024-07-08 17:36:28 327

原创数据库安装及管理

注意：使用dbeaver连接mysql时，可能会报错：can‘t load driver class ‘com.mysql.cj.jdbc.Driver‘。数据库管理工具使用的是dbeaver。

2024-07-03 17:42:36 138

原创关系梳理之conda/anaconda/miniforge/虚拟环境

Conda是适用于任何语言的软件包、依赖项和环境管理系统--包括Python，R，Ruby，Lua，Scala，Java，JavaScript，C / C ++，FORTRAN等。：一个轻量级的Conda发行版，默认使用Conda-forge包仓库，适合需要从Conda-forge安装包的用户。(2) Anaconda：基于conda的管理工具集合，它包含了conda、某一个版本的Python、一批第三方库等。Miniconda是一个轻量级的Conda安装包，只包含Conda和其依赖的Python。

2024-07-03 11:30:39 1115

uuu_scai的博客