自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 Day54

作业:对于心脏病数据集,对于病人这个不平衡的样本用GAN来学习并生成病人样本,观察不用GAN和用GAN的F1分数差异。如果你学有余力,对于gan的损失函数的理解,建议去找找视频看看,如果只是用,没必要学。nn.sequential容器:适合于按顺序运算的情况,简化前向传播写法。leakyReLU介绍:避免relu的神经元失活现象。对抗生成网络的思想:关注损失从何而来。

2025-06-14 22:47:26 122

原创 Day53

作业:对于心脏病数据集,对于病人这个不平衡的样本用GAN来学习并生成病人样本,观察不用GAN和用GAN的F1分数差异。如果你学有余力,对于gan的损失函数的理解,建议去找找视频看看,如果只是用,没必要学。nn.sequential容器:适合于按顺序运算的情况,简化前向传播写法。leakyReLU介绍:避免relu的神经元失活现象。对抗生成网络的思想:关注损失从何而来。

2025-06-13 23:10:00 195

原创 Day52

作业:对于day'41的简单cnn,看看是否可以借助调参指南进一步提高精度。

2025-06-12 23:03:16 162

原创 Day51

作业:day43的时候我们安排大家对自己找的数据集用简单cnn训练,现在可以尝试下借助这几天的知识来实现精度的进一步提高。kaggl的一个图像数据集;数据集地址:Lung Nodule Malignancy 肺结核良恶性判断。三层卷积CNN做到的精度63%,现在需要实现提高。

2025-06-11 23:01:35 118

原创 Day50

今天时间紧,来不及了。

2025-06-10 23:45:19 137

原创 Day49

它先通过通道注意力模块评估特征通道的重要性,再通过空间注意力模块评估特征图中每个空间位置的重要性,从而更全面地提升特征表达能力。空间注意力模块类似于餐厅的“区域关注系统”,通过评估图像的空间位置(如同餐厅中的不同区域),动态调整每个位置的权重,从而突出重要的区域并抑制不重要的区域。通道注意力模块类似于餐厅的“食材评估系统”,通过评估每个食材(特征通道)的重要性,动态调整其权重,从而突出重要的特征并抑制不重要的特征。作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程。

2025-06-09 23:14:12 327

原创 Day48

1、随机张量的生成:torch.randn函数torch.randn 是 PyTorch 里用于生成随机数张量的函数。它所生成的随机数遵循标准正态分布,也就是均值为 0,标准差为 1 的分布。在神经网络的训练中,这个函数十分常用,像初始化权重的时候就会用到。通俗来讲,你可以把 torch.randn 想象成一个 “随机数生成器”,它能按照你的要求创建指定大小的张量,并且张量里的每个数都是从标准正态分布中随机抽取的。2、卷积和池化的计算公式(可以不掌握,会自动计算的)卷积的计算。

2025-06-08 23:31:15 325

原创 Day47

昨天代码中注意力热图的部分顺移至今天。作业:对比不同卷积层热图可视化的结果。

2025-06-07 23:35:30 224

原创 Day46

【代码】Day46。

2025-06-06 23:14:51 288

原创 Day45

—核心是弄懂tensorboard可以打印什么信息,以及如何看可视化后的结果,把ai当成记忆大师用到的时候通过它来调取对应的代码即可。之前在神经网络训练中,为了帮助自己理解,借用了很多的组件,比如训练进度条、可视化的loss下降曲线、权重分布图,运行结束后还可以查看单张图的推理效果。tensorboard的代码还有有一定的记忆量,实际上深度学习的经典代码都是类似于八股文,看多了就习惯了,难度远远小于考研数学等需要思考的内容。tensorboard这个库,集成了以上所有可视化工具。

2025-06-05 23:52:34 190

原创 Day42

模块钩子:就像是在餐厅的出菜口安装监控摄像头,每当有菜出来(前向传播结束)或订单完成(反向传播结束),钩子函数就会被触发,可以记录或修改菜品(特征图或梯度)。定义:lambda函数就像是厨房中的“快速调味料”,可以快速定义简单的匿名函数,不需要像普通函数那样写完整的def语句,特别适合简单的操作。张量钩子:类似于在食材上贴标签,当食材被使用(张量被访问或修改)时,钩子函数会被触发,可以记录或修改食材的状态(张量的值或梯度)。计算权重:根据记录的梯度计算每个特征图的权重,表示该特征图对最终分类结果的重要性。

2025-06-01 23:53:10 379

原创 Day41

Flatten -> Dense (with Dropout,可选) -> Dense (Output)1. 输入 → 卷积层 → Batch归一化层(可选) → 池化层 → 激活函数 → 下一层。作业:尝试手动修改下不同的调度器和CNN的结构,观察训练的差异。batch归一化:调整一个批次的分布,常用与图像数据。特征图:只有卷积操作输出的才叫特征图。调度器:直接修改基础学习率。卷积神经网络定义的写法。

2025-05-31 23:42:05 252

原创 Day40

这个模型结构是一个简单的全连接神经网络,用于处理输入大小为 28×28(即 784 个特征)的数据,通常用于 MNIST 手写数字识别任务。作业:仔细学习下测试和训练代码的逻辑,这是基础,这个代码框架后续会一直沿用,后续的重点慢慢就是转向模型定义阶段了。dropout操作:训练阶段随机丢弃神经元,测试阶段eval模式关闭dropout。展平操作:除第一个维度batchsize外全部展平。彩色和灰度图片测试和训练的规范写法:封装在函数中。DAY 40 训练和测试的规范写法。

2025-05-30 16:42:15 257

原创 Day39

【代码】Day39。

2025-05-29 23:13:17 250

原创 Day38

100个类别又分为20个超类(如"鱼"超类包含"鲑鱼"、"鲨鱼"等子类)- 类别包括:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车。- 每个类别有6000张图像(5000训练+1000测试)- 包含100个细粒度类别的6万张32x32彩色图像。- 每个类别有600张图像(500训练+100测试)了解下CIFAR数据集,尝试获取其中一张图片。- 包含10个类别的6万张32x32彩色图像。- 图像分类任务基准测试。- 深度学习模型性能评估。- 计算机视觉算法研究。

2025-05-28 23:39:48 285

原创 Day38

Dataset类的__getitem__和__len__方法(本质是python的特殊方法)作业:了解下cifar数据集,尝试获取其中一张图片。Dataset和Dataloader类。minist手写数据集的了解。Dataloader类。

2025-05-27 20:50:56 194

原创 Day37

对信贷数据集训练后保存权重,加载权重后继续训练50轮,并采取早停策略。

2025-05-26 22:54:24 202

原创 Day36

【代码】Day36。

2025-05-25 22:40:34 229

原创 Day35

【代码】Day35。

2025-05-24 22:19:22 107

原创 Day34

【代码】Day34。

2025-05-23 21:07:46 217

原创 Day31

day31 文件的拆分和使用\src\data\preprocessing.py。

2025-05-20 23:22:20 189

原创 Day30

圆周率π的值:3.141592653589793。2的平方根:1.4142135623730951。:自己新建几个不同路径文件尝试下如何导入。方式1:使用 import math。2、从库中导入特征项。

2025-05-19 23:17:48 209

原创 Day29

类装饰器 :本质是一个函数,接收一个类作为参数,返回一个新的类或者修改后的原类。类装饰器 :更适合对多个不相关的类添加相同的功能,能提高代码的复用性。类装饰器 :可以在不修改原有类定义的情况下,动态地为类添加功能。一个类可以被多个装饰器装饰,实现功能的组合。子类 :适合构建具有层次结构的类体系,通过继承关系可以清晰地表达类之间的关系,便于代码的维护和扩展。通过类装饰器,可以在不修改类内部代码的情况下,为多个类统一添加功能(如日志、统计)类有修饰器,他的逻辑:接收一个类,返回一个修改后的类。

2025-05-18 22:38:06 329

原创 Day28

calculate_perimeter():计算周长(公式:2×(长+宽))。is_square() 方法,判断是否为正方形(长 == 宽)。calculate_circumference():计算圆的周长(公式:2πr)。shape_type="rectangle":创建长方形(参数:长、宽)。calculate_area():计算圆的面积(公式:πr²)。shape_type="circle":创建圆(参数:半径)。calculate_area():计算面积(公式:长×宽)。

2025-05-17 23:21:43 224

原创 Day28

类是对象的蓝图,定义了对象的属性和方法。# 定义一个简单的类class Dog:pass# 创建 Dog 类的实例。

2025-05-16 21:45:44 283

原创 Day26 函数专题

如果在填充完所有能通过名字匹配上的明确定义的形参后,调用时还有剩余的关键字参数(即这些关键字参数的名字在函数定义中没有对应的明确形参名),那么这些“多余的”关键字参数就会被收集起来,形成一个字典 (dictionary),并赋值给 **kwargs 指定的那个变量(通常就是 kwargs)。当函数被调用时,Python 会先尝试用调用时提供的位置参数去填充函数定义中所有明确定义的、非关键字的形参 (也就是那些普通的,没有 * 或 ** 前缀的参数,包括有默认值的和没有默认值的)。

2025-05-15 22:29:17 341

原创 Day25

当程序在运行时遇到意外情况(即异常),它不会直接崩溃,而是可以被设计成优雅地处理这些错误,并可能继续执行后续逻辑(如果设计允许)或以可控的方式结束。如果这段可能出错的代码位于 try 语句块中,程序流程会寻找并跳转到匹配的 except 语句块(如果存在)来处理这个异常。except: 如果try块中的代码确实引发了特定类型的异常(或者任何异常,如果未指定类型),则执行此代码块。else: (可选)如果try块中的代码没有发生任何异常,则执行此代码块。try: 包含可能会引发异常的代码块。

2025-05-14 23:42:49 207

原创 Day23

超参数调整:使用 GridSearchCV 或其他方法对模型的超参数进行优化。使用 Pipeline 将预处理步骤和模型训练步骤组合在一起。模型选择:根据任务类型(分类、回归等)选择合适的模型。特征选择:根据数据集的特征选择合适的数值列和分类列。主函数:将以上步骤组合在一起,形成完整的流程。如果测试集有目标变量,评估模型的准确率。如果测试集没有目标变量,仅输出提示信息。数据加载:从文件中加载训练集和测试集。对分类列进行缺失值填充和独热编码。对数值列进行缺失值填充和标准化。定义数值列和分类列。

2025-05-12 23:00:49 217

原创 Day22 复习

自行学习参考如何使用kaggle平台,写下使用注意点,并对下述比赛提交代码。

2025-05-11 23:19:21 134

原创 Day21 数据降维

对于像 MNIST 手写数字这样的典型例子,PCA 往往倾向于展示较为模糊的整体趋势;然而需要注意的是,由于 t-SNE 过程引入了一定程度的随机性和敏感参数调整依赖性强等问题,可能导致重复运行结果不完全一致。降维技术广泛应用于多个领域,尤其是在数据分析、机器学习和数据可视化中扮演着重要角色。通过减少数据的维度,不仅可以降低计算复杂度,还能帮助揭示隐藏在高维数据中的结构和模式1。能够更好地反映样本间的簇状关系,尤其擅长处理复杂的非线性边界。t-SNE 和 PCA 的可视化效果对比。

2025-05-10 23:17:14 155

原创 Day19 数据筛选

皮尔逊相关系数筛选是一种基于特征与目标变量之间相关性的特征选择方法。它的核心逻辑是:计算每个特征与目标变量之间的相关系数(范围在-1到1之间,值越大表示正相关越强,值越小表示负相关越强,接近0表示几乎无关),然后根据相关系数的绝对值大小,选择与目标变量相关性较高的特征,剔除相关性较低的特征。它的核心逻辑是:特征的方差反映了数据的变化程度,方差很小的特征几乎没有变化,对模型的预测帮助不大。因此,方差筛选会设定一个方差阈值,剔除方差低于这个阈值的特征,保留那些变化较大的特征,从而减少特征数量,提高模型效率。

2025-05-08 22:44:48 329

原创 Day17 聚类

DBSCAN 的参数是 eps 和min_samples,选完他们出现k和评估指标。除了经典的评估指标,还需要关注聚类出来每个簇对应的样本个数,避免太少没有意义。KMeans 和层次聚类的参数是K值,选完k指标就确定。以及层次聚类的 linkage准则等都需要仔细调优。作业:对心脏病数据集进行聚类。

2025-05-06 23:09:32 310

原创 Day16 数组的创建

【代码】Day16 数组的创建。

2025-05-05 23:40:41 153

原创 Day14 shap图

SHAP 通过计算每个特征对单个预测(相对于平均预测)的边际贡献(Shapley 值),提供了一种将模型预测分解到每个特征上的方法。

2025-05-03 22:38:30 202

原创 Day13 不平衡数据集的处理

1. 对于少数类中的每个样本,计算它与少数类中其他样本的距离,得到其k近邻(一般k取5或其他合适的值)。6. 重复上述步骤,直到合成出足够数量的少数类样本,使得少数类和多数类样本数量达到某种平衡。5. 将差值乘以随机数,然后加到原始样本上,得到一个新的合成样本。随机过采样是从少数类中随机选择样本,并将其复制后添加到训练集。7. 使用过采样后的数据集训练模型并评估模型性能。3. 计算选定的近邻样本与原始样本之间的差值。smote过采样是合成样本的方法。2. 从K近邻中随机选择一个样本。

2025-05-02 23:06:28 356

原创 Day12 超参数处理2

的优化搜索算法,常用于解决复杂问题的最优解搜索。其核心思想是模拟生物进化中的“适者生存”机制,通过迭代优化候选解(个体)的种群,最终找到近似最优解。:衡量个体的优劣,通常是目标函数(如分类准确率、回归误差)。:模拟基因重组,将两个父代个体的部分基因交换,生成新个体。:表示一个候选解,通常编码为二进制、整数或浮点数序列。:通常设置较小的概率(如 0.1~0.2)。:随机修改个体基因,避免算法陷入局部最优。:适应环境的个体更有可能生存并繁衍后代。:两个个体的基因组合产生新个体。:由多个个体组成的集合。

2025-05-01 22:55:00 474

原创 Day11 超参数调整

完整训练数据主要分为处理数据,训练集与测试集的划分,参数的调试等过程。

2025-04-30 22:54:29 177

原创 Day10 机器学习建模与评估

【代码】Day10 机器学习建模与评估。

2025-04-29 22:58:10 169

原创 Day09 热力图和子图的绘制

【代码】Day09 热力图和子图的绘制。

2025-04-28 23:11:07 211

原创 Day08 字典&标签编码&连续变量处理

字典中元素的获取字典中元素的增删改。

2025-04-27 20:51:02 1293

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除