- 博客(74)
- 收藏
- 关注
原创 第十章:上下文工程(Context Engineering)学习笔记
经济性:上下文是有限资源,需优先保留高价值信息。结构化:模块化布局(如分角色、任务、证据)提升模型理解效率。可扩展性:通过工具链(NoteTool、TerminalTool)灵活适配不同场景。
2025-11-20 23:31:50
263
原创 第十章:上下文工程(Context Engineering)学习笔记
定义:上下文工程指系统化地设计、组织和优化输入到大语言模型(LLM)中的上下文信息(包括提示词、历史对话、外部知识等),以提升模型表现的技术体系。本质:通过控制输入上下文的质量、结构和顺序,弥补LLM在长对话中的注意力分散、知识遗忘等局限,实现更可靠的智能体决策。功能:支持创建、检索、更新笔记,标记类型(如task_state、blocker、action)。上下文腐蚀:随着输入长度增加,模型从上下文中准确提取信息的能力会下降(如“针堆找针”实验所示)。
2025-11-18 22:52:22
398
原创 第七章 构建你的智能体框架
Message类:统一的消息格式,确保智能体与模型间信息传递标准化Config类:中心化配置管理,支持环境变量读取Agent基类:定义所有智能体的抽象基类,提供统一接口。
2025-11-16 20:50:31
302
原创 第四章 Agent的几种经典范式
return ["步骤1", "步骤2", "步骤3"]# 统一调用接口,支持多提供商。工具协同:完美结合LLM推理与外部工具能力。上下文膨胀:历史记录不断增长可能影响性能。:获取行动结果,作为下一轮思考的输入。可能陷入循环:需要设置最大迭代次数。:将复杂任务分解为步骤清晰的计划。:分析当前状况,规划下一步行动。动态纠错:根据观察结果调整策略。高可解释性:思维过程完全透明。:批判性分析当前方案的不足。:通过多轮迭代优化解决方案。:调用工具执行具体操作。:严格按照计划逐步执行。:构建可复用的学习轨迹。
2025-11-14 21:21:12
898
原创 第三章 大语言模型基础学习笔记
架构理解:掌握Transformer各组件的作用和实现原理交互技巧:熟练运用提示工程和参数调优模型选型:根据任务需求权衡闭源与开源方案局限认知:明确模型能力边界,设计相应容错机制。
2025-11-12 20:43:05
424
原创 第一章:初识智能体 - 学习笔记
智能体(Agent)是指能够感知环境、通过执行器采取行动以实现特定目标的实体。环境(Environment):智能体所处的外部世界(如物理空间、数字系统)。传感器(Sensors):感知环境的接口(如摄像头、API)。执行器(Actuators):对环境施加影响的工具(如机械臂、代码函数)。自主性(Autonomy):能独立决策而非被动响应指令。
2025-11-10 18:40:49
845
原创 DAY 49cbam模块介绍
SE 通道注意力的局限:仅关注 “哪些通道重要”,未考虑 “重要信息在空间中的位置”。CBAM 的突破: 通道注意力(Channel Attention):分析 “哪些通道的特征更关键”(如图像中的颜色、纹理通道)。空间注意力(Spatial Attention):定位 “关键特征在图像中的具体位置”(如物体所在区域)。它的核心目标是通过学习的方式,自动获取特征图在通道和空间维度上的重要性,进而对特征图进行自适应调整,增强重要特征,抑制不重要特征,提升模型的特征表达能力和性能。
2025-07-09 21:16:25
242
原创 DAY 46
之前复试班强化部分的transformer框架那节课已经介绍过注意力机制的由来,本质从onehot-elmo-selfattention-encoder-bert这就是一条不断提取特征的路。各有各的特点,也可以说由弱到强。其中注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器,就像人类视觉会自动忽略背景,聚焦于图片中的主体(如猫、汽车)。transformer中的叫做自注意力机制,他是一种自己学习自己的机制,他可以自动学习到图片中的主体,并忽略背景。
2025-07-06 23:05:47
666
原创 DAY 45 Tensorboard使用介绍
tensorboard在cifar上的实战:MLP和CNN模型。tensorboard的发展历史和原理。tensorboard的常见操作。
2025-07-05 21:23:25
200
原创 DAY 44
所以预训练模型一般就挺强的。这里给大家介绍一个常常用来做预训练的数据集,ImageNet,ImageNet 1000 个类别,有 1.2 亿张图像,尺寸 224x224,数据集大小 1.4G,下载地址:http://www.image-net.org/。所以很自然的想到,如果最开始能有比较好的参数,即可能导致未来训练次数少,也可能导致未来训练避免陷入局部最优解的问题。如果别人在某些和我们目标数据类似的大规模数据集上做过训练,我们可以用他的训练参数来初始化我们的模型,这样我们的模型就比较容易收敛。
2025-07-04 19:53:55
317
原创 day 43Grad-CAM
在hook中常常用到lambda函数,它是一种匿名函数(没有正式名称的函数),最大特点是用完即弃,无需提前命名和定义。Hook 函数是一种回调函数,它可以在不干扰模型正常计算流程的情况下,插入到模型的特定位置,以便获取或修改中间层的输出或梯度。除了模块钩子,PyTorch 还提供了张量钩子,允许我们直接监听和修改张量的梯度。Grad-CAM 的核心思想是:通过反向传播得到的梯度信息,来衡量每个特征图对目标类别的重要性。在传播过程中,钩子函数会被调用,我们可以在钩子函数中查看或修改梯度。
2025-07-03 10:52:10
573
原创 day41简单CNN
3.batch归一化:调整一个批次的分布,常用与图像数据。4.特征图:只有卷积操作输出的才叫特征图。5.调度器:直接修改基础学习率。2.卷积神经网络定义的写法。
2025-07-01 22:51:59
273
原创 DAY 40 训练和测试的规范写法
昨天我们介绍了图像数据的格式以及模型定义的过程,发现和之前结构化数据的略有不同,主要差异体现在2处。现在我们把注意力放在训练和测试代码的规范写法上。
2025-06-30 19:49:44
229
原创 DAY 38
因为每个数据的维度比较小,所以既可以视为结构化数据,用机器学习、MLP训练,也可以视为图像数据,用卷积神经网络训练。在遇到大规模数据集时,显存常常无法一次性存储所有数据,所以需要使用分批训练的方法。为此,PyTorch提供了DataLoader类,该类可以自动将数据集切分为多个批次batch,并支持多线程加载数据。此外,还存在Dataset类,该类可以定义数据集的读取方式和预处理方式。Dataset类:告诉程序去哪里找数据,如何读取单个样本,以及如何预处理。DataLoader类:决定数据如何加载。
2025-06-29 21:57:03
164
原创 day39
看这个注释表示张量大小的变换# 定义两层MLP神经网络self.flatten = nn.Flatten() # 将28x28的图像展平为784维向量self.layer1 = nn.Linear(784, 128) # 第一层:784个输入,128个神经元self.relu = nn.ReLU() # 激活函数self.layer2 = nn.Linear(128, 10) # 第二层:128个输入,10个输出(对应10个数字类别)x = self.flatten(x) # 展平图像。
2025-06-28 22:54:50
270
原创 DAY 31
昨天我们已经介绍了如何在不同的文件中,导入其他目录的文件,核心在于了解导入方式和python解释器检索目录的方式。搞清楚了这些,那我们就可以来看看,如何把一个文件,拆分成多个具有着独立功能的文件,然后通过import的方式,来调用这些文件。
2025-06-21 23:03:13
831
原创 day28
包含属性:半径 radius。包含方法: calculate_area():计算圆的面积(公式:πr²)。 calculate_circumference():计算圆的周长(公式:2πr)。初始化时需传入半径,默认值为 1。# 创建半径为 5 的圆# 计算并输出面积和周长print(f"圆的面积: {circle.calculate_area()}")print(f"圆的周长: {circle.calculate_circumference()}")# 题目2:长方形类实现。
2025-06-18 23:02:49
253
原创 day25异常处理机制
当异常发生时,Python会创建一个异常对象 (exception object)(通常是 Exception 类的子类实例)。如果这段可能出错的代码位于 try 语句块中,程序流程会寻找并跳转到匹配的 except 语句块(如果存在)来处理这个异常。Python的异常处理机制为程序提供了强大的容错能力 (fault tolerance)。当程序在运行时遇到意外情况(即异常),它不会直接崩溃,而是可以被设计成优雅地处理这些错误,并可能继续执行后续逻辑(如果设计允许)或以可控的方式结束。
2025-06-15 17:10:51
212
原创 day 23
‘Own Home’, ‘Rent’, ‘Have Mortgage’, ‘Home Mortgage’], # Home Ownership 的顺序 (对应1, 2, 3, 4)[‘< 1 year’, ‘1 year’, ‘2 years’, ‘3 years’, ‘4 years’, ‘5 years’, ‘6 years’, ‘7 years’, ‘8 years’, ‘9 years’, ‘10+ years’], # Years in current job 的顺序 (对应1-11)
2025-06-13 20:58:24
788
原创 day22
第三步:将kaggle.json文件放在指定路径(如 Windows 的C:\Users\用户名.kaggle,Linux 的~/.kaggle),并设置文件权限(如 Linux 执行chmod 600 ~/.kaggle/kaggle.json)。进入 “Datasets” 页面,通过左侧分类(如 “Health”“Finance”“Image”)或标签(如 “structured”“time series”)缩小范围。若需特定领域数据集(如医疗、图像),可结合关键词与分类筛选精准定位。
2025-06-12 22:47:43
487
原创 day 18进行聚类,进而推断出每个簇的实际含义
对聚类的结果根据具体的特征进行解释,进而推断出每个簇的实际含义两种思路:你最开始聚类的时候,就选择了你想最后用来确定簇含义的特征,最开始用全部特征来聚类,把其余特征作为 x,聚类得到的簇类别作为标签构建监督模型,进而根据重要性筛选特征,来确定要根据哪些特征赋予含义。下面使用第二种方法,先计算再分析先分析出和聚类有关的几个重要特征再根据不同的簇对应的特征与簇的大小进行分析,从而最后将结果进行总结。
2025-06-08 23:23:35
541
原创 DAY 17聚类
DBSCAN不要求我们指定集群的数量,避免了异常值,并且在任意形状和大小的集群中工作得非常好。它没有质心,聚类簇是通过将相邻的点连接在一起的过程形成的。CH 指数越大,表示簇间分离度越高,簇内紧凑度越高,聚类效果越好。DB 指数越小,表示簇间分离度越高,簇内紧凑度越高,聚类效果越好。,表示样本在簇边界附近。
2025-06-07 20:38:04
239
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅