- 博客(33)
- 收藏
- 关注

原创 06_LSTM模型
是一种改进的循环神经网络(RNN),专门设计用于解决传统RNN的。LSTM(Long Short-Term Memory)也称为。,能够更好地捕捉长序列数据中的长期依赖关系。
2025-03-23 18:49:14
730
原创 模型训练实用之梯度检查点
以时间换空间,是训练大模型的必备技术。尽管会牺牲部分计算效率,但在显存不足时,它是实现模型训练的唯一可行方案。结合混合精度、梯度累积等技术,可进一步提升资源利用率。通过这种方式,内存占用减少50%,但计算量增加约33%(需额外进行一次前向计算)。,并在反向传播时重新计算未保存的激活值,从而减少内存需求。
2025-05-05 15:39:53
761
原创 Langchain入门介绍
LangChain 是一个开源的、用于开发由大型语言模型 (LLM) 驱动的应用程序的框架。它的核心目标是将强大的 LLM(如 GPT-4, Claude, Llama 等)与外部数据源、计算资源和工具连接起来,从而构建更复杂、更有用、更具交互性的 AI 应用。
2025-04-25 20:47:17
823
原创 神经网络基础[ANN网络的搭建]
精度高,性能优于其他的机器学习算法,甚至在某些领域超过了人类可以近似任意的非线性函数近年来在学界和业界受到了热捧,有大量的框架和库可供调。
2025-04-24 20:38:32
1260
原创 load_dataset函数
Hugging Face 的 datasets 库中的 load_dataset 函数是一个核心工具,用于快速加载和处理多种格式的数据集。1.支持多种数据源2.自动处理数据格式。
2025-04-22 15:59:57
494
原创 [随笔] nn.Embedding的前向传播与反向传播
那么 反向传播以后embedding的参数就为 [[1. ,1. ,1.],[1. ,1. ,1.]] - 1 * [[0.1,0.1,0.3],[0.,0.,0.]]假如反向传播过来的梯度是 [0.1,0.1,0.3] ,原始的embedding矩阵= [[1. ,1. ,1.],[1. ,1. ,1.]] , lr=0.1。即 [[0.99. ,0.99 ,0.97],[1. ,1. ,1.]],具体索引的过程,可以通过 one hot + 矩阵乘法的形式实现的。
2025-04-09 22:39:11
372
原创 0_Pytorch中的张量操作
小写 t: 根据指定数据创建大写 T: 既可以根据指定数据创建,也可以根据形状创建Tensor: 不指定类型(Type)Tensor: 指定类型。
2025-04-08 19:37:33
1281
原创 ner任务思路收集_基于规则匹配器
概念:实体抽取,又称为命名实体识别(named entity recognition,NER),指的是从文本之中抽取出命名性实体,并把这些实体划分到指定的类别。
2025-03-28 18:37:13
745
原创 08_双向循环神经网络
双向循环神经网络(Bidirectional Recurrent Neural Network, BiRNN)通过同时捕捉序列的和依赖关系,增强模型对上下文的理解能力。与传统的单向网络不同,BIRNN 能够同时从过去和未来的上下文信息中学习,从而提升模型的表现。它并没有改变网络本身的内部结构而是将不同方向的序列输入对网络应用两次,再对两次得到的结果进行拼接作为双向网络模型的输出。
2025-03-23 18:51:26
1013
原创 07_GRU模型
^ 要点]:1.GRU同样是通过门机制来解决传统RNN中的梯度消失问题的 2.GRU相比于LSTM更为简洁,它只引入了两个门 :更新门(Update Gate), 重置门(Reset Gate)当处理到 ‘因为’ 时,上文信息 : 少部分的 "风可以吹起一大张白纸 " + 大部分的 “无法吹走蝴蝶” input: [‘风’,‘可以’,‘吹起’,‘一大张’,‘白纸’,‘’,‘生命’,‘的’,‘力量’,‘在于’,‘不’,‘顺从’]’,‘无法’,‘吹走’,‘一只’,‘蝴蝶’,‘
2025-03-23 17:58:29
1078
原创 04_文本特征处理与数据增强
文本特征处理指的是, 如:n-gram特征, 以及, 如: 长度规范,这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标。
2025-03-11 21:34:25
943
原创 03_NLP常用的文本数据分析处理方法
数据来源:中文酒店评论语料结构:sentence,label- sentence:用户评论- label:1对应积极情绪,0代表消极情绪目的:使用以上数据,介绍常用的几种文本数据分析方法。
2025-03-11 21:14:53
1293
原创 05_NLP基础之传统RNN模型
RNN(Recurrent Neural Network),中文称作,是一种专门用于的神经网络架构。一般,通过网络内部的结构设计,一般也是。它的,广泛应用于自然语言处理(NLP)、时间序列预测、语音识别等领域。
2025-03-02 17:54:25
1191
原创 02_NLP文本预处理之文本张量表示法
fasttext:是facebook开源的一个词向量与文本分类工具。下面是该工具包的安装方法:官网()下载对应操作系统对应python解析器版本的fasttext模块的whl文件进入到base虚拟环境,然后在whl文件目录下通过以下命令安装# 当前目录下要有whl文件名称函数功能:返回一个无监督训练过后的词向量训练模型部分超参数解释input:输入的文件路径。
2025-03-02 17:37:57
1020
原创 【python从入门到实战】04-函数基础
函数是组织好的,可重复使用的,用来实现特定功能的代码段.定义函数可以使代码更加的模块化以及具备更高的可重用性.示例- 定义函数实现 len()的 功能3. 函数的返回值 概述:函数体执行完之后给调用者返回的结果就是函数的返回值4.函数的说明文档概述:函数是纯代码语言,想要理解其含义,就需要一行行的去阅读理解代码,效率比较低。我们可以给函数添加说明文档,辅助理解函数的作用。示例:5. 函数的嵌套调用概述:函数的嵌套调用指的是在一个函数的执行过程中,调用另一个函数,而被调用的函数本身也可能
2024-11-24 21:36:52
519
原创 [python从入门到实战] 03 - 判断与循环
return 不是专门用于结束循环的关键字,它只会在含有循环的函数内部起作用,会立刻结束函数包括当前在执行的所有循环,并返回给定的值。用于跳过本次循环中continue后的语句,并立刻开始下一次循环.循环),并跳出循环体,继续执行循环之后的代码。用于立即终止当前循环(无论是。
2024-11-24 20:25:22
234
原创 Leet003- 不含有重复字符的最长子串的长度[双指针/滑动窗口]
2.当右指针扫描到的字符已经存在窗口内 => 左指针收缩 => 收缩窗口到相同的那个字符之后。从 1 可以 得知:重复字符之后的字符一定是不重复的 , 那么 我们就可以利用 1 中以求解的结果来优化算法。1.当右指针扫描到的字符不在窗口内 => 右指针拓宽 =>子串的最大长度 + 1。求解:从左往右开始,字符串中每一个字符的最长子串长度 => 整个字符的最长子串长度。1.当序列只有一个字符 x 时: 最长子串为它本身 => 1。第四个字符 a 的最长子串 => a。最终取其最大值 => abc。
2024-11-24 15:17:51
339
原创 [python从入门到实战] 02-运算符大全
1.效率高: 位运算是在底层直接对二进制数进行操作,因此通常比使用算术运算符更快速和高效。这对于一些性能要求较高的场景,比如网络编程、密码学等领域尤为重要。2.节省空间: 由于位运算直接操作的是二进制位,所以在存储空间上比起使用普通的算术运算符更加节省。这在需要大量数据存储或者传输的情况下尤为重要,比如在编码压缩、图形处理等领域。3.逻辑清晰: 对于一些需要进行位操作的任务,使用位运算符可以使代码更加简洁和清晰,因为它们直接表达了对二进制数的操作,避免了繁琐的位操作手动实现。
2024-11-21 18:01:25
1468
1
原创 [Python从入门到实战] 01-基础语法(全网最详细)
你也可以理解成 没被赋值过的变量就是字面量# 这是字面量# Statement seems to have no effect => 没意义,因为字面量没被使用'我是字面量'123123.456TrueFalse100 - 10变量是在程序运行时,能储存计算结果或能表示值的抽象概念。变量指的是内存中的一小块区域,该区域的值可以发生变化(改变)变量的显著特征是:变量存储的数据可以发生改变。
2024-11-21 16:50:39
818
原创 (新手向)动态规划从入门到精通 ——打家劫舍
你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。给定一个代表每个房屋存放金额的非负整数数组,计算你 不触动警报装置的情况下 ,一夜之内能够偷窃到的最高金额。
2024-11-19 21:55:28
857
原创 MySQL函数(超详细)
在MySQL中有很多内置函数,除了之前学习的聚合函数之外,还有很多其他内置函数:数值函数、字符串函数、时间日期函数、流程控制函数、加解密函数、开窗函数等。
2024-11-16 23:03:10
1949
原创 MySQL之多表查询【详解】
MySQL之多表查询1.知识背景 实际开发中,一个项目通常需要很多张表才能完成,而这些表之间存在着某些联系。2. 表的关系介绍假设有 A 和 B 两张表,表之间的关系可以分为如下 3 种:一对多关系(One To Many)A表一行 → B表多行B表一行 → A表一行2.多对多关系(Many To Many)A表一行 → B表多行B表一行 → A表多行![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-hom
2024-11-13 21:11:21
930
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人