自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 大模型微调——Prompt-Tuning

Prompt-Tuning是一种针对超大规模参数模型的微调方法,通过设计合适的模板或指令(Prompt)来引导模型完成特定任务,而无需对模型所有参数进行微调。对于参数量超过10亿的模型,Prompt-Tuning的增益通常高于标准Fine-tuning。通过添加模板的方法来避免引入额外的参数,从而让模型可以在小样本(few-shot)或者零样本(zero-shot)场景下达到理想的效果。prompt-tuning执行步骤:1.构建模版(Template);2.标签词映射(3.训练。

2025-09-19 15:00:20 918

原创 模型压缩技术深度解析:量化、蒸馏与剪枝

模型压缩技术已成为深度学习实际应用的关键使能器。量化、蒸馏和剪枝作为三大支柱技术,各有特点又相辅相成。实际应用中,工程师需要根据目标硬件、性能需求和开发周期选择合适策略或组合。随着边缘计算和物联网发展,模型压缩将继续扮演重要角色,推动AI向更高效、更普惠的方向发展。

2025-09-19 14:59:53 935

原创 NLP——BERT模型全面解析:从基础架构到优化演进

BERT(Bidirectional Encoder Representations from Transformers)是由Google研究团队在2018年提出的一种基于Transformer架构的预训练语言模型,其全称为"来自Transformer的双向编码器表示"。这一革命性模型的问世,标志着自然语言处理(NLP)领域进入了一个全新的时代,极大地推动了语言理解技术的发展。在BERT出现之前,主流的语言模型如ELMo和GPT-1虽然也取得了不错的效果,但都存在明显的局限性。

2025-08-05 21:21:17 1127

原创 大模型LLM介绍

(英文:Large Language Model,缩写LLM)大型语言模型是一种基于深度学习的人工智能系统,通过分析海量文本数据学习语言模式、世界知识和推理能力。这些模型通常包含数十亿甚至数千亿个参数,能够生成类似人类的文本、回答问题、翻译语言以及执行各种与语言相关的任务。

2025-08-04 20:57:59 892

原创 NLP——Transformer

传入数据经过线性变换得到[2,4,512],通过view函数切8个头得到[2,4,8,64],通过transpose交换1和2位置得到[2,8,4,64],再经过注意力机制函数得到[2,8,4,64],再次使用transpose交换得到[2,4,8,64],最后通过view函数合并多头得到[2,4,512]送入下一线性变化。上图就是构造的一个残差块,X是输入值,F(X)是经过第一层线性变换后并且激活的输出,在第二层线性变化之后,激活之前,F(X)加入了这一层输入值X,然后再进行激活后输出。

2025-08-02 08:30:13 894

原创 LLM概念和主要类别架构(更新)

本文系统梳理了语言模型的发展历程与技术特点。首先概述了语言模型的四个发展阶段:从早期的基于规则和统计的N-gram模型,到神经网络语言模型,再到预训练语言模型(BERT、GPT等),最后演变为当前的大语言模型。其次详细分析了三类主流模型架构:自编码模型(如BERT)通过掩码语言建模理解上下文;自回归模型(如GPT)采用单向解码结构擅长文本生成;序列到序列模型(如T5)则结合编码器-解码器完成转换任务。文章还探讨了不同模型的核心参数、预训练任务、适用场景及优缺点,并针对双向注意力的低秩问题提出了解决方案。

2025-08-01 20:05:42 909

原创 GIT操作指南

在文件中构建 .git 库,其余部分是工作区。

2025-07-24 01:15:37 1015

原创 NLP——迁移学习

作为NLP工程领域常用的工具包, fasttext有两大作用:① 进行文本分类② 训练词向量概念:文本分类的是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别. 当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据。Huggingface Transformers 是基于一个开源基于 transformer 模型结构提供的预训练语言库。它支持 Pytorch,Tensorflow2.0,并且支持两个框架的相互转换。

2025-07-17 11:02:58 1392 2

原创 NLP——LSTM和GRU以及注意力机制

LSTMLSTM。

2025-07-01 21:23:10 1626

原创 NLP——RNN传统模型

注意:下面各项参数的顺序)第一个参数:input_size(输入张量x的维度)第二个参数:hidden_size(隐藏层的维度, 隐藏层的神经元个数)第三个参数:num_layer(隐藏层的数量)

2025-06-28 15:57:41 1086

原创 NLP——文本预处理(下)

1. 定义一个list,接受形容词列表# 2. 分词# 3.遍历分词结果,过滤掉非形容词# 1.构建一个WordCloud对象# 2. 把形容词列表转换成以空格分割的字符串# 3. 获取word_cloud产生的图像# 4. 使用plt展示词云plt.show()增加样本量和多样性,对数据集进行过采样。基于各种翻译接口,将文本数据翻译成另外一种语言,之后再翻译回原语言,得到新语料,完成对原数据集数据增强。

2025-06-28 10:26:57 898

原创 NLP——文本预处理(上)

文本预处理是自然语言处理(NLP)任务中的关键步骤,旨在将原始文本数据转换为适合机器学习或深度学习模型处理的结构化、干净、标准化的形式。由于自然语言具有噪声(如拼写错误、特殊符号、非结构化格式等),预处理能显著提升模型的性能和鲁棒性。

2025-06-26 11:16:47 1291

原创 自然语言处理入门

Word2Vec推动词嵌入技术,深度学习进入NLP。

2025-06-24 20:39:13 1104

原创 循环神经网络RNN

主要是通过计算机算法来理解自然语言。NLP涵盖了从文本到语音、从语音到文本的各个方面,它涉及多种技术,包括语法分析、语义理解、情感分析、机器翻译等。

2025-06-19 20:15:23 532

原创 卷积神经网络CNN

概念:包含卷积层和池化层的神经网络计算模型。组成:输入层、卷积层、激励层、池化层、全连接层。其中输入层需要输入图、视频、音频;卷积层用于提取图像特征;激励层用于激活函数;池化层用于降低卷积层特征图维度;全连接层数据是二维数据集,一张图像是1个一维向量, 有多少个值就是有多少个像素点(C*H*W)。应用于:图像分类、目标检测、面部解锁、自动驾驶等领域。

2025-06-19 19:46:13 1350

原创 神经网络基础

神经网络是深度学习计算模型,仿生生物学神经元构造。

2025-06-16 20:17:42 3116

原创 Pytorch框架——自动微分和反向传播

自动微分(Automatic Differentiation,AD)是一种利用计算机程序自动计算函数导数的技术,它是机器学习和优化算法中的核心工具(如神经网络的梯度下降)。计算梯度的目的是更新权重w和b,,其中value是梯度值,学习率需要提前指定,求导计算梯度,前面我们学过了手动求导,这次使用自动微分的方法,来简化我们的工作量。注意:1. w和b一定是可自动微分的张量,类型是浮点型,超参数requries_grad=Ture表示允许自动微分。

2025-06-13 21:01:54 503 1

原创 深度学习——pytorch框架

创建张量、转换、张量索引、形状、升降维、交换维度、拼接

2025-06-13 00:31:25 1323

原创 深度学习——简介

所有深度学习都是机器学习,但并非所有机器学习都是深度学习。在深度学习的过程中,每一层神经网络都对输入数据进行处理,从而学习到数据中的特征和模式。深度学习的关键之一是“反向传播”算法,它通过计算损失函数(即实际输出与期望输出之间的差异)并将这种误差反馈回网络的每一层,来调整每层的权重。深度学习的一个重要的概念是“特征学习”,这意味着深度学习模型能够自动发现和利用数据中的有用特征,而无需人工介入。深度学习的成功依赖于大量的数据和强大的计算能力。

2025-06-10 20:24:42 594

原创 机器学习——聚类算法

根据样本之间的相似性,将样本划分到不同的类别中的一种无监督学习算法。细节:根据样本之间的相似性,将样本划分到不同的类别中;不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。聚类算法的目的是在没有先验知识的情况下,自动发现数据集中的内在结构和模式。计算样本和样本之间的相似性,一般使用欧式距离。

2025-06-03 21:27:51 1011

原创 机器学习——集成学习

集成学习: (Ensemble Learning)是一种机器学习范式,它通过构建并结合多个模型来完成学习任务,获得更好的泛化性能。核心思想:通过组合多个弱学习器来构建一个强学习器。bagging思想:有放回的抽样;平权投票,多数表决方式决定预测结果;并行训练。boosting思想:全部样本(重点关注上一训练器不足的地方训练);加权投票的方式;串行训练。

2025-06-02 21:21:42 2619

原创 机器学习----决策树

fromimportfromimportplot_tree决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果。决策树的建立过程(三要素):1.特征选择:选择较强分类能力的特征;2.决策树的生成:根据选择的特征生成决策树;3.决策树的剪枝:决策树也容易过拟合,采用剪枝的方法缓解过拟合。

2025-06-01 00:40:01 1062

原创 逻辑回归知识点

逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计方法,尤其适用于二分类问题。混淆矩阵以及评价指标

2025-05-29 22:02:42 1421

原创 线性回归相关知识

概念:线性回归(Linear Regression)是一种用于建模和分析变量之间线性关系的统计方法。作用:通过拟合一条直线(或超平面)来描述自变量(X)与因变量(Y)之间的线性关系,从而预测或解释数据。一元线性回归(目标只与一个因变量有关):y=kx+b多元线性回归(目标与多个因变量有关):y=

2025-05-28 11:19:39 1603

原创 【KNN算法】

算法思想:如果一个样本在特征空间中的 k 个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。K值:用于获取领域中样本对目标值进行预测的样本个数。距离的度量:欧式距离:空间中两点的最短距离【各个维度之间对应值的差的平方和开根号】曼哈顿距离(城市街区距离):特点是横平竖直【各个维度之间对应值的差求和】切比雪夫距离:两点间对应坐标差值取最大值【各个维度之间对应值的差取最大值】闵氏距离:是对多个距离度量公式的概括性的表述【】

2025-05-26 00:37:10 1477

原创 机器学习概述

有特征有标签(结果驱动),出现两大问题是:分类任务(标签是离散的,函数输出有限个离散值)和回归任务(标签是连续的,函数输出连续的值)有特征无标签(数据驱动),出现问题:聚类任务,降维任务,异常检测任务…2.基于模型的学习:通过编写机器学习算法,让加器自己学习从数据中获得的规律(模型),然后进行预测。数据集划分:训练集(训练模型)和测试集(测试模型),一般对应占比8:2或者7:3。奥卡姆剃刀原则:给定两个相同泛化误差的模型,较简单的模型比较复杂的模型更可取。泛化:模型在新数据集上的表现好坏的能力。

2025-05-23 20:32:18 450

原创 数据分析处理——进阶

df对象调用apply(函数名)函数: 每个s对象依次传递到apply中函数,依次执行。transfrom(): 多个内容聚合产生多个结果,保证输出的记录数和输入的记录数一致。s对象调用apply(函数名)函数: 每个元素依次传递到apply中函数,依次执行;想输出更加清晰明了的视图,可以把分组字段2拆分出来用columns指定。如果结果是True,数据就保留;如果结果是False,数据就被过滤掉。agg(): 多个内容聚合产生一个结果。

2025-05-21 09:39:22 406

原创 数据分析中清洗填充数据

注意:缺失数据本身不等于它本身(即NaN==nan的结果是False)subset=[列,列] : 判断一行中指定列位置有缺失值就删除;how=“any” : 一行中任意列有缺失值就删除;how=“all”: 一行中所有列都是缺失值就删除。填充值数字可以是0,可以是平均数,中位数,众数等。通过导包,并使用对应方法生成图像以便可视化。依据缺失值前后数据计算的中间值结果进行填充。依据缺失值前一位数据的值进行填充。依据缺失值后一位数据的值进行填充。空的,没有任何意义的。

2025-05-20 21:10:07 523

原创 数据分析整体思路

sum(),mean(),man() ,min(),count() 不去重统计,nunique()去重统计。iloc:根据索引(从0开始)获取行列数据(df.iloc[行索引,列索引])loc:根据索引值/索引标签获取行列数据(df.loc[行标签,列标签])获取指定分组的内容:分组后df对象.get_group(“分组名”)获取每个分组中的第一条数据:分组后df对象.first()获取每个分组中的最后一条数据:分组后df对象.last()标签和索引指定的格式:单个,列表指定多个,切片指定多个;

2025-05-19 21:11:17 1397

原创 Pandas基础

本文介绍了Pandas库中的两种核心数据结构:Series和DataFrame。Series是一维数组,具有行索引,常用于表示DataFrame的列或行。DataFrame是二维表格型数据结构,包含多组有序的列,每列可以是不同的数据类型。文章详细讲解了如何创建Series和DataFrame对象,并展示了它们之间的互转操作。此外,还介绍了Series和DataFrame的常见操作,包括常用属性、方法、布尔索引和运算操作。最后,文章还涉及了DataFrame的其他操作,如索引列的指定与重置、行列标签的修改等。

2025-05-19 00:32:53 967

原创 numpy相关的知识点学习

numpy是pandas的基础,numpy结构就是一个N维数组ndarray,因为numpy只能存储同种类型数据,所以做同类型计算的时候效率远高于python本身操作。

2025-05-17 14:16:16 397

原创 PyMySQL的学习

概念:pymysql是一个纯python实现的mysql客户端库,提供了python程序中操作mysql数据库的操作。作用:我们可以通过使用程序代码的方式去连接MySQL数据库,然后对MySQL数据库进行增删改查的方式,实现超多条数据的插入,像这样使用代码的方式操作数据库就称为数据库编程。

2025-05-16 19:46:39 221

原创 MySQL函数

在MySQL中有很多内置函数,除了之前学习的聚合函数之外,还有很多其他内置函数:数值函数、字符串函数、时间日期函数、流程控制函数、加解密函数、开窗函数等。官方文档:通过HELP'函数名'查看指定函数帮助文档。

2025-05-15 20:42:08 333

原创 MySQL入门

1.数据库的作用:存储和管理数据的系统。2.分类(按数据存储形式)关系型:mysql,oracle,sqlserver,sqlite,postgresql...非关系型:hbase,mongdb,redis...3.关系型数据库存储数据的形式:以行列表格的形式存储数据。

2025-05-14 16:29:32 945

原创 数据结构和算法

数据结构:是储存和组织数据的方式,指相互之间存在一种或多种特定关系的数据元素的集合。算法:用来实现业务目标的方法和思路。二者的关系:数据结构 + 算法 = 程序,算法是为了解决实际问题而设计的,数据结构是算法需要处理问题的载体。

2025-05-12 20:26:30 2759

原创 其他Python高级语法:迭代器和生成器

1.定义:重写__iter__() 和 __next__() 这两个魔法方法的类,就是迭代器。使用 for循环 或者 next() 函数进行遍历。2.优势:支持惰性计算和高效的内存使用,适合处理大型数据集合或流数据。

2025-05-09 13:20:18 337

原创 正则表达式

正则表达式(regular expression)本质就是各种符号,通过这些符号,在大字符串中匹配、查找指定字串,它适用于多种编程语言。正则表达式的功能:① 数据验证(表单验证、如手机、邮箱、IP地址)② 数据检索(数据检索、数据抓取)③ 数据隐藏(130****1234 某先生)④ 数据过滤(论坛敏感关键词过滤)

2025-05-08 21:34:42 469

原创 多任务:多进程、多线程

是指在同一时间内执行多个任务,区别于单任务(一个执行完才能执行另一个)。

2025-05-08 20:28:45 1339

原创 网络编程(基础含拓展)

网络编程三要素包含:IP地址、端口号、协议。

2025-05-07 16:14:10 373

原创 闭包装饰器和深浅拷贝

有时需要保存函数内的这个变量,并在这个变量的基础上完成一系列的操作,所以有了闭包操作。闭包可以保存函数内的变量,而不会随着调用完函数而被销毁。

2025-05-06 09:43:14 587

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除