- 博客(22)
- 收藏
- 关注
原创 【大模型高效微调】BitFit、promp_tuning、p_tuning、prefix_tuning
(论文:BitFit: Simple Parameter-efficient Fine-tuning or Transformer-based Masked Language-models)是一种稀疏的微调方法,它训练时只更新bias的参数或者部分bias参数。对于Transformer模型而言,冻结大部分 transformer-encoder 参数,只更新bias参数跟特定任务的分类层参数。
2025-11-24 20:30:05
930
原创 【论文阅读】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
本文为在下游自然语言处理(NLP)任务中使用大语言模型(LLMs)的从业者与终端用户,提供了一份全面且实用的指南。我们将从模型、数据和下游任务三个维度,探讨 LLMs 的使用方法并分享相关见解。首先,我们将对当前主流的 GPT 类与 BERT 类大语言模型进行介绍和简要概述;其次,分析预训练数据、训练(微调)数据及测试数据对 LLMs 的影响;
2025-11-16 14:58:34
1139
原创 【论文阅读】BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation
作者使用最近提出的ELI5数据集来测试模型生成长自由格式答案的能力。我们发现BART比以前最好的工作高出1.2 ROUGE-L,但数据集仍然具有挑战性,因为答案仅由问题弱指定。
2025-11-15 12:16:09
1111
原创 【BPE】Dyte-Pair-Encoding分词算法
3.将频率最高的一对字符(或字符组合)合并为一个新的字符组合。4.重复上述步骤,直到达到预定的字词数量或者无法继续合并为止。2.在所有词中统计每两个连续字符(或字符组合)的频率。1.将词汇表的每一个词划分为单个字符。
2025-11-14 14:28:22
242
原创 【论文阅读】Improving Language Understandingby Generative Pre-Training
自然语言理解包括文本蕴涵、问题回答、语义相似度评估和文档分类等广泛的任务。尽管大量未标记的文本语料库丰富,但用于学习这些特定任务的标记数据很少,这使得判别训练模型难以充分执行。我们证明,通过在不同的未标记文本语料库上对语言模型进行生成式预训练,然后对每个特定任务进行判别性微调,可以实现这些任务的巨大收益。与以前的方法相反,我们在微调期间利用任务感知输入转换来实现有效的传输,同时需要对模型体系结构进行最小的更改。我们在自然语言理解的广泛基准上证明了我们的方法的有效性。
2025-11-13 19:41:21
950
原创 【论文阅读】BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding
我们引入了一种新的语言表示模型BERT,它代表来自transformer的双向编码器表示。与最近的语言表示模型(Peters et al., 2018a;Radford et al., 2018)不同,BERT旨在通过在所有层中对左右上下文进行联合条件反射,从未标记的文本中预训练深度双向表示。因此,预训练的BERT模型可以通过一个额外的输出层进行微调,从而为广泛的任务(如问答和语言推理)创建最先进的模型,而无需对特定于任务的架构进行大量修改。BERT在概念上简单,经验上强大。
2025-11-10 20:10:17
1064
原创 【论文阅读】Attention is all you need.
RNN,特别是LSTM和GRNN,已经被牢固地确立为序列建模和转导问题(如语言建模和机器翻译)的最新方法。从那以后,大量的努力继续推动循环语言模型和编码器-解码器体系结构的边界RNN存在的问题:1.注意机制已经成为各种任务中引人注目的序列建模和转导模型的组成部分,允许对依赖关系进行建模,而不考虑它们在输入或输出序列中的距离[2,19]。然而,在除少数情况外的所有情况下,这种注意机制都与循环网络结合使用。
2025-11-02 19:40:22
901
原创 卷积神经网络(CNN)原理
我们来通过一个例子看一下结算结果,以及参数的计算假设我们有10 个Filter,每个Filter3 X 3 X 3(计算RGB图片),并且只有一层卷积,那么参数有多少?计算:每个Filter参数个数为:333 + 1 bias = 28个权重参数,总共28 * 10 = 280个参数,即使图片任意大小,我们这层的参数也就这么多。假设一张2002003的图片,进行刚才的FIlter,步长为1,最终为了保证最后输出的大小为200 * 200,需要设置多大的零填充。
2025-08-18 17:18:58
1790
原创 工业蒸汽量预测(一)
火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。
2025-08-01 18:40:16
885
原创 【机器学习】GBDT 梯度提升决策树
梯度提升是一种迭代的机器学习算法,其核心思想是利用前一个模型的残差(即真实值与预测值之差)作为当前模型的学习目标,通过不断添加弱学习器(通常是决策树),逐步降低训练数据的损失函数值,直至达到预设的停止条件。
2025-07-09 15:52:11
186
原创 【机器学习】AdaBoost
Boosting 基本思想:第n个模型关注的是 第n-1个模型预测错误的部分,新加入一个弱学习器,整体能力就会得到提升,指定训练多少个模型 , 最终把这些模型叠加起来 得到强学习器。
2025-07-02 22:09:14
292
原创 【机器学习】集成学习
1.Bagging并行执行, 多个弱学习器解决相同的问题多个弱学习器产生的结果进行平权投票, 得到最终的结果RandomForest 随机森林2.Boosting串行执行, 小步快跑每个弱学习器解决的问题不尽相同训练第二个模型的时候, 要基于上一步的结果Adaboost (了解)3.Stacking (了解)串行过程使用不同的模型组合解决问题类似于深度学习的思路。
2025-06-29 22:32:18
304
原创 【机器学习】K-means聚类
无监督学习的算法, 跟KNN有类似的地方K: 代表 聚类的类别数量Means: 聚类过程中, 计算每一个类别的中心点时, 取每个类别中所有数据点每个维度的均值具体步骤如下:1. 随机设置K个特征空间内的点作为初始的聚类中心2. 对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别3. 接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)4. 如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程。
2025-06-28 16:36:11
208
原创 【机器学习】决策树
决策树是属于监督学习模型,既可以解决分类问题, 也可以解决回归问题,决策树模型是可解释性最强的,最终可以生成一个树状结构, 这个树状结构可以直接用于预测。
2025-06-26 21:58:21
716
原创 【机器学习】逻辑回归
目录1.逻辑回归简介2.逻辑回归概念3.混淆矩阵4.ROC曲线和AUC指标逻辑回归主要用来解决二分类问题, 也可以解决多分类 很少这么二分类问题在具体业务应用中十分常- 预测一个人会不会违约 - 预测一个人会不会点击某个物品直接去预测 这个人会点 / 不会点二分类问题, 都会转换成 概率问题 , 可以根据概率的高低进行排序, 此时模型的应用就会更加的灵活回归方程的结果输入到sigmoid函数中, 把值域变换成从0~1的区间 0~1的区间就代表概率, 当概率>某一个阈值的时候(默认是0.5) 咱们认为
2025-06-23 17:58:58
369
原创 【机器学习】线性回归API
在训练模型的时候,x,y实际上是已知的,通过模型的训练,要求的是k,b。参数训练算法,最终的目标是要求到公式中最合适的参数。y=kx+b x为房屋面积 y为房屋的价格。
2025-05-28 16:28:37
169
原创 【机器学习】概述KNN
1.人工智能,机器学习,深度学习之间的关系人工智能(AI)是通过计算机技术实现人类智能行为和思维的一种技术手段。它的应用非常广泛,包括语音识别、图像识别、自然语言处理、智能推荐等。人工智能的核心技术之一是机器学习(ML),它通过算法从数据中学习规律和模式,从而提高计算机的决策和行为能力。机器学习是人工智能的一个重要分支,旨在让计算机通过学习数据和样本来获取知识和经验。机器学习包括监督学习、无监督学习和强化学习等多种方式。监督学习用于分类和回归任务,无监督学习用于聚类分析。深度学习(DL)
2025-05-15 23:23:18
670
原创 【机器学习】线性回归
问题描述假设你是一家特许经营餐厅的首席执行官,正在考虑在不同的城市开一家新店。该连锁店在各个城市都有卡车,你可以从这些城市获得利润和人口的数据。导入所需要的库,导入ex1data1.txt文件包含线性回归问题的数据集。第一列是一个城市的人口,第二列是这个城市的餐车的利润。利润为负值表示亏损可视化数据对于这个数据集,您可以使用散点图来可视化数据,因为它只有两个属性要绘制(利润和人口)。
2024-11-07 16:21:02
1501
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅