自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(99)
  • 资源 (1)
  • 收藏
  • 关注

原创 3 大模型推理速度

首先我们要知道什么是大模型推理。其实,就是大模型如何输出,怎么输出,输出什么的过程。目前大模型的架构一般decoder-only架构的大模型通常采用自回归的方式生成输出语句,自回归的方式是逐token的进行输出。在每一次生成步中,大模型将过去的全部token序列作为输入,包括输入token以及刚刚生成的token,并生成下一个token。随着序列长度的增加,生过文本这一过程的时间成本也显著增加。

2025-02-10 15:57:50 817

原创 2 Text2SQL 智能报表方案介绍

因此Text-to-SQL也可以被简写为NL2SQL。·输入:自然语言问题,比如“查询表t_user的相关信息,结果按id降序排序,只保留前10个数据”·输出:SQL,比如“SELECT*FROMt_userORDERBYidDESCLIMIT10”

2025-01-20 16:15:04 3686

原创 1 基于Swarm的大模型应用:一个天气助手

本次实践主要是基于open Ai 的swarm与deepSeek模型,定制一个大模型智能体,帮助我们认识swam(多智能体写作文)以及如何使用;

2025-01-03 19:21:28 643

原创 0 大模型本地部署

首先是Agent(智能体):大模型应用中的Agent是指基于大型预训练模型开发的智能体,它们能够执行各种复杂的任务,如自然语言处理(NLP)、图像识别、语音处理等。这些Agent通常是通过深度学习框架和大量的数据进行训练,以获得对特定领域问题的理解能力和解决能力。之前对大模型介绍以及微调写了很多,但是没有一个成熟的应用案例以及体系,从现在我们一起开始基于大模型应用学习,如何落地这些大模型。这里简单介绍,后续直接上代码;

2025-01-03 18:32:00 186

原创 8 时间序列相关工具介绍

​NeuralForecast

2024-09-26 15:02:29 1089 2

原创 00 目前大模型介绍

具体来说,可以将输入文本分割成多个片段,并从中随机选取若干片段进行掩码,然后将这些掩码片段的位置打乱,形成 Part A 和 Part B 的输入。4、为了区分part A和part B的token的位置信息,GLM采用了二维位置编码,也就是每个token用两个位置id来表示,这样一来就可以将token embedding和其对应的两个position embedding相加了。我的理解是:因为被mask的片段间实际上attention是单向的,打散可以完整的捕捉到不同片段之间的依赖关系】

2024-09-11 10:05:20 1770

原创 16 训练自己语言模型

在很多场景下下,可能微调模型并不能带来一个较好的效果。因为特定领域场景下,通用话模型过于通用,出现多而不精。样样通样样松;本章主要介绍如何在特定的数据上对模型进行预训练;训练自己的语言模型(从头开始训练)与微调(fine-tuning)预训练模型之间的选择取决于多个因素,包括但不限于数据特性、任务需求、计算资源和时间成本。

2024-09-09 17:51:59 1305

原创 5 典型环境空气质量预测

20240905:今天比较搞笑的是,使用大模型的选手由于环境问题一直难以部署模型。在于官方battle,很是激烈。官方提供python3.8. 但是目前版本很难在这个环境部署比较新颖的东西,官方可能嫌麻烦不愿意更换环境。我是觉得可惜了,xgboost 对比大模型条件下,如果是我,我反正是会开一个环境给选手,给创新一点空间吧!这个比赛也是着实有趣,国内的比赛真的没法说,没啥好货,想学习东西还是去kaggle吧;值得注意的是选手当中有一个使用了大模型,我也很好奇怎么做的!使用初赛的模型,直接对新的数据推导。

2024-09-05 11:15:42 473

原创 15chatGLM3半精度微调

如果假设ChatGLM3是 ChatGLM 系列的后续版本,那么可以推测它可能是对现有 ChatGLM 模型的进一步改进和扩展。模型规模:增加模型的参数量,以提高模型的表达能力和泛化能力。架构改进:引入新的架构设计,例如更先进的注意力机制或其他创新技术,以提高模型的性能。训练数据:使用更多的训练数据,特别是高质量的对话数据,以增强模型的理解和生成能力。优化技术:采用更高效的训练方法和优化算法,以加速训练过程并提高模型的收敛速度。多模态能力。

2024-09-03 18:51:05 497 7

原创 14 大模型微调-KitTrain

但是模型本身的参数并无改变!训练是一种优化技术,主要用于减少模型训练过程中的内存占用和计算成本。这种方法通常涉及到使用低精度(如8位或更低)来存储和计算模型的权重,从而降低内存需求和加速训练过程。在深度学习领域,常见的低精度训练技术包括8位量化训练(8-bit training)和混合精度训练(Mixed Precision Training)。

2024-09-02 19:29:21 798

原创 大模型目录

目录

2024-09-01 13:57:07 346

原创 13 对话大模型微调IA3

,通过学习向量来对激活层加权进行缩放,从而获得更强的性能,同时仅引入相对少量的新参数,如下图左边所示,它的诞生背景是为了改进 LoRA。2 参数task_type。

2024-08-31 15:17:03 772

原创 12 对话模型微调2

P-Tuning 是在 Prompt-Tuning的基础上,通过新增 LSTM 或 MLP 编码模块来加速模型的收敛;

2024-08-30 19:01:50 1541

原创 11 对话模型微调

提问:其实我一直觉的数据是最费事的一个,现在都是使用别人的数据,如果对于实际场景中那么我们该如何获取处理数据呢!1 数据处理;2 模型选择,调参数;

2024-08-30 17:17:52 867

原创 10.0大模型微调 bitfit

参数高效微调方法分类。主要基于三大类方法:基于additive、基于selective和基于reparametrization-based。在additive方法中,主要两大类:adapters方法和soft prompts。additive方法,顾名思义“增量式”,通常向预训练模型添加额外的小型网络层或模块,而不直接修改原有模型的权重。这种方法能够实现在保留预训练模型通用性能的同时,针对特定任务进行优化。- 适配器是一种轻量级的神经网络层,嵌入到预训练模型的各个层之间或之内。

2024-08-30 14:44:36 1055

原创 8 大模型微调

大部分接触大模型的同学大家可能都受限于资源的限制,无法对大模型重新训练。那么如何解决这一困境?我们暂且假定大模型为通用化模型,但是在某一方面的专业领域知识却不强,如果使用专业领域知识重新训练调整,这对资源还有人力都是极大的挑战,因此为在保证资源一定的条件下得到一个效果良好的模型,我们需要最大模型进行微调,对璞玉进行细琢,得到我们想要的样子。 大型预训练模型的训练成本非常高昂,需要庞大的计算资源和大量的数据,一般人难以承受。这也导致了一些研究人员难以重复和验证先前的研究成果。为了解决这个问题,研究

2024-08-29 17:12:10 1368

原创 9 机器配置介绍

1 建议是GPU内存的两倍;如果想跑大模型,那么我们需要有自己的资源依赖,巧妇难为无米之炊;计算架八大件:个人计算机一般单卡或者双卡(GPU)Intel 系列主板:Z> B(中端) >H。3 CPU、主板、与内存的频率是否搭配;必须英伟达系列:1 RTX3090*2;型号搭配:CPU、主板的型号要搭配起来;满足:CPU功耗+GPU功耗 * 2,AMD 系列:X > B(中端)>A。性能搭配:高CPU高端主板;两个选择:单机&云服务;2 主板与内存是够搭配;双卡买1000W以上的;2 电源与机箱尺寸;

2024-08-29 11:08:58 314

原创 7 大模型的那些道道

chat-gpt、sora、sd、文心一言(GAI,生成式AI)等等,这些是大模型嘛,准确来说这些只是大模型落地的产品;“大模型”通常指的是拥有大量参数的深度学习模型;因此对计算资源要求很高,入门门槛也比较高。作为一个普通人我们能做的就是在预训练的模型基础上然后做下游任务。是我们关心的。遇到什么问题,如何解决是我们学习的方法论。

2024-08-28 14:15:21 843 2

原创 0.0 天气数据获取

天气数据

2024-08-12 13:34:14 553

原创 7.2 单变量(多->多),attention/informer

时间序列

2024-08-02 16:46:47 382 2

原创 7 时间序列单特征:多输入->多输出(LSTM/GRU/TCN)

时间序列

2024-08-02 15:38:43 803

原创 6 大模型参数计算

模型训练过程内存计算

2024-07-31 11:15:11 729

原创 11 优化器

昨天在计算大模型微调占用内存,然后看到优化器Adam占用两倍的模型参数(一阶矩、二阶矩),仔细思考没想明白,今天把优化器的内容补充下;优化器在机器学习和深度学习中扮演着至关重要的角色,它们负责更新模型的参数以最小化损失函数。优化器基于训练数据和模型预测的误差,调整模型参数,使模型更好地拟合数据。

2024-07-31 10:53:25 995

原创 5 检索机器人

检索机器人:从文库中得到答案

2024-07-30 15:59:38 935

原创 7 电力需求预测挑战赛 baseline

MLP的使用

2024-07-30 13:46:15 206

原创 10 BERT

BERT介绍

2024-07-29 19:03:52 939

原创 9 传统时间序列模型

传统机器学习时间序列模型

2024-07-26 11:04:14 1189

原创 2 YOLO8的使用

yolo8

2024-07-24 22:34:08 1217

原创 1 LableMe安装下载

labelme

2024-07-24 15:25:07 606

原创 6 回归集成:xgb、lgb、cat

【代码】6 回归集成:xgb、lgb、cat。

2024-07-19 10:19:11 363

原创 7.2 多维动态规划

多维动态规划是动态规划的一个扩展,它处理的问题通常具有多个维度的状态空间。之所以 dp[i][j] 的定义不是 text1[0:i] 和 text2[0:j] ,是为了方便当 i = 0 或者 j = 0 的时候,dp[i][j]表示的为空字符串和另外一个字符串的匹配,这样 dp[i][j] 可以初始化为 0.- 这通常涉及到一个递推关系,比如 `dp[i][j][k] = min(dp[i-1][j][k], dp[i][j-1][k], dp[i][j][k-1]) + cost(i, j, k)`。

2024-07-18 11:03:07 1015

原创 5 时间特征处理、参数选择

时间特征处理

2024-07-11 14:53:32 456

原创 5 科大讯飞AI大赛:热力学定律的电池材料生产参数动态调控

数据挖掘比赛案例

2024-07-10 10:58:00 421

原创 4 回归: 比赛代码,时间窗口特征

这是2024科大讯飞电力需求预测挑战赛的baseline。看到了不错的代码我就想收集一下。里获取更多比赛的baseline。目前该baseline在比赛中相对靠前。1 sin、cos函数有什么用?3 彩蛋:有可能时间序列模型更好用哦!2 历史特征、时间窗口;

2024-07-08 15:24:15 441

原创 7.1 动态规划背包问题综述

动态规划中的背包问题是一类经典的优化问题,主要涉及到在给定的限制条件下(如背包容量),如何选择物品集合以达到某种最优目标(如价值最大)。这类问题通常可以细分为几种类型,包括0-1背包问题、完全背包问题、多重背包问题以及分数背包问题。

2024-07-05 10:29:35 881

原创 7 动态规划

动态规划解决问题

2024-07-03 15:50:35 1208 1

原创 6 矩阵相关案例

矩阵:螺旋矩阵

2024-07-01 20:10:27 836

原创 5 数组相关操作:

给你一个整数数组nums,请你找出一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。是数组中的一个连续部分。6连续子数组 [4,-1,2,1] 的和最大,为 6。nums = [1]123思考:1 这个题目有点印象否,连续自数组,可以使用前缀和求解,不过这个要O(N**2);2 动态规划。分析题目,只要求解最大连续子数组的和,那么我们就把所有访问到当前位置的最大连续子数据保存下来,存放在cum_sums = [];nums[0]什么意思?

2024-06-30 14:54:25 335

原创 4 第三届“数智港航”数据创新应用大赛——算法模型赛道“船舶装卸货量预测”

目前排名还好TOP10,希望最后能得到一个好结果吧!感受:这个比赛我也是服了,总是在改变;2 特征也很少,可做的东西就更少了;我觉得上分的点就在如何搞更多的模型;1 数据太少,导致很抖,很野鸡;

2024-06-28 18:00:48 359

原创 4 前缀和、双端队列使用:子串

前缀和、双端队列

2024-06-28 14:21:40 644

有关自然语言理解情感分类任务相关的数据集合

有关自然语言理解情感分类任务相关的数据集合

2023-11-29

数据: 2023“SEED”第四届江苏大数据开发与应用大赛-新能源赛道的数据

数据: 2023“SEED”第四届江苏大数据开发与应用大赛-新能源赛道的数据

2023-11-27

linux-jdk-1.7+hadoop-eclipse-plugin2.6.0.zip

通过hadoop2x-eclipse-plugin-master编译器自己编译的hadoop-eclipse-plugin-2.6.0.jar文件

2019-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除