- 博客(168)
- 资源 (11)
- 收藏
- 关注
原创 Deepseek-R1 论文翻译
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,未经过监督微调(SFT)作为初步步骤,展现出卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然展现出众多强大而有趣的推理行为。然而,它面临着可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,该模型在 RL 之前结合了多阶段训练和冷启动数据。
2025-02-10 18:17:59
1285
原创 大模型量化之AWQ原理和应用
AWQ(Activation-aware Weight Quantization)量化是一种基于激活值分布(activation distribution)挑选显著权重(salient weight)进行量化的方法,其不依赖于任何反向传播或重建,因此可以很好地保持LLM在不同领域和模式上的泛化能力,而不会过拟合到校准集,属训练后量化(Post-Training Quantization, PTQ)大类。
2025-02-08 10:57:08
1697
原创 大模型openai范式接口调用方法
url = f""role" : "user" , "content" : "随机给我一个1~10000的数字" } ] payload = {"role" : "user" , "content" : "随机给我一个1~10000的数字" } ] payload = {",if stream:if line:try:"role" : "user" , "content" : "随机给我一个1~10000的数字" } ] payload = {")else:url = f"
2025-02-02 19:49:52
1169
原创 使用 vllm 搭建推理加速大模型服务
vLLM(Vectorized Large Language Model Serving System)是一个大语言模型推理加速工具。
2025-02-02 00:28:12
2094
原创 使用 LLaMA-Factory 微调大模型
**本文将介绍如下内容:**- **一、搭建 Docker Container 环境**- **二、配置大模型训练环境**- **三、构建、配置数据集**- **四、训练大模型**
2025-01-14 20:37:06
1203
原创 LLM主流框架:Causal Decoder、Prefix Decoder和Encoder-Decoder
前缀语言模型可以根据给定的前缀生成后续的文本,而因果语言模型只能根据之前的文本生成后续的文本。在模型架构代表LLM注意力机制是否属于Decoder-Only纯单向YESFlan-T5输入双向NO输入双向,输出单向YES。
2024-01-12 13:12:58
7417
3
原创 什么是RoPE-旋转位置编码?
我们知道句子中不同词语之前的位置信息十分重要,但是self-attention框架无法直接利用位置信息,因此研究者提出了许多方法将位置信息编码到学习过程中。一是绝对位置编码方法,将位置信息直接加入到输入中;二是相对位置编码方法,研究者通过微调attention的结构,使它具有识别token位置信息的能力。本文作者详细梳理了位置编码的流派,提出了一种旋转位置编码方式RoPE,并从数学角度证明RoPE带来的诸多优点。
2024-01-12 11:04:22
3647
1
原创 LORA的基本原理
LoRA 是一种低资源微调大模型方法。使用LORA,训练参数仅为整体参数的万分之一、GPU显存使用量减少2/3且不会引入额外的推理耗时。
2024-01-11 16:12:27
9004
2
原创 为什么现在的LLM都是Decoder only的架构?
总而言之,decoder-only 在参数量不太大时就更具有更强的zero-shot性能、更匹配主流的自监督训练范式;而在大参数量的加持下,具有了涌现能力后、可以匹敌encoder-decoder做finetuning的效果;在In Context的环境下、又能更好地做few-shot任务。decoder-only 架构符合传统的 Language Model 的模式。
2023-09-21 13:59:43
6399
1
原创 Zero-Shot、One-shot、Few-Shot 的简介
所以模型需要知道的信息是马的样本、老虎的样本、熊猫的样本和样本的标签,以及关于前三种动物和斑马的描述。”然后,爸爸给小明安排了一个任务,让他在动物园里找一种他从没见过的动物,叫斑马,并告诉了小明有关于斑马的信息:“斑马有着马的轮廓,身上有像老虎一样的条纹,而且它像熊猫一样是黑白色的。如今十分火热的纯监督模型往往需要足够多的样本才能训练出足够好的模型,并且用熊猫训练出来的分类器,只能对熊猫进行分类,其他物种都无法识别,也无法进行特征的综合推理,这样的模型功能还有待完善。
2023-09-20 20:09:29
4333
2
原创 MHA、MQA、GQA区别和联系
MHA: Multi Head AttentionMQA:Multi Query AttentionGQA:Grouped Query Attention
2023-09-19 20:27:38
6314
1
原创 AIGC入门 - LLM 信息概览
**本文将介绍以下 LLM**- **OPT**- **LLaMa**- **Alpaca**- **Vicuna**- **Moss**- **chatGLM**- **Baichuan**- **Openbuddy**
2023-09-18 17:30:36
1204
原创 Python 的垃圾回收机制(GC-GarbageCollection)
总体来说,在Python中,主要通过引用计数进行垃圾回收;通过 “标记-清除” 解决容器对象可能产生的循环引用问题;通过 “分代回收” 以空间换时间的方法提高垃圾回收效率。
2023-03-31 15:14:55
2439
原创 使用 python 实现动态规划之最长公共子串
这道题属于动态规划中十分经典的题目,在两个字符串中找到最长的公共子串,返回其最大长度或最大字符串。
2023-03-27 15:19:32
1205
原创 模型部署之TorchScript
TorchScript是Pytorch模型(继承自nn.Module)的中间表示,保存后的torchscript模型可以在像C++这种高性能的环境中运行TorchScript是一种从PyTorch代码创建可序列化和可优化模型的方法。任何TorchScript程序都可以从Python进程中保存,并加载到没有Python依赖的进程中。简单来说,TorchScript能将动态图转为静态图,在pytorch的灵活的动态图特性下,torchscript提供了依然能够获取模型结构(模型定义)的工具。
2023-03-22 11:45:08
1719
原创 安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南
安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南。
2022-12-12 12:35:22
4303
1
原创 基于 Bert 的多任务改造
一. Bert 的多任务认识以bert为代表的预训练模型多任务可以应用在多种场景。1. 主辅任务:比如我们当前进行任务A,但是我们可以构造一个辅助任务B一起参与训练,来达到提高任务A性能的目的,比如人为的去构造一个辅助任务 MLM(Bert 预训练语言遮蔽模型)这样的辅助任务,辅助去提高任务A,线上推理时并不输出任务B的结果。2. 并行任务:本身就需要进行多个任务,比如ABC,一样重要,但任务类型相似,如果分开训练,那么就需要3个模型,此时可以尝试共享一个模型,即共享大部分参数,差异化小部分参
2022-05-07 15:34:36
2161
原创 Python 开启简易 HTTP 服务
使用 python 在 linux 环境机器中开启简易 http 的开放端口一,python 版本 <= 2.3python -c "import SimpleHTTPServer as s; s.test();" 8000二,Python 版本 >= 2.4python -m SimpleHTTPServer 8000三,Python 3.x 版本python -m http.server 8000...
2022-01-07 10:24:37
1674
原创 Docker-如何修改容器映射端口同时保留原容器
docker commit:把一个容器的文件改动和配置信息commit到一个新的镜像。把容器所有的文件改动和配置信息导入成一个新的docker镜像,然后用这个新的镜像重起一个容器,这对之前的容器不会有任何影响。可按如下步骤实现:1、停止docker容器docker stop container12、commit该docker容器docker commit container1 new_image:tag3、用前一步新生成的镜像重新起一个容器docker run --name conta.
2021-11-24 20:51:27
520
翻译 Sentence-Bert论文中英文比对翻译
Sentence-Bert论文全名: Sentence-BERT: Sentence Embeddings using Siamese BERT-NetworksSentence-Bert论文地址:https://arxiv.org/abs/1908.10084Sentence-Bert论文代码:https://github.com/UKPLab/sentence-transformersAbstractBERT (Devlin et al., 2018) and RoBERTa (Liue.
2021-11-05 17:02:46
1696
原创 手把手教你用BERT做NER命名实体识别
一,从GitHub下载Bert源码和模型关于Bert的详细介绍和如何下载此处就不再赘述了,想了解的直接查看GitHub-Bert自行了解和下载。以下地址也可直接下载。1,下载Bert代码终端执行: git clone https://github.com/google-research/bert.git2,下载中文-base模型Bert-Base中文模型地址二,下载数据三,修改processors四,修改label五,修改create_model六,修改sh文件七,修改horovod多
2021-09-18 15:53:25
7002
2
原创 linux环境中替换window换行符为linux换行符
一,错误报文:bash: $'\r': command not foundbash: $'\r': command not foundbash: $'\r': command not found/etc/bash.bashrc: line 1: $'return\r': command not found/etc/bash.bashrc: line 2: $'\r': command not found/etc/bash.bashrc: line 7: $'\r': command not fo
2021-09-04 14:10:25
4782
原创 基于TensorFlow1使用Horovod实现BERT在单节点上的多GPU卡训练
一,下载从github中下载tensorflow1版本的bert代码和预训练模型1,下载bert代码地址:google-research/bert2,下载预训练模型,此处可选择bert-base中文版本,如下图:3,如官网所示创建执行脚本-方便传参,如下图所示:二,修改创建执行脚本根据机器的GPU个数,Horovod运行多卡训练gpu_num=$(nvidia-smi --query-gpu=name --format=csv,noheader | wc -l)horovodrun
2021-09-01 15:48:49
1017
1
原创 Linux中使用Docker快速搭建Tensorflow-Gpu开发环境
本文将介绍:如何找到所需要的Tensorflow-GPU镜像在Linux终端中拉取镜像、查看本地镜像使用Docker构建Tensorflow-Gpu环境配置jupyter外部访问映射检查是否是GPU环境一,下载Tensorflow镜像1,找到所需要的Tensorflow镜像百度搜索nvidia ngc进入NVIDIA GPU 加速容器,找到所需版本的Tensorflow镜像,并copy 其对应的 pull tag。2,在Linux终端中拉取镜像docker pull nvcr.io/
2021-08-26 11:21:00
2844
原创 分类指标:准确率、精确率、召回率、F1 score以及ROC、AUC、宏平均、加权平均
本文将介绍:混淆矩阵(Confusion Matrix)准确率(accuracy)召回率(recall)精确率(precision)F1scoreROC和AUC宏平均(macro avg)微平均(micro avg)加权平均(weighted avg)一,混淆矩阵(Confusion Matrix)在n分类模型中,使用n行n列的矩阵形式来表示精度,纵列代表n个分类,在每行中的n个数据代表分别预测在每个类别的个数,完美的预测应该是一个列序数=行中有数据的索引数的一条斜线。TP:
2021-06-29 15:32:00
10050
原创 理解BERT模型理论
BERT 模型是 Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的一项技术。在 11 个NLP 领域的任务上都刷新了以往的记录,例如GLUE,SquAD1.1,MultiNLI 等。一,BERT整体概述1,前言Google 在论文《BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding》中提出了 BERT 模型,BERT 模型主要利用了 Tran.
2021-06-24 16:07:10
1945
原创 Keras(三十四)Transformer模型代码实现
一,加载数据0,导入深度学习包import matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npimport sklearnimport pandas as pdimport osimport sysimport timeimport tensorflow as tffrom tensorflow import kerasprint(tf.__version__)print(sys.version_i
2021-06-21 16:51:48
7308
5
原创 Keras(三十三)Transformer模型总体架构和理论
本文将介绍:Transformer论文地址及论文翻译地址Seq2seq+attention和Transformer对比Transformer模型结构图例Encoder-Decoder架构缩放点积注意力多头注意力位置编码Add&NormalizeDecoding过程一,Transformer论文地址及论文翻译地址二,Seq2seq+attention和Transformer对比三,Transformer模型结构图例四,Encoder-Decoder架构五,缩放点积注意力
2021-06-17 18:59:18
2844
2
原创 Keras(三十一)seq2seq+attention模型理论
一,原始的seq2seq如下入所示,seq2seq模型包含 Encoder和Decoder两部分,分别为RNN模型或其变种LSTM等模型,Encoder输出S隐含状态,该隐藏状态和NU输入到
2021-06-16 18:24:41
1127
原创 Keras(三十)使用LSTM实现文本生成
一,处理数据1,加载训练数据# https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txtinput_filepath = "./shakespeare.txt"text = open(input_filepath, 'r').read()print(len(text))print(text[0:100])2,生成词库"""# 1. generate vocab# 2. build mappin
2021-06-16 17:46:53
1145
原创 Keras(二十九)LSTM文本分类
一,从keras数据集imdb中加载影评数据imdb = keras.datasets.imdbvocab_size = 10000 # 出现词频由高到低, 截取前10000个词组,其余按特殊字符处理index_from = 3 # 截取的单词和对应索引,向后平移3个单位(train_data, train_labels), (test_data, test_labels) = imdb.load_data( num_words = vocab_size, index_from = in
2021-06-16 16:49:37
1228
BERT Pre-training of Deep Bidirectional Transformers for Language Understanding.
2021-06-24
cnn卷积神经网络论文.zip
2021-03-01
ltp_data_v3.4.0.zip
2020-08-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人