- 博客(178)
- 资源 (11)
- 收藏
- 关注
原创 基于 NFS 的文件共享实现
摘要: NFS(Network File System)是一种网络文件系统协议,支持跨平台文件共享,允许客户端像访问本地文件一样操作远程文件。其核心特征包括跨平台兼容性、透明访问、高效传输、安全认证及灵活扩展性。搭建NFS服务需在服务端安装nfs-utils,配置共享目录(/etc/exports),启动服务后,客户端通过mount命令挂载远程目录。关键参数如rw(读写)、sync(同步写入)、hard(强制重试)等可优化性能与安全性。使用df -h验证挂载,umount卸载。适用于集群等大规模文件共享场景
2025-10-11 19:31:51
948
原创 Transformer 里的 Attention 与 Mask 总结
本文将介绍以下内容:1. Transformer 架构中的三种 Attention详解2. Transformer 架构中的三种 Mask详解3. 总结
2025-09-25 20:16:53
975
原创 NLP中Subword算法:WordPiece、BPE、BBPE、SentencePiece详解以及代码实现
本文将介绍以下内容:1. Subword与传统tokenization技术的对比2. WordPiece3. Byte Pair Encoding (BPE)4. Byte-level BPE(BBPE)5. SentencePiece 以及各Subword算法代码实现
2025-09-17 20:19:20
904
原创 看懂 Unicode 与 UTF-8 编码全过程
本文将介绍以下内容:1. Unicode 与 UTF-8 的背景2. 示例:汉字 “你” 的编码过程3. UTF-8 三字节协议的设计原因4. 总结整体代码x5. 如何快速确认文本需要几个字节表示
2025-09-16 17:33:30
1047
原创 NLP Subword 之 BBPE(Byte-level BPE) 算法原理
本文将介绍以下内容:1. BBPE 算法原理2. BBPE 算法流程 2.1 构建初始词表 2.2 统计频率 2.3 合并频率最高的字节对 2.4 重复合并步骤 2.5 分词 2.6 解码3. BBPE 算法源码实现 Demo
2025-09-16 14:31:06
1085
原创 NLP Subword 之 BPE(Byte Pair Encoding) 算法原理
本文将介绍以下内容:1. BPE 算法核心原理2. BPE 算法流程3. BPE 算法源码实现Demo
2025-09-15 18:10:00
576
原创 NLP Subword 之 WordPiece 算法原理
本文介绍以下内容:1. WordPiece 与 BPE 的区别2. WordPiece 算法原理3. WordPiece 算法流程4. WordPiece 算法源码实现Demo
2025-09-15 17:30:21
888
原创 Nvidia GPU 明细表、架构详解
本文系统梳理了Nvidia GPU产品线及架构演进,包括Nvidai GPU 明细表、和Nvidia GPU 架构详解。
2025-09-12 20:03:30
2108
原创 Deepseek-R1 论文翻译
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,未经过监督微调(SFT)作为初步步骤,展现出卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然展现出众多强大而有趣的推理行为。然而,它面临着可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,该模型在 RL 之前结合了多阶段训练和冷启动数据。
2025-02-10 18:17:59
1839
原创 大模型量化之AWQ原理和应用
AWQ(Activation-aware Weight Quantization)量化是一种基于激活值分布(activation distribution)挑选显著权重(salient weight)进行量化的方法,其不依赖于任何反向传播或重建,因此可以很好地保持LLM在不同领域和模式上的泛化能力,而不会过拟合到校准集,属训练后量化(Post-Training Quantization, PTQ)大类。
2025-02-08 10:57:08
3531
原创 大模型openai范式接口调用方法
url = f""role" : "user" , "content" : "随机给我一个1~10000的数字" } ] payload = {"role" : "user" , "content" : "随机给我一个1~10000的数字" } ] payload = {",if stream:if line:try:"role" : "user" , "content" : "随机给我一个1~10000的数字" } ] payload = {")else:url = f"
2025-02-02 19:49:52
2319
原创 使用 vllm 搭建推理加速大模型服务
vLLM(Vectorized Large Language Model Serving System)是一个大语言模型推理加速工具。
2025-02-02 00:28:12
3118
原创 使用 LLaMA-Factory 微调大模型
**本文将介绍如下内容:**- **一、搭建 Docker Container 环境**- **二、配置大模型训练环境**- **三、构建、配置数据集**- **四、训练大模型**
2025-01-14 20:37:06
1480
原创 LLM主流框架:Causal Decoder、Prefix Decoder和Encoder-Decoder
前缀语言模型可以根据给定的前缀生成后续的文本,而因果语言模型只能根据之前的文本生成后续的文本。在模型架构代表LLM注意力机制是否属于Decoder-Only纯单向YESFlan-T5输入双向NO输入双向,输出单向YES。
2024-01-12 13:12:58
8436
3
原创 什么是RoPE-旋转位置编码?
我们知道句子中不同词语之前的位置信息十分重要,但是self-attention框架无法直接利用位置信息,因此研究者提出了许多方法将位置信息编码到学习过程中。一是绝对位置编码方法,将位置信息直接加入到输入中;二是相对位置编码方法,研究者通过微调attention的结构,使它具有识别token位置信息的能力。本文作者详细梳理了位置编码的流派,提出了一种旋转位置编码方式RoPE,并从数学角度证明RoPE带来的诸多优点。
2024-01-12 11:04:22
4216
1
原创 LORA的基本原理
LoRA 是一种低资源微调大模型方法。使用LORA,训练参数仅为整体参数的万分之一、GPU显存使用量减少2/3且不会引入额外的推理耗时。
2024-01-11 16:12:27
9612
2
原创 为什么现在的LLM都是Decoder only的架构?
总而言之,decoder-only 在参数量不太大时就更具有更强的zero-shot性能、更匹配主流的自监督训练范式;而在大参数量的加持下,具有了涌现能力后、可以匹敌encoder-decoder做finetuning的效果;在In Context的环境下、又能更好地做few-shot任务。decoder-only 架构符合传统的 Language Model 的模式。
2023-09-21 13:59:43
7677
1
原创 Zero-Shot、One-shot、Few-Shot 的简介
所以模型需要知道的信息是马的样本、老虎的样本、熊猫的样本和样本的标签,以及关于前三种动物和斑马的描述。”然后,爸爸给小明安排了一个任务,让他在动物园里找一种他从没见过的动物,叫斑马,并告诉了小明有关于斑马的信息:“斑马有着马的轮廓,身上有像老虎一样的条纹,而且它像熊猫一样是黑白色的。如今十分火热的纯监督模型往往需要足够多的样本才能训练出足够好的模型,并且用熊猫训练出来的分类器,只能对熊猫进行分类,其他物种都无法识别,也无法进行特征的综合推理,这样的模型功能还有待完善。
2023-09-20 20:09:29
5113
2
原创 MHA、MQA、GQA区别和联系
MHA: Multi Head AttentionMQA:Multi Query AttentionGQA:Grouped Query Attention
2023-09-19 20:27:38
8413
1
原创 AIGC入门 - LLM 信息概览
**本文将介绍以下 LLM**- **OPT**- **LLaMa**- **Alpaca**- **Vicuna**- **Moss**- **chatGLM**- **Baichuan**- **Openbuddy**
2023-09-18 17:30:36
1412
原创 Python 的垃圾回收机制(GC-GarbageCollection)
总体来说,在Python中,主要通过引用计数进行垃圾回收;通过 “标记-清除” 解决容器对象可能产生的循环引用问题;通过 “分代回收” 以空间换时间的方法提高垃圾回收效率。
2023-03-31 15:14:55
2669
原创 使用 python 实现动态规划之最长公共子串
这道题属于动态规划中十分经典的题目,在两个字符串中找到最长的公共子串,返回其最大长度或最大字符串。
2023-03-27 15:19:32
1451
原创 模型部署之TorchScript
TorchScript是Pytorch模型(继承自nn.Module)的中间表示,保存后的torchscript模型可以在像C++这种高性能的环境中运行TorchScript是一种从PyTorch代码创建可序列化和可优化模型的方法。任何TorchScript程序都可以从Python进程中保存,并加载到没有Python依赖的进程中。简单来说,TorchScript能将动态图转为静态图,在pytorch的灵活的动态图特性下,torchscript提供了依然能够获取模型结构(模型定义)的工具。
2023-03-22 11:45:08
1961
原创 安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南
安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南。
2022-12-12 12:35:22
4843
1
原创 基于 Bert 的多任务改造
一. Bert 的多任务认识以bert为代表的预训练模型多任务可以应用在多种场景。1. 主辅任务:比如我们当前进行任务A,但是我们可以构造一个辅助任务B一起参与训练,来达到提高任务A性能的目的,比如人为的去构造一个辅助任务 MLM(Bert 预训练语言遮蔽模型)这样的辅助任务,辅助去提高任务A,线上推理时并不输出任务B的结果。2. 并行任务:本身就需要进行多个任务,比如ABC,一样重要,但任务类型相似,如果分开训练,那么就需要3个模型,此时可以尝试共享一个模型,即共享大部分参数,差异化小部分参
2022-05-07 15:34:36
2438
原创 Python 开启简易 HTTP 服务
使用 python 在 linux 环境机器中开启简易 http 的开放端口一,python 版本 <= 2.3python -c "import SimpleHTTPServer as s; s.test();" 8000二,Python 版本 >= 2.4python -m SimpleHTTPServer 8000三,Python 3.x 版本python -m http.server 8000...
2022-01-07 10:24:37
1713
原创 Docker-如何修改容器映射端口同时保留原容器
docker commit:把一个容器的文件改动和配置信息commit到一个新的镜像。把容器所有的文件改动和配置信息导入成一个新的docker镜像,然后用这个新的镜像重起一个容器,这对之前的容器不会有任何影响。可按如下步骤实现:1、停止docker容器docker stop container12、commit该docker容器docker commit container1 new_image:tag3、用前一步新生成的镜像重新起一个容器docker run --name conta.
2021-11-24 20:51:27
621
翻译 Sentence-Bert论文中英文比对翻译
Sentence-Bert论文全名: Sentence-BERT: Sentence Embeddings using Siamese BERT-NetworksSentence-Bert论文地址:https://arxiv.org/abs/1908.10084Sentence-Bert论文代码:https://github.com/UKPLab/sentence-transformersAbstractBERT (Devlin et al., 2018) and RoBERTa (Liue.
2021-11-05 17:02:46
1953
原创 手把手教你用BERT做NER命名实体识别
一,从GitHub下载Bert源码和模型关于Bert的详细介绍和如何下载此处就不再赘述了,想了解的直接查看GitHub-Bert自行了解和下载。以下地址也可直接下载。1,下载Bert代码终端执行: git clone https://github.com/google-research/bert.git2,下载中文-base模型Bert-Base中文模型地址二,下载数据三,修改processors四,修改label五,修改create_model六,修改sh文件七,修改horovod多
2021-09-18 15:53:25
7272
2
原创 linux环境中替换window换行符为linux换行符
一,错误报文:bash: $'\r': command not foundbash: $'\r': command not foundbash: $'\r': command not found/etc/bash.bashrc: line 1: $'return\r': command not found/etc/bash.bashrc: line 2: $'\r': command not found/etc/bash.bashrc: line 7: $'\r': command not fo
2021-09-04 14:10:25
5129
cnn卷积神经网络论文.zip
2021-03-01
ltp_data_v3.4.0.zip
2020-08-27
BERT Pre-training of Deep Bidirectional Transformers for Language Understanding.
2021-06-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅