TFATS-AI-优快云博客

原创 Nvidia H100 算力服务器 Cuda、FabricManager、Container 安装和升级

本文介绍了在Ubuntu 22.04系统上安装NVIDIA显卡驱动的详细步骤。首先确保系统环境更新至最新版本，检查显卡型号并彻底卸载旧驱动。重点说明了如何禁用系统自带的nouveau驱动以避免冲突。提供两种安装方法：系统推荐安装（自动选择版本）和指定版本安装（需手动下载驱动包），均包含必要的依赖安装和权限设置。最后强调安装完成后需重启系统，并附带了NVIDIA Fabric Manager的部署说明。文中包含完整的命令行操作和参数解释，适用于H100等NVIDIA显卡的驱动安装场景。

2025-12-18 21:08:36 1343

原创基于 NFS 的文件共享实现

摘要： NFS（Network File System）是一种网络文件系统协议，支持跨平台文件共享，允许客户端像访问本地文件一样操作远程文件。其核心特征包括跨平台兼容性、透明访问、高效传输、安全认证及灵活扩展性。搭建NFS服务需在服务端安装nfs-utils，配置共享目录（/etc/exports），启动服务后，客户端通过mount命令挂载远程目录。关键参数如rw（读写）、sync（同步写入）、hard（强制重试）等可优化性能与安全性。使用df -h验证挂载，umount卸载。适用于集群等大规模文件共享场景

2025-10-11 19:31:51 990

原创基于Pytorch的Transformer模型代码实现

基于 Pytorch 完成 Transformer 模型代码实现。

2025-10-11 18:38:13 547

原创 Transformer 里的 Attention 与 Mask 总结

本文将介绍以下内容：1. Transformer 架构中的三种 Attention详解2. Transformer 架构中的三种 Mask详解3. 总结

2025-09-25 20:16:53 1058

原创 NLP中Subword算法：WordPiece、BPE、BBPE、SentencePiece详解以及代码实现

本文将介绍以下内容：1. Subword与传统tokenization技术的对比2. WordPiece3. Byte Pair Encoding (BPE)4. Byte-level BPE(BBPE)5. SentencePiece 以及各Subword算法代码实现

2025-09-17 20:19:20 952

原创看懂 Unicode 与 UTF-8 编码全过程

本文将介绍以下内容：1. Unicode 与 UTF-8 的背景2. 示例：汉字 “你” 的编码过程3. UTF-8 三字节协议的设计原因4. 总结整体代码x5. 如何快速确认文本需要几个字节表示

2025-09-16 17:33:30 1127

原创 NLP Subword 之 BBPE(Byte-level BPE) 算法原理

本文将介绍以下内容：1. BBPE 算法原理2. BBPE 算法流程 2.1 构建初始词表 2.2 统计频率 2.3 合并频率最高的字节对 2.4 重复合并步骤 2.5 分词 2.6 解码3. BBPE 算法源码实现 Demo

2025-09-16 14:31:06 1138

原创 NLP Subword 之 BPE(Byte Pair Encoding) 算法原理

本文将介绍以下内容：1. BPE 算法核心原理2. BPE 算法流程3. BPE 算法源码实现Demo

2025-09-15 18:10:00 616

原创 NLP Subword 之 WordPiece 算法原理

本文介绍以下内容：1. WordPiece 与 BPE 的区别2. WordPiece 算法原理3. WordPiece 算法流程4. WordPiece 算法源码实现Demo

2025-09-15 17:30:21 918

原创 Nvidia GPU 明细表、架构详解

本文系统梳理了Nvidia GPU产品线及架构演进，包括Nvidai GPU 明细表、和Nvidia GPU 架构详解。

2025-09-12 20:03:30 3265

原创下载葡萄牙语与英语翻译ted_hrlr_translate数据集

本文介绍了下载和转换ted_hrlr_translate数据集的方法。

2025-08-20 19:28:04 214

原创 Deepseek-R1 论文翻译

我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习（RL）训练的模型，未经过监督微调（SFT）作为初步步骤，展现出卓越的推理能力。通过 RL，DeepSeek-R1-Zero 自然展现出众多强大而有趣的推理行为。然而，它面临着可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能，我们引入了 DeepSeek-R1，该模型在 RL 之前结合了多阶段训练和冷启动数据。

2025-02-10 18:17:59 1925

原创大模型量化之AWQ原理和应用

AWQ（Activation-aware Weight Quantization）量化是一种基于激活值分布(activation distribution)挑选显著权重(salient weight)进行量化的方法，其不依赖于任何反向传播或重建，因此可以很好地保持LLM在不同领域和模式上的泛化能力，而不会过拟合到校准集，属训练后量化(Post-Training Quantization, PTQ)大类。

2025-02-08 10:57:08 3846

原创大模型 lora 训练后的权重合并

【代码】大模型 lora 训练后的权重合并。

2025-02-03 01:04:36 955

原创大模型openai范式接口调用方法

url = f""role" : "user" , "content" : "随机给我一个1～10000的数字" } ] payload = {"role" : "user" , "content" : "随机给我一个1～10000的数字" } ] payload = {",if stream:if line:try:"role" : "user" , "content" : "随机给我一个1～10000的数字" } ] payload = {")else:url = f"

2025-02-02 19:49:52 2462

原创使用 vllm 搭建推理加速大模型服务

vLLM（Vectorized Large Language Model Serving System）是一个大语言模型推理加速工具。

2025-02-02 00:28:12 3299

原创使用 LLaMA-Factory 微调大模型

**本文将介绍如下内容：**- **一、搭建 Docker Container 环境**- **二、配置大模型训练环境**- **三、构建、配置数据集**- **四、训练大模型**

2025-01-14 20:37:06 1519

原创 NGC容器中快速搭建Jupyter环境

【代码】NGC容器中快速搭建Jupyter环境。

2025-01-14 00:34:21 737

原创 LLM主流框架：Causal Decoder、Prefix Decoder和Encoder-Decoder

前缀语言模型可以根据给定的前缀生成后续的文本，而因果语言模型只能根据之前的文本生成后续的文本。在模型架构代表LLM注意力机制是否属于Decoder-Only纯单向YESFlan-T5输入双向NO输入双向，输出单向YES。

2024-01-12 13:12:58 8533 3

原创什么是RoPE-旋转位置编码？

我们知道句子中不同词语之前的位置信息十分重要，但是self-attention框架无法直接利用位置信息，因此研究者提出了许多方法将位置信息编码到学习过程中。一是绝对位置编码方法，将位置信息直接加入到输入中；二是相对位置编码方法，研究者通过微调attention的结构，使它具有识别token位置信息的能力。本文作者详细梳理了位置编码的流派，提出了一种旋转位置编码方式RoPE，并从数学角度证明RoPE带来的诸多优点。

2024-01-12 11:04:22 4382 2

原创 LORA的基本原理

LoRA 是一种低资源微调大模型方法。使用LORA，训练参数仅为整体参数的万分之一、GPU显存使用量减少2/3且不会引入额外的推理耗时。

2024-01-11 16:12:27 9718 2

原创大模型 Decoder 的生成策略

Greedy Search、beam search、Sampling、Top-K、Top-p

2023-10-02 17:03:26 3411 1

原创为什么现在的LLM都是Decoder only的架构？

总而言之，decoder-only 在参数量不太大时就更具有更强的zero-shot性能、更匹配主流的自监督训练范式；而在大参数量的加持下，具有了涌现能力后、可以匹敌encoder-decoder做finetuning的效果；在In Context的环境下、又能更好地做few-shot任务。decoder-only 架构符合传统的 Language Model 的模式。

2023-09-21 13:59:43 7863 1

原创 Zero-Shot、One-shot、Few-Shot 的简介

所以模型需要知道的信息是马的样本、老虎的样本、熊猫的样本和样本的标签，以及关于前三种动物和斑马的描述。”然后，爸爸给小明安排了一个任务，让他在动物园里找一种他从没见过的动物，叫斑马，并告诉了小明有关于斑马的信息：“斑马有着马的轮廓，身上有像老虎一样的条纹，而且它像熊猫一样是黑白色的。如今十分火热的纯监督模型往往需要足够多的样本才能训练出足够好的模型，并且用熊猫训练出来的分类器，只能对熊猫进行分类，其他物种都无法识别，也无法进行特征的综合推理，这样的模型功能还有待完善。

2023-09-20 20:09:29 5197 2

原创 GPT，GPT-2，GPT-3，InstructGPT的进化之路

GPT、GPT2、GPT3、InstructGPT 的进阶之路。

2023-09-20 15:58:24 2503 1

原创 MHA、MQA、GQA区别和联系

MHA： Multi Head AttentionMQA：Multi Query AttentionGQA：Grouped Query Attention

2023-09-19 20:27:38 8777 1

原创 AIGC入门 - LLM 信息概览

**本文将介绍以下 LLM**- **OPT**- **LLaMa**- **Alpaca**- **Vicuna**- **Moss**- **chatGLM**- **Baichuan**- **Openbuddy**

2023-09-18 17:30:36 1442

原创 Python 的垃圾回收机制(GC-GarbageCollection)

总体来说，在Python中，主要通过引用计数进行垃圾回收；通过 “标记-清除” 解决容器对象可能产生的循环引用问题；通过 “分代回收” 以空间换时间的方法提高垃圾回收效率。

2023-03-31 15:14:55 2720

原创使用 python 实现动态规划之最长公共子串

这道题属于动态规划中十分经典的题目，在两个字符串中找到最长的公共子串，返回其最大长度或最大字符串。

2023-03-27 15:19:32 1484

原创模型部署之TorchScript

TorchScript是Pytorch模型（继承自nn.Module）的中间表示，保存后的torchscript模型可以在像C++这种高性能的环境中运行TorchScript是一种从PyTorch代码创建可序列化和可优化模型的方法。任何TorchScript程序都可以从Python进程中保存，并加载到没有Python依赖的进程中。简单来说，TorchScript能将动态图转为静态图，在pytorch的灵活的动态图特性下，torchscript提供了依然能够获取模型结构(模型定义)的工具。

2023-03-22 11:45:08 1998

原创 A30、V100性能测试对比报告

共压80000数据，同时请求500数据。

2023-03-22 11:21:25 11073

原创 Bert-Ner在TensorRT推理中选择不同输出时的性能差异

2023-03-22 10:39:52 249

原创安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南

安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南。

2022-12-12 12:35:22 4923 1

原创升级 GPU 服务器 cuda 驱动版本指南

升级 GPU 服务器 cuda 驱动版本指南。

2022-08-19 15:09:16 5971 3

原创宿主机搭建 Airflow 环境指引

宿主机中搭建 airflow 环境指引

2022-07-24 16:50:10 1301 1

原创基于 Bert 的多任务改造

一. Bert 的多任务认识以bert为代表的预训练模型多任务可以应用在多种场景。1. 主辅任务：比如我们当前进行任务A，但是我们可以构造一个辅助任务B一起参与训练，来达到提高任务A性能的目的，比如人为的去构造一个辅助任务 MLM（Bert 预训练语言遮蔽模型）这样的辅助任务，辅助去提高任务A，线上推理时并不输出任务B的结果。2. 并行任务：本身就需要进行多个任务，比如ABC，一样重要，但任务类型相似，如果分开训练，那么就需要3个模型，此时可以尝试共享一个模型，即共享大部分参数，差异化小部分参

2022-05-07 15:34:36 2483

原创 Python 开启简易 HTTP 服务

使用 python 在 linux 环境机器中开启简易 http 的开放端口一，python 版本 <= 2.3python -c "import SimpleHTTPServer as s; s.test();" 8000二，Python 版本 >= 2.4python -m SimpleHTTPServer 8000三，Python 3.x 版本python -m http.server 8000...

2022-01-07 10:24:37 1727

原创 Docker-如何修改容器映射端口同时保留原容器

docker commit：把一个容器的文件改动和配置信息commit到一个新的镜像。把容器所有的文件改动和配置信息导入成一个新的docker镜像，然后用这个新的镜像重起一个容器，这对之前的容器不会有任何影响。可按如下步骤实现：1、停止docker容器docker stop container12、commit该docker容器docker commit container1 new_image:tag3、用前一步新生成的镜像重新起一个容器docker run --name conta.

2021-11-24 20:51:27 640

翻译 Sentence-Bert论文中英文比对翻译

Sentence-Bert论文全名: Sentence-BERT: Sentence Embeddings using Siamese BERT-NetworksSentence-Bert论文地址：https://arxiv.org/abs/1908.10084Sentence-Bert论文代码：https://github.com/UKPLab/sentence-transformersAbstractBERT (Devlin et al., 2018) and RoBERTa (Liue.

2021-11-05 17:02:46 1998

原创手把手教你用BERT做NER命名实体识别

一，从GitHub下载Bert源码和模型关于Bert的详细介绍和如何下载此处就不再赘述了，想了解的直接查看GitHub-Bert自行了解和下载。以下地址也可直接下载。1，下载Bert代码终端执行： git clone https://github.com/google-research/bert.git2，下载中文-base模型Bert-Base中文模型地址二，下载数据三，修改processors四，修改label五，修改create_model六，修改sh文件七，修改horovod多

2021-09-18 15:53:25 7318 2

大模型、机器翻译、葡萄牙语与英语翻译数据

适合深入剖析大模型Transformer模型结构，基于葡萄牙语与英语翻译数据的机器翻译任务。

2025-08-20

NLP - glue 数据集

2022-04-12

shakespeare.zip

莎士比亚数据集

2021-06-16

ted_hrlr_translate.zip

pt_to_en葡萄语和英语互翻数据

2021-06-21

tensorflow_datasets.zip

葡萄牙语和英语互翻数据

2021-06-21

cnn卷积神经网络论文.zip

cnn卷积神经网络的八篇最经典论文 AlexNet：NIPS-2012-imagenet-classification-with-deep-convolutional-neural-networks-Paper VGG：Very-Deep-Convolutional-Networks-for-Large-Scale-Image-Recognition NIN：network-in-network ResNet：Deep-Residual-Learning-for-Image-Recognition InceptionV1-V4 MobileNet：Efficient-ConVolutinal-Neural-Networks-for-Mobile-Vision NASNet：Learning-Transferable Architectures-for-Scalable-Image-Recognition ShakeShake：Shake-Shake-regularization

2021-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

大模型、机器翻译、葡萄牙语与英语翻译数据

NLP - glue 数据集

shakespeare.zip

ted_hrlr_translate.zip

tensorflow_datasets.zip

cnn卷积神经网络论文.zip

ltp_data_v3.4.0.zip

ner_data.zip

TRANSFORMER.zip

BERT Pre-training of Deep Bidirectional Transformers for Language Understanding.

data_spa_en.zip

空空如也