LLM 大模型
文章平均质量分 82
TFATS-AI
NLP大模型从业者,AGI忠实信奉者。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于Pytorch的Transformer模型代码实现
基于 Pytorch 完成 Transformer 模型代码实现。原创 2025-10-11 18:38:13 · 539 阅读 · 0 评论 -
Transformer 里的 Attention 与 Mask 总结
本文将介绍以下内容:1. Transformer 架构中的三种 Attention详解2. Transformer 架构中的三种 Mask详解3. 总结原创 2025-09-25 20:16:53 · 1026 阅读 · 0 评论 -
NLP中Subword算法:WordPiece、BPE、BBPE、SentencePiece详解以及代码实现
本文将介绍以下内容:1. Subword与传统tokenization技术的对比2. WordPiece3. Byte Pair Encoding (BPE)4. Byte-level BPE(BBPE)5. SentencePiece 以及各Subword算法代码实现原创 2025-09-17 20:19:20 · 935 阅读 · 0 评论 -
NLP Subword 之 BBPE(Byte-level BPE) 算法原理
本文将介绍以下内容:1. BBPE 算法原理2. BBPE 算法流程 2.1 构建初始词表 2.2 统计频率 2.3 合并频率最高的字节对 2.4 重复合并步骤 2.5 分词 2.6 解码3. BBPE 算法源码实现 Demo原创 2025-09-16 14:31:06 · 1118 阅读 · 0 评论 -
NLP Subword 之 BPE(Byte Pair Encoding) 算法原理
本文将介绍以下内容:1. BPE 算法核心原理2. BPE 算法流程3. BPE 算法源码实现Demo原创 2025-09-15 18:10:00 · 604 阅读 · 0 评论 -
NLP Subword 之 WordPiece 算法原理
本文介绍以下内容:1. WordPiece 与 BPE 的区别2. WordPiece 算法原理3. WordPiece 算法流程4. WordPiece 算法源码实现Demo原创 2025-09-15 17:30:21 · 906 阅读 · 0 评论 -
Nvidia GPU 明细表、架构详解
本文系统梳理了Nvidia GPU产品线及架构演进,包括Nvidai GPU 明细表、和Nvidia GPU 架构详解。原创 2025-09-12 20:03:30 · 2956 阅读 · 0 评论 -
下载葡萄牙语与英语翻译ted_hrlr_translate数据集
本文介绍了下载和转换ted_hrlr_translate数据集的方法。原创 2025-08-20 19:28:04 · 204 阅读 · 0 评论 -
Deepseek-R1 论文翻译
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,未经过监督微调(SFT)作为初步步骤,展现出卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然展现出众多强大而有趣的推理行为。然而,它面临着可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,该模型在 RL 之前结合了多阶段训练和冷启动数据。原创 2025-02-10 18:17:59 · 1885 阅读 · 0 评论 -
大模型量化之AWQ原理和应用
AWQ(Activation-aware Weight Quantization)量化是一种基于激活值分布(activation distribution)挑选显著权重(salient weight)进行量化的方法,其不依赖于任何反向传播或重建,因此可以很好地保持LLM在不同领域和模式上的泛化能力,而不会过拟合到校准集,属训练后量化(Post-Training Quantization, PTQ)大类。原创 2025-02-08 10:57:08 · 3743 阅读 · 0 评论 -
使用 vllm 搭建推理加速大模型服务
vLLM(Vectorized Large Language Model Serving System)是一个大语言模型推理加速工具。原创 2025-02-02 00:28:12 · 3237 阅读 · 0 评论 -
AIGC入门 - LLM 信息概览
**本文将介绍以下 LLM**- **OPT**- **LLaMa**- **Alpaca**- **Vicuna**- **Moss**- **chatGLM**- **Baichuan**- **Openbuddy**原创 2023-09-18 17:30:36 · 1429 阅读 · 0 评论 -
大模型 lora 训练后的权重合并
【代码】大模型 lora 训练后的权重合并。原创 2025-02-03 01:04:36 · 920 阅读 · 0 评论 -
大模型openai范式接口调用方法
url = f""role" : "user" , "content" : "随机给我一个1~10000的数字" } ] payload = {"role" : "user" , "content" : "随机给我一个1~10000的数字" } ] payload = {",if stream:if line:try:"role" : "user" , "content" : "随机给我一个1~10000的数字" } ] payload = {")else:url = f"原创 2025-02-02 19:49:52 · 2407 阅读 · 0 评论 -
使用 LLaMA-Factory 微调大模型
**本文将介绍如下内容:**- **一、搭建 Docker Container 环境**- **二、配置大模型训练环境**- **三、构建、配置数据集**- **四、训练大模型**原创 2025-01-14 20:37:06 · 1504 阅读 · 0 评论
分享