愤怒的可乐
主要研究NLP、深度学习、大模型。
展开
-
Llama改进之——分组查询注意力
本文介绍了分组查询注意力的实现以及如何应用旋转位置编码到分组查询注意力上。原创 2024-05-31 18:26:29 · 3736 阅读 · 1 评论 -
Llama改进之——RoPE旋转位置编码
旋转位置编码从理论到实战。原创 2024-05-29 18:30:32 · 2090 阅读 · 0 评论 -
Llama改进之——SwiGLU激活函数
本文介绍如何实现SwiGLU。原创 2024-05-04 14:54:44 · 13238 阅读 · 0 评论 -
Llama改进之——均方根层归一化RMSNorm
本文介绍Llama模型引入的均方根层归一化改进。原创 2024-04-23 22:11:48 · 17894 阅读 · 3 评论 -
GPT2从放弃到入门(四)
本文介绍如何将模型转换为ONNX,并在HuggingFace的Spaces上部署提供给大家访问。原创 2024-03-26 22:49:52 · 1536 阅读 · 1 评论 -
GPT2从放弃到入门(三)
本文介绍文本生成中一些基本方法的原理:温度、TopK、TopP等。这些方法通常可以组合在一起使用。原创 2024-03-23 13:54:40 · 1026 阅读 · 12 评论 -
GPT2从放弃到入门(二)
本文介绍如何利用GPT2从零训练一个多轮对话聊天机器人,按照本文的思路可以轻松地训练自己的数据。原创 2024-03-21 20:35:40 · 1415 阅读 · 0 评论 -
[论文笔记]LLaMA: Open and Efficient Foundation Language Models
⭐ 作者提出了LLaMMA系列模型,可以说天不生LLaMMA,开源大模型万古如黑夜。比较详细的介绍了模型实现细节,重要的是开源了实现代码。除了提供了在模型实现优化上的思路外,还给出了提高训练(推理)效率的方法。原创 2024-03-14 20:33:11 · 2152 阅读 · 0 评论 -
GPT2从放弃到入门(一)
本文从零实现GPT2,在最后通过GPT2实现小说生成器。原创 2024-02-26 18:50:28 · 1611 阅读 · 20 评论 -
手写GPT实现小说生成(二)
介绍了从零实现GPT并训练一个小说生成器的细节。原创 2024-01-26 20:15:00 · 3020 阅读 · 12 评论 -
手写GPT实现小说生成(一)
从零实现GPT模型并训练小说生成器。原创 2024-01-19 19:23:12 · 1583 阅读 · 3 评论 -
Transformer从菜鸟到新手(七)
本文主要介绍束搜索的实现与原理,最后证明通过束搜索可以得到更好的结果。原创 2024-01-16 20:45:00 · 1058 阅读 · 0 评论 -
Transformer从菜鸟到新手(六)
本文介绍KV缓存技术的原理和实现。原创 2024-01-11 20:00:00 · 1077 阅读 · 0 评论 -
Transformer从菜鸟到新手(五)
本文介绍如何利用PyTorch进行多GPU并行训练。原创 2024-01-09 22:50:23 · 1375 阅读 · 0 评论 -
Transformer从菜鸟到新手(四)
本文介绍训练Transformer的一些不可忽略的细节。原创 2024-01-08 09:00:02 · 741 阅读 · 0 评论 -
Transformer从菜鸟到新手(三)
本文开始完整实现Transformer原创 2024-01-05 09:02:43 · 1152 阅读 · 0 评论 -
Transformer从菜鸟到新手(二)
Transformer中位置编码和多头注意力的详解。原创 2024-01-04 09:10:04 · 1199 阅读 · 0 评论 -
Transformer从菜鸟到新手(一)
从本文开始回顾一下Transformer的原理与实现细节,包括分词算法BPE的实现。最终利用从零实现的Transformer模型进行英中翻译。原创 2024-01-02 21:30:00 · 1526 阅读 · 0 评论