
llm
文章平均质量分 84
有来有去9527
这个作者很懒,什么都没留下…
展开
-
LLM训推适配-[昇腾910B]-qwen2.5精度测试+高效推理
昇腾部署qwen2.5大模型,以及相关适配验证。原创 2024-10-17 16:41:20 · 3720 阅读 · 9 评论 -
LLM训推适配-[昇腾910B]-大模型量化推理-qwen2-72B
大模型量化原创 2024-09-04 20:03:19 · 1754 阅读 · 1 评论 -
LLM训推适配-[昇腾910B]-Qwen1.5-72B模型SFT
昇腾硬件大模型训练迁移。原创 2024-09-03 11:57:28 · 1333 阅读 · 1 评论 -
[论文分享]LLM推理加速——FLASHDECODING++
当计算新的部分softmax结果时,采用同步softmax操作更新先前的部分softmax结果。为解决这些问题,研究团队提出了一种名为FlashDecoding++的更快的GPU实现方法,通过解决不同输入的最大值问题、优化flat GEMM操作和根据输入动态性和硬件配置进行启发式数据流优化,实现了对主流LMs的加速。未充分利用flat GEMM计算:在LLM推理中,矩阵执行GEMM操作的形状是扁平的,这导致未充分利用计算和超过50%的性能损失(在之前的设计中,如cuBLAS、CUTLASS等)。原创 2023-11-24 15:32:35 · 697 阅读 · 1 评论 -
昇腾平台LLM pytorch推理环境搭建
当前用户下执行npu-smi info是否可以查看到gpu信息,如果不能,则表示驱动安装错误,需要在安装命令加上 --install-for-all。检查NPU是否正常在位可执行lspci | grep d802命令,如果服务器上有 N路NPU,回显N行含“d802”字段,则表示NPU正常在位。资源下载地址:https://www.hiascend.com/developer/download。通过执行npu-smi info命令查看。支持的PyTorch版本。支持的Adapter版本。原创 2023-11-23 18:06:01 · 4549 阅读 · 3 评论 -
成功编译TensorRT-LLM
运行步骤参考/root/autodl-tmp/files/TensorRT-LLM/examples/gpt目录下的readme文档。由于系统中的cudnn是deb安装的,所以去Nvidia下载deb安装,可以直接对旧版本进行覆盖。于是决定通过在公有云申请资源,通过配置TRT-LLM编译依赖环境的方式进行编译。启动已下载的docker镜像,查看编译TRT-LLM的主要依赖项版本。模型保存在/root/autodl-tmp/models/gpt/公有云选择AudoDL,理由简单易用,价格便宜。原创 2023-11-09 17:01:03 · 1377 阅读 · 1 评论 -
大模型推理优化--TensorRT-LLM初体验
TensorRT-LLM可以视为TensorRT和FastTransformer的结合体,旨为大模型推理加速而生。原创 2023-10-20 15:16:27 · 3182 阅读 · 2 评论 -
Flash-Attention代码调用尝试
快速实现flash-attention调用原创 2023-10-10 16:48:36 · 7637 阅读 · 3 评论 -
ChatGLM-6B微调实践与问题汇总(fine-tune+p-tuning+知识遗忘解决尝试)
chatglm-6b,全量fine-tune和p-tuning复现。对于训练后丧失了原有的对话功能的现象进行初步尝试,并收获效果。原创 2023-06-06 11:51:45 · 7912 阅读 · 6 评论