- 博客(7)
- 收藏
- 关注
原创 量化前后性能--速度对比
之前我进行了对大模型的KV Cache方法和W4A16 量化以及使用了W4A16 量化后得到的模型再使用KV Cache三种形式的量化,发现模型的显存占用是有明显的下降的,而在降低显存的同时,一般还能带来性能的提升,因为更小精度的浮点数要比高精度的浮点数计算效率高,而整型要比浮点数高很多。我们采用W4A16后保持FP16,只对参数进行 4bit 量化,同时将已经生成序列的 KV 变成 Int8的模型作为量化后的模型,与量化前进行对比。
2024-06-22 23:51:05
1350
原创 W4A16 量化
在进行W4A16量化后得到了新的模型,再结合KV Cache量化后模型运行时占用的显存有了非常大幅度的下降,证明我们再存储占用方面取得了很好的量化成果,这也让我们对模型速度,精度等有了更多的考虑,后续会进行更多测试得到数据结果。
2024-06-20 16:02:02
2675
原创 2024软件学院创新项目实训--KV Cache 量化
可见,使用KV Cache量化后,占用显存明显有了下降,关于识别精度将通过后续测试得出,后续还会进行性能的相关测试。
2024-06-19 21:23:59
883
原创 2024软件学院创新项目实训--大模型量化
量化技术背景:在领域,大型语言模型(LLM)在自然语言处理领域的应用越来越广泛。然而,随着模型规模的增大,计算和存储资源的需求也急剧增加。为了降低计算和存储开销,同时保持模型的性能,LLM大模型的量化技术应运而生。由于我们的项目部署在云端,符合大模型量化的使用场景,因此我们要通过大模型量化来压缩模型的存储空间大小,优化存储空间、提高性能。LLM大模型的量化技术主要是通过对模型参数进行压缩和量化,从而降低模型的存储和计算复杂度。具体来说如下:1.参数压缩。
2024-06-17 19:11:36
1007
原创 2024软件学院创新项目实训--数据集设计
项目任务要点:统计3年考研政治真题、模拟题,约1000道。对于输入的问题准确无误给出答案和解析,解析不少于30字,错题率不超过10%(比未微调的模型表达更加简洁精炼、相关度高)。能够同时开设多个对话。有简洁明了的交互界面。针对我们项目的需求,我们制作一个用于训练大模型的数据集,首先我进行了数据集相关知识的学习。引用自。
2024-05-29 21:45:34
1013
原创 2024软件学院创新项目实训--大模型及微调相关知识
该文章总结我对大模型InternLM相关知识的学习,从中我认识了大模型的基本观念,了解到其广泛应用,并对大模型的微调fine-tunning(概念、方法以使用工具)进行了学习,有助于后续工作小组工作的进行。
2024-05-20 20:12:30
972
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人