小透明==-优快云博客

原创量化前后性能--速度对比

之前我进行了对大模型的KV Cache方法和W4A16 量化以及使用了W4A16 量化后得到的模型再使用KV Cache三种形式的量化，发现模型的显存占用是有明显的下降的，而在降低显存的同时，一般还能带来性能的提升，因为更小精度的浮点数要比高精度的浮点数计算效率高，而整型要比浮点数高很多。我们采用W4A16后保持FP16，只对参数进行 4bit 量化，同时将已经生成序列的 KV 变成 Int8的模型作为量化后的模型，与量化前进行对比。

2024-06-22 23:51:05 1350

原创 W4A16 量化

在进行W4A16量化后得到了新的模型，再结合KV Cache量化后模型运行时占用的显存有了非常大幅度的下降，证明我们再存储占用方面取得了很好的量化成果，这也让我们对模型速度，精度等有了更多的考虑，后续会进行更多测试得到数据结果。

2024-06-20 16:02:02 2675

原创 2024软件学院创新项目实训--KV Cache 量化

可见，使用KV Cache量化后，占用显存明显有了下降，关于识别精度将通过后续测试得出，后续还会进行性能的相关测试。

2024-06-19 21:23:59 883

原创 2024软件学院创新项目实训--大模型量化

量化技术背景：在领域，大型语言模型（LLM）在自然语言处理领域的应用越来越广泛。然而，随着模型规模的增大，计算和存储资源的需求也急剧增加。为了降低计算和存储开销，同时保持模型的性能，LLM大模型的量化技术应运而生。由于我们的项目部署在云端，符合大模型量化的使用场景，因此我们要通过大模型量化来压缩模型的存储空间大小，优化存储空间、提高性能。LLM大模型的量化技术主要是通过对模型参数进行压缩和量化，从而降低模型的存储和计算复杂度。具体来说如下：1.参数压缩。

2024-06-17 19:11:36 1007

原创 2024软件学院创新项目实训--数据集制作及相关代码编写

2024软件学院创新项目实训--数据集制作及相关代码编写

2024-05-29 23:01:05 459

原创 2024软件学院创新项目实训--数据集设计

项目任务要点：统计3年考研政治真题、模拟题，约1000道。对于输入的问题准确无误给出答案和解析，解析不少于30字，错题率不超过10%（比未微调的模型表达更加简洁精炼、相关度高）。能够同时开设多个对话。有简洁明了的交互界面。针对我们项目的需求，我们制作一个用于训练大模型的数据集，首先我进行了数据集相关知识的学习。引用自。

2024-05-29 21:45:34 1013

原创 2024软件学院创新项目实训--大模型及微调相关知识

该文章总结我对大模型InternLM相关知识的学习，从中我认识了大模型的基本观念，了解到其广泛应用，并对大模型的微调fine-tunning（概念、方法以使用工具）进行了学习，有助于后续工作小组工作的进行。

2024-05-20 20:12:30 972 2

weixin_63647250的博客