LangChain
文章平均质量分 62
静谧之心
专业摩的佬
业余吉他手
退役喷子
拍照小法师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Qwen-14B-Chat 非量化微调
我选择的方案是最普遍的 lora + deepspeed +zero3 + bf16 + 单机多卡 这套通用方案。训练数据自己去弄吧 符合qwen需要的格式就行。然后找到输出目录 直接进行合并 生成新的模型。显存四卡 每张卡大概使用20g左右这样子。原创 2024-05-17 17:22:10 · 940 阅读 · 0 评论 -
vscode 通过ssh 远程执行ipynb +可以切换conda env
主要是保证几个点。原创 2024-05-14 23:00:43 · 963 阅读 · 1 评论 -
Fastchat + vllm + ray + Qwen1.5-7b 在2080ti 双卡上 实现多卡推理加速
Ray 是一个高性能的分布式计算框架,由UC Berkeley RISELab 开发,支持Python 语言,并可与PyTorch 等机器学习框架结合使用。在隐私计算方面,Ray提供了数据隐私保护,支持数据共享和协作,同时允许在不泄露原始数据的情况下进行深度学习模型训练。OpenAI API提供OpenAI兼容的API服务,接受请求后,先向Controller获取Model Worker地址,再向Model Worker实例发送请求生成文本,最后返回OpenAI兼容的报文。执行情况如下 并发速度还不错。原创 2024-05-11 14:56:39 · 4691 阅读 · 4 评论
分享