
大规模语言模型
文章平均质量分 80
AI让世界更懂你
计算机科学与技术专业博士,主要研究方向为人工智能、自然语言处理、大规模语言模型和对话系统等。曾与微软小冰、微软小娜共同工作。兴趣广泛,包括并不限于人工智能,心理学,认知科学,语言学,数学,天文学等。让我们一起和AI,改进世界!
展开
-
[超拟人语音合成] 科大讯飞API的Python实现
最近大模型开始漫延到了语音通话的领域了。我每天晚上回家的路上都会用手机和ChatGPT语音对话聊天,这不仅能够放松心情,而且还能够练习英语口语。很早的时候ChatGPT就释放了ASR和TTS的接口,试用了一下,英语能力还不错。”API,合成的语音不仅可以自然的发声,而且还经过了文本模型的润色,使得其更加口语化表达。于是,我和ChatGPT联手,又编写了如下的Python代码供大家使用。下面是完整的代码,直接复制粘贴就可以使用。但是想要中文的话,我个人还是建议使用科大讯飞的这个“关于其中的参数,可以参见《原创 2024-05-14 00:25:39 · 1035 阅读 · 1 评论 -
【直观对比】RTX3090和RTX4090的计算能力的参数对比
随着大模型的火热,越来越多的人希望可以购买一个硬件进行大模型的推理,特别是在3090和4090显卡的对比上,需求比较大。目前已有的显卡对比,大多面向于和,如图所示。但是,对于消费级的显卡的计算能力的参数对比还比较少,更多的是对比游戏或者跑分的。由于工作需要,特地辗转了多方网站,整理了3090和4090的性能参数对比图,附带A100的参数用于衔接。从表中可以看出,在目前最常用的FP16上,4090和A100是一样的。也就是说,如果只是部署一个7B的模型,并且开了FP16,那么两者的推理速度应该是大致相同的。原创 2024-05-11 15:24:16 · 30226 阅读 · 0 评论 -
再议大模型微调之Zero策略
说到Deepspeed和Zero,相信大家对着一幅图一点都不陌生,被各个帖子广为传颂,用于介绍Zero-1/2/3之间的不同,非常形象直观,如果还想深入了解,参见《deepspeed官方介绍》(看一下,2021年Deepspeed就有这工具了,现在反而成了训练大模型的流行工具)。原创 2024-05-07 21:00:19 · 1525 阅读 · 0 评论 -
一文掌握大模型数据准备、模型微调、部署使用全流程
距离ChatGPT已经发布1年半了,距离我们训练出自己的大模型也已经1周年了。目前仍然有很多同学在咨询如何训练自己的大模型。这个东西和男/女朋友一样。当你不认识TA,距离TA很远,不敢接触TA的时候,TA就是很神秘,也很难接触。但是一旦当你愈发了解TA的时候,你就知道其实上手也很容易。之前我已经撰写了一个简单的训练大模型的代码,用于阐述大模型训练其实和原来的训练没什么两样。但是随着大模型深入到了每一个研究者的原创 2024-04-27 22:52:25 · 18499 阅读 · 0 评论 -
使用vllm部署自己的大模型
使用vllm能够部署一个非常方便使用的大模型的后端,供webui前端使用,它不仅能够加速模型的推理过程,包括支持fast-attn库,而且还具有很友好的openai风格的api调用功能。原创 2024-04-26 17:38:58 · 25907 阅读 · 0 评论 -
部署一个自己的GPT客户端[以ChatGPT-Next-Web为例]
当我们有一个openai的key又想通过客户端进行访问对话功能的时候,chatGPT-next-web是一个选项(仅限是一个选项,也有更好的方案)。原创 2024-04-26 17:03:02 · 2402 阅读 · 1 评论 -
使用FastChat部署Baichuan2
近来,大型语言模型的市场需求呈现出蓬勃发展的态势。然而,仅仅掌握模型的数据准备和训练是不够的,模型的部署方法也变得至关重要。在这篇文章中,我们将以Baichuan2为例,利用FastChat进行模型部署的实战操作。原创 2023-09-24 15:13:58 · 1945 阅读 · 0 评论