大模型中应该注意的数字

1.8.1 prompt

在prompt中添加“回复尽量简洁”可以节省40%-50%的大模型接口调用费

因为大模型的接口通过token数量来计算费用,在prompt中添加“回复尽量简洁”可以让模型生成的token数变少,从而节省调用费用。除此之外,还可以在prompt中对答案添加其它条件来精简答案的长度,例如调用GPT4接口来回答“暑假有哪些好玩的景点推荐一下“,它默认生成了10个候选景点,但我们并不需要那么多,如果在prompt要求只生成5个,就可以节省一半的费用。

每个英文单词大约对应1.3个token

LLM在token的粒度上进行训练和推理,在处理英文时,token通常对应英文中的单词(word)或者“子词”(subword),例如“eating”这个词可能被拆解为两个token:“eat”和“ing”。一个包含750个单词的英文文档大约对应1000个token。因为大多数的大模型的接口调用根据token数来计费,根据1:1.3这个比例可以事先估算出调用大模型的成本。

⚠️这个比例在不同的LLM和不同的语言中都有差异。

1.8.2 价格

⚠️这部分数据参考的是OpenAI的定价。

GPT-4接口的定价比GPT-3.5 Turbo贵20-30倍

这意味只有在一些对生成质量要求很高的场景下使用GPT-4接口才是划算的,如果只是文档摘要这种较为简单的任务,直接用GPT-3.5 Turbo效果就足够好了,也更加划算。

GPT-3.5 TurboOpenAI Embedding接口贵大约20倍

这意味着对于一些文档类的问答任务,通过离线对文档做向量索引,线上服务先做检索再做整合可以再进一步降低GPT-3.5 Turbo的调用成本。

OpenAI Embedding接口比租一台云服务器搭建文本转向量服务贵大约10倍

⚠️这个数据和具体的调用量以及使用的文本转向量的模型有关。

因为有很多开源的文本转向量模型,所以租一台云服务器,在上面搭建文本转向量服务可以进一步降低成本。

1.8.3 预训练和微调

在token总数为1.4T的语料上对参数量为13B的模型做预训练,大约需要100万美元

这个数据来自于LLaMa的论文,其中提到LLaMa的预训练在2048个A100(80G)的GPU上训练了21天,按此估算预训练成本约为100万美元。总之,从头开始训练一个LLM是可能的,但并不便宜,相对之下使用一个预训练模型就要便宜很多。

微调一个预训练模型的成本是从头开始预训练的千分之一(甚至更低)

这是一个大概的估计,但是微调的成本几乎可以忽略不计。

1.8.4 GPU

如果你要自己搭建一个大模型的服务,就需要对GPU相关的一些数字足够熟悉。

大模型服务通常至少需要模型参数量的两倍的显存

例如,对于一个7B参数量的模型,大约需要占用14GB的GPU显存,因为对大多数大模型,每个参数默认用一个16位浮点数表示(对应2个字节)。当然,可以通过量化将参数用8-bit或者4-bit来表示,从而将显存占用降至二分之一或者四分之一。例如,llama.cpp对一个13B的模型,通过4-bit量化,从而只需要占用6GB的GPU显存。

批量请求大模型服务,可以获得数十倍的吞吐量提升

请求大模型服务的响应时间通常较长,例如对于有的任务,5秒才能处理完一个请求,换算成吞吐量只有0.2的qps;但是如果一次发送25个请求过去,响应时间并不会升至25倍,而只是延长到10秒,换算成吞吐量为2.5的qps(queries per second)。这样看来,batch_size越大越好,但是当batch_size增大时,占用的显存也是增加的,具体的分析见下一小节。

对13B参数量的模型,每多生成一个token需要多占用约1MB的显存

按这个数据推算,如果要生成512个token,就需要再额外占用512MB的显存。值得注意的是,如果这是一个批量的请求,计算显存的时候还要乘以对应的batch_size。例如batch_size=16,就需要额外再占用8G的显存。可以看到,batch_size增大时,虽然吞吐量也会增大,但是显存占用也是随之增加的。

GPU的显存,V100: 16GB/32G, A100: 40/80GB

GPU的显存是限制大模型参数量的重要因素,需要结合预算来选择。一般情况下,在预算允许的情况下,优先选择显存较大的规格的显卡会更加划算,主要是更大的显存在推理时可以有更大batch size,从而在单位成本下获得更大的吞吐量。

内容概要:本文详细介绍了如何使用Matlab对地表水源热泵系统进行建模,并采用粒子群算法来优化每小时的制冷量和制热量。首先,文章解释了地表水源热泵的工作原理及其重要性,随后展示了如何设定基本参数并构建热泵机组的基础模型。接着,文章深入探讨了粒子群算法的具体实现步骤,包括参数设置、粒子初始化、适应度评估以及粒子位置和速度的更新规则。为了确保优化的有效性和实用性,文还讨论了如何处理实际应用的约束条件,如设备的最大能力和制冷/制热模式之间的互斥关系。此外,作者分享了一些实用技巧,例如引入混合优化方法以加快收敛速度,以及在目标函数加入额外的惩罚项来减少不必要的模式切换。最终,通过对优化结果的可视化分析,验证了所提出的方法能够显著降低能耗并提高系统的运行效率。 适用人群:从事暖通空调系统设计、优化及相关领域的工程师和技术人员,尤其是那些希望深入了解地表水源热泵系统特性和优化方法的专业人士。 使用场景及目标:适用于需要对地表水源热泵系统进行精确建模和优化的情景,旨在找到既满足建筑负荷需求又能使机组运行在最高效率点的制冷/制热量组合。主要目标是在保证室内舒适度的前提下,最大限度地节约能源并延长设备使用寿命。 其他说明:文提供的Matlab代码片段可以帮助读者更好地理解和复现整个建模和优化过程。同时,作者强调了在实际工程项目灵活调整相关参数的重要性,以便获得更好的优化效果。
内容概要:本文详细介绍了如何利用Blender和Python为污水处理厂创建高精度3D渲染效果图及其背后的参数化建模方法。首先,作者展示了如何通过Python代码管理复杂的设备数据结构(如嵌套字典),并将其应用于3D模型,确保每个工艺段的设备参数能够准确反映在渲染图。接着,文章深入探讨了具体的材质处理技巧,比如使用噪声贴图和溅水遮罩来增强金属表面的真实感,以及如何优化渲染性能,如采用256采样+自适应采样+OpenImageDenoise的降噪组合拳,将渲染时间缩至原来的三分之一。此外,文还涉及到了一些高级特性,如通过Houdini的粒子系统模拟鸟类飞行路径,或者利用Three.js实现交互式的在线展示。最后,作者强调了参数化建模的重要性,它不仅提高了工作效率,还能更好地满足客户需求,尤其是在面对紧急的设计变更时。 适合人群:从事污水处理工程设计的专业人士,尤其是那些希望提升自己3D建模技能和提高工作效率的人。 使用场景及目标:适用于需要快速生成高质量污水处理厂设计方案的场合,特别是在投标阶段或向客户展示初步概念时。通过这种方式,设计师可以在时间内制作出逼真的效果图,帮助客户直观理解设计方案,并且可以根据客户的反馈迅速调整模型参数,从而加快决策过程。 其他说明:除了技术细节外,本文还分享了许多实用的经验和技巧,如如何平衡美观与效率之间的关系,以及怎样应对实际项目的各种挑战。对于想要深入了解这一领域的读者来说,这是一份非常有价值的学习资料。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值