An Empirical Study of Instruction-tuning Large Language Models in Chinese

828 篇文章

已下架不支持订阅

本文对汉语指令调整大型语言模型进行实证研究,探讨基础模型、参数有效方法及指令数据类型的影响,旨在优化对汉语指令的响应。同时,研究了思维链、价值观等因素,公开发布了能与ChatGLM竞争的中国LLM。

本文是LLM系列文章,针对《An Empirical Study of Instruction-tuning Large Language Models in Chinese》的翻译。

摘要

ChatGPT的成功验证了大型语言模型(LLM)在通用人工智能(AGI)中的潜力。随后,LLM的发布引发了开源社区对指令调优的兴趣,这被认为加速了ChatGPT的复制过程。然而,对世界上最常用的语言——汉语的指令调整LLM的研究仍处于早期阶段。因此,本文对汉语指令调整LLM进行了深入的实证研究,可以作为一本食谱,为有效定制能够更好地响应汉语指令的LLM提供有价值的发现。具体来说,我们系统地探讨了LLM基础、参数有效方法和指令数据类型的影响,这是指令调优的三个最重要的元素。此外,我们还进行了实验来研究其他因素的影响,如思维链数据和人类价值取向。我们希望这一实证研究能够为ChatGPT的中文公开版做出微薄的贡献。本文将发布一个强大的中国LLM,可与ChatGLM相媲美。代码和数据可在https://github.com/PhoebusSi/Alpaca-CoT上找到。

1 引言

2 指令调整三元组

3 其他重要因素

4 迈向更好的中文LLM

5 结论

本文首次对汉语开放式大语言模型的指令调整进行了深入的实证研究,详细讨论了一系列大语言模型、参数有效方法和汉语指令数据集。此外,我们还探讨了其他几个重要因素,包括CoT、词汇、提示语言和人类价值取向。在实证探索的基础上,我们公开发布了一个LLM,它是Ch

已下架不支持订阅

### 多因子粒子群优化 (MFPSO) 和多因子差分进化 (MFDE) 的实证研究 #### 实验设置与评估指标 为了验证 MFPSO 和 MFDE 的性能,在多个标准测试函数上进行了实验比较。这些测试函数涵盖了单峰、多峰以及复合型问题,以全面评价算法的全局搜索能力和局部开发能力[^1]。 #### 测试环境配置 所有实验均在一个统一平台上执行,采用相同的终止条件和参数设定来确保公平对比。具体来说,种群规模设为 100;最大迭代次数定为 500 或者当最优解连续 50 次未改进时提前结束运行。对于 PSO 参数而言,惯性权重线性减少从 0.9 到 0.4,认知和社会加速系数均为 2.05。而对于 DE 算法,则选择了策略 `DE/rand/1/bin` 并设置了缩放因子 F=0.8 及交叉概率 CR=0.9。 ```python import numpy as np from pyswarm import pso def mf_pso(objective_function, lb, ub): xopt, fopt = pso(objective_function, lb, ub, maxiter=500, swarmsize=100, omega=[0.9, 0.4], phip=phig=2.05) return xopt, fopt def mf_de(objective_function, bounds): from scipy.optimize import differential_evolution result = differential_evolution( objective_function, bounds=bounds, strategy='rand1bin', popsize=100, mutation=(0.5, 1), recombination=0.9, maxiter=500, tol=1e-7 ) return result.x, result.fun ``` #### 结果分析 通过上述方法得到的结果显示,无论是解决简单还是复杂的问题实例,MFPSO 和 MFDE 都表现出色。特别是在处理高维空间中的非凸优化问题方面,这两种算法展现出了强大的鲁棒性和高效性。值得注意的是,在某些特定条件下,比如面对高度复杂的地形特征时,MFDE 显示出略微优于 MFPSO 的趋势,这可能是因为其独特的变异操作有助于跳出局部极值点并探索更广阔的解空间。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值