LLM模型的一些思考

  1. 对通用LLM模型进行Fine-tuning操作(SFT,supervised fine tuning),带来的影响往往是有害的?从表象看,使用领域数据对LLM做Fine-tuning,通常会造成灾难性的“灾难遗忘”问题。简单点儿说,SFT在赋予对领域知识理解能力的同时,由于修正模型参数,导致模型遗忘之前学会的某些知识。
  2. 目前的“智能=压缩”的理论是否正确?LLM的压缩能力是否可以拆解成单个神经元的“压缩”能力,又或者说是Transformer的压缩能力,非线性的attention替换成类线性的attention时对“压缩”能力是否有积极作用?
  3. 在深层次的Transformer模型中,随着layer不断往上走:通过Attention把上文中与自己有关的信息集成到Embedding中,而每层的FFN对Embedding做变换以增加信息,不断触发FFN里存储的知识并逐层Refine对应的Embedding;从生成式任务loss角度看,链式的log交叉熵损失与这种现象是否符合?
  4. 用现有的已知现象解释过去的未知原因,这种穷举可能性的方式是否合理:LLM中,相同问题的不同表述在拆解成COT时,往往在LLM的网络中走相似、相近更或者相同的“子回路”,对于这种观测现象,是否可解释为与人思维决策与脑回路间的等价对应?\
  5. 增大基座模型的参数量+轻量化加速微调(lora,qlora)是否能够好于全量微调较小的模型
    (未完成……)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值