大语言模型的成本优化技术
一、微调技术
1.1 多任务提示微调(MPT)
在多任务提示微调中,权重通常初始化为正态分布。以下是相关代码示例:
self.v = torch.nn.Parameter(
torch.normal(mean=0,
std=0.02, size=(self.num_tasks, self.num_ranks, self.token_dim))
)
prompt_embeddings = self.embedding(indices)
在正向传播时,会选择需要相乘的行和列,然后与提示嵌入进行逐元素相乘:
def forward(self, indices, task_ids):
task_cols = torch.index_select(self.u, 0, task_ids)
task_rows = torch.index_select(self.v, 0, task_ids)
task_prompts = torch.matmul(task_cols, task_rows)
prompt_embeddings *= task_prompts
return prompt_embeddings
Hugging Face的PEFT库在
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



