LLM
文章平均质量分 92
大连米兰哥
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从GPT/GPT2/GPT3到GPT3.5/GPT4:见证微调、prompt学习、再微调、多模态
从GPT/GPT2/GPT3到GPT3.5/GPT4:见证微调、prompt学习、再微调、多模态原创 2024-07-08 15:30:06 · 1921 阅读 · 0 评论 -
通俗理解Transformer
通过向量方式计算自注意力的第一步,就是从每个编码器的输入向量(即每个单词的词向量)生成三个向量:查询向量query-vec、键向量key-vec、值向量value-vec。查询向量、键向量、值向量这三个向量的维度在论文中设置的是64,在维度上比词嵌入向量更低,因为词嵌入和编码器的输入/输出向量的维度是512,但也不是必须比编码器输入输出的维数小,这样做主要是为了让后续多头注意力的计算更稳定。原创 2024-06-22 14:45:21 · 1182 阅读 · 0 评论 -
Prompt编写规范及示例
Prompt的基本原则以及其中的优化策略原创 2024-06-19 17:18:10 · 2525 阅读 · 0 评论
分享