1.chatgpt原理
1.1 gpt3相比其他gpt有什么优势
1.2 gpt3的训练和推理阶段的区别
1.3 chatgpt和gpt相比,gpt差在哪,为什么,gpt到chatgpt是怎么做到的
1.4 SFT是什么
1.5 上下文多轮对话
1.6 冷启动是什么
1.7 训练回报模型的一个目的是什么,它如何被训练的?pair-wise loss又是什么?
1.8 ppo算法
2.chatglm高效微调
2.1 langchain是干什么的
2.2 高效微调的两种方式 embedding lora
2.3 分布式训练是什么意思
2.4 梯度积累
2.5 fp16是什么
2.6 量化是什么
2.7 jieba、rouge_chinese包是什么
2.8 显卡 内存
2.9 随机种子有啥用,为什么要设置
3.onehot
3.1 独热编码的缺点
3.2 余弦相似度
4.word2vec
4.1 窗口、负采样、最低词频阈值是什么?
4.2 PCA似乎是个降维工具,怎么做到的?发挥什么作用?
5.量化
5.1 什么是量化?权重、中间激活值、kvcash、gradients是什么?
5.2 QKV是什么?
6.transformer
6.1 循环神经网络的原理是什么?和transformer相比有什么缺点
6.2 残差是什么?

被折叠的 条评论
为什么被折叠?



