- 博客(2094)
- 资源 (385)
- 问答 (103)
- 收藏
- 关注
原创 基于huggingface/trl,数据并行,SFT训练Qwen3-8B模型,数据集是COIG-CQIA
requirements.txt文件run.sh文件train_sft.py文件
2025-11-21 15:50:09
23
原创 双塔模型+交互层级联,效果不行的
双塔模型+交互层,训练阶段,输出query emb和doc emb之后,如果给emb加上normalize再过交互层,则训练会不稳定,不是交互层结构的问题,
2025-11-16 21:44:20
42
原创 SQL,CROSS JOIN速度优化
改成先cross join的时候只string1和string2,再按string1/string2 join上embedding。问题其实在于下面SQL的string1_emb和string2_emb的数据传输是速度瓶颈。
2025-11-10 20:56:25
191
原创 双塔结构搜索相关性模型FAQ
A:验证集上运行模型,遍历一系列候选阈值(0.0到1.0),为每个阈值计算F1-Score,选择使F1-Score达到峰值的那个阈值。Q:双塔结构,两个向量计算cosine相似度以二分类的loss训练,但预测阶段,输出是0到1的score,我如何设置阈值。Q:训练时是二分类,但我给相关性档位分了3档:强相关,弱相关,不相关。Q:双塔结构,两个向量计算cosine相似度,可以不做二分类,而做三分类吗?A:用Macro F1-Score确定三个档位的两个阈值。Q:预测阶段,要有三个相关性档位,怎么确定阈值。
2025-11-04 20:50:22
41
原创 huggingface/trl的单机多卡训练GRPO with reward model代码(device_map=“auto“)
【代码】huggingface/trl的单机多卡训练Qwen3-32B GRPO代码。
2025-10-29 21:03:16
42
原创 huggingface/trl的deepspeed单机多卡训练Qwen3-32B reward model代码
【代码】huggingface/trl的deepspeed单机多卡训练reward model示例。
2025-10-29 14:08:57
42
原创 huggingface/trl的单机多卡训练Qwen3-32B reward model代码(device_map=“auto“)
【代码】huggingface/trl的单卡训练reward model示例。
2025-10-26 21:16:26
52
原创 ODPS SQL,对group by里每个group用python取排前几的数据
【代码】ODPS SQL,对group by里每个group用python取排前几的数据。
2025-09-27 21:34:28
252
原创 ODPS SQL,对group by里每个group用python进行处理
【代码】ODPS SQL,对group by里每个group,用python进行处理。
2025-09-27 18:25:23
311
原创 SQL,LATERAL VIEW EXPLODE 一个MAP列的用法示例
【代码】SQL,LATERAL VIEW EXPLODE 一个MAP列的用法示例。
2025-09-17 11:05:26
139
原创 SQL,LATERAL VIEW EXPLODE 用法示例 for ARRAY<STRING>
【代码】SQL,LATERAL VIEW EXPLODE 用法示例 for ARRAY<STRING>
2025-09-17 10:44:07
150
原创 SQL,LATERAL VIEW EXPLODE 用法示例 for split STRING
【代码】SQL,LATERAL VIEW EXPLODE 用法示例1。
2025-09-17 10:41:17
112
转载 RoPE代码实现
https://github.com/NVIDIA/Megatron-LM/tree/main/megatron/core/models/common/embeddings
2025-09-02 19:41:06
55
原创 modelscope/ms-swift框架训练reranker报错,ValueError: Expected input batch_size to match target batch
【代码】modelscope/ms-swift框架训练reranker报错,ValueError: Expected input batch_size to match target batch。
2025-08-18 17:49:56
169
原创 vllm加载模型报错,Unrecognized configuration class to build an AutoTokenizer
【代码】Unrecognized configuration class to build an AutoTokenizer。
2025-08-15 09:47:50
146
原创 openai.BadRequestError: Error code: 400 - {‘detail‘: ‘Only supports u/a/u/a/u...‘}
user改成system。
2025-08-13 10:56:33
184
原创 VeRL框架跑通gsm8k数据集
指定数据集所用的reward function。预处理gsm8k数据集,从本地读。安装verl,再在执行训练脚本。的时候看缺哪个再安装哪个。
2025-07-31 16:41:15
336
2
flash-attn-2.7.4.post1+cu12torch2.4cxx11abiFALSE-cp39-cp39-linux-x86-64.whl
2025-03-23
Chinese-DeepSeek-R1-Distill-data-110k
2025-03-13
flash-attn-2.7.3+cu11torch2.4cxx11abiFALSE-cp39-cp39-linux-x86-64.whl
2025-03-15
torch-1.13.1+cu117-cp38-cp38-linux-x86-64.whl
2024-12-20
torch-2.0.0+cu118-cp38-cp38-linux-x86-64.whl的zip-1/2
2024-12-19
torch-2.0.0+cu118-cp38-cp38-linux-x86-64.whl的zip-2/2
2024-12-19
depth-anything/Depth-Anything-V2-Base-hf
2024-11-08
torchvision-0.19.1+cu118-cp38-cp38-linux-x86-64.whl
2024-10-29
flash-attn-2.7.0.post2+cu11torch2.4cxx11abiFALSE-cp38-cp38-linux-x86-64.whl
2025-03-24
人工智能的因果学习(Causal Learning)到底想解决什么问题?
2021-12-17
强化学习是不是无人驾驶的未来?
2022-02-01
学好数学对于编程的真实增益到底是多少?
2021-11-03
总被主管说文档写的不好怎么办?
2021-11-18
GAN生成图像,弄一个discriminator ,和无D直接生成,区别是?
2022-02-01
哪些互联网公司的管理职级和专业职级是分开的?
2022-01-22
CTR模型的AUC如果比较高,是否其实只是 因为复购行为带来的AUC虚高?
2022-01-17
CTR模型的本质是不是算出 user的哪些特征和item的哪些特征 最匹配?
2022-01-08
BYOL里stop-gradient的作用是什么?
2021-12-01
马上2022年了,pointer-network现在看来的作用是什么?
2021-11-26
马上2022年了,强化学习+NLP 有了哪些突破?
2021-11-26
每个物理公式是否都是在【描述】一个事情?
2021-10-12
NER任务只有一个类的情况下,BME或者Yes-No的数据预处理方式对结果有影响吗?
2021-11-08
学好数学对于编程的真实增益的性价比到底如何?
2021-11-03
如果说每一个数学公式都在描述一件事情,那么数学公式的推导,是在做什么?
2021-10-26
求通俗讲讲数学或理论物理进行研究的细节,复杂公式是不是也都是由基础公式而来?
2021-09-14
自动驾驶,如何得到方向盘转动的ground truth?
2024-03-18
AlphaGo能超越人类,因为训练时 对于模型的每个输入,都有一个100%正确的答案?
2024-01-16
其实LLM/ChatGPT是否在距离AlphaGo式AI越来越远?
2024-01-16
技术上,ChatGPT要成为 AI医生/AI律师/AI教师 还欠缺哪些能力?
2024-01-11
数学 是且仅是 一种语言和一种工具,不是科学的全部?
2023-12-14
哪些时候用CUDA编程更好?
2023-12-14
用RL做NLP,和 根据那条数据的reward重新标注那条数据 有什么区别?
2022-05-07
2022年了,USB式GPU有哪些进展?
2022-04-28
没有物理机器人载体,如何在模拟环境里的进行学习和研究机器人?
2022-04-28
2022年了,有哪些稳压deepfm的CTR模型?
2022-04-01
CTR模型,如果上线了没效果,这时可以进行哪些分析工作?以及有无必要投入大量时间分析?
2022-03-24
算法工程师如何应对做算法策略的不确定性;比如没效果,这时绩效怎么保证?
2022-03-01
CTR模型必须要有一个测试数据集吗? 训练数据集和测试数据集是同一个,可以吗?
2022-02-25
因果推断技术靠谱吗,感觉里面的影响因素太多了,所以能实际解决落地问题吗?
2022-02-08
为啥我感觉现在机器学习模型就是一种模糊匹配工具or相似识别工具?
2022-02-16
XGB/GBDT/决策树,得出特征重要性的原理是什么?
2022-02-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅