
LLM
文章平均质量分 92
lagoon_lala
越开源, 越幸运
展开
-
大模型笔记8 文本数据清洗
格式改写Jsonl格式统计词条数目与长度分布重复性检测Topic去重Content元素去重句子去重n-gram去重去除content中空字符串低质内容检测多语言检测content统计时先拼接多换行标题检测读取label图形展示分层抽样1. 转换成dataframe格式2.分层抽样content文字长度中文比例多语言分词Magpie原创 2025-04-27 17:35:53 · 765 阅读 · 0 评论 -
大模型笔记7 npu踩坑记录
目录千问 qwq32环境配置代码部署生成内容清洗已生成内容清洗生成过程优化Failed to initialize the HCCP process问题assistant 的历史回答丢失推理执行失败原创 2025-03-31 10:54:10 · 976 阅读 · 0 评论 -
大模型笔记6 数据蒸馏相关论文梳理
综述汇总Dataset Distillation Background and Related Works编辑DD相关工作DD定义DD方法优化目标性能匹配(Performance Matching)参数匹配(Parameter Matching)分布匹配(Distribution Matching)网络更新过程合成数据参数化学习标签的方式代表算法SmallToLarge (S2L): Scalable Data Selection for Fi原创 2025-01-12 18:27:34 · 984 阅读 · 0 评论 -
大模型笔记5 Extractive QA任务评估
Extractive QA任务评估Extractive QA评测指标precision, recall, f1ROUGE划分训练与评估数据集token位置评估单个token位置评估输入label的token位置预测token位置评估Wandb共享机器同时登录样本类别平衡标记token label时对窗口进行筛选训练输入json数据格式调整GPU内存不足服务器远程连接断开后进程停止运行原创 2024-08-08 15:06:37 · 1237 阅读 · 0 评论 -
大模型笔记4 长文本滑动窗口
滑动窗口例子(提取开始结束点任务)滑动窗口代码实现tokenize() 默认添加问题每个滑窗添加标题和摘要训练label跨滑窗情况token匹配Token匹配忽略固定标题摘要输出结果拼接根据样本论文标号拼接预测结果滑窗重复token位置处理原创 2024-08-01 17:05:38 · 1424 阅读 · 0 评论 -
大模型笔记3 Longformer for Extractive Summarization训练
GPU运行从文本label生成输入token label多样本输出文本保存训练过程损失和模型部署到服务器训练集构建原创 2024-07-15 16:24:28 · 809 阅读 · 0 评论 -
大模型笔记2 Longformer for Extractive Summarization任务的模型修改
LongformerForTokenClassification调通将7分类的预训练模型改为2分类利用分类标签取出token对应子词将token转换为完整单词取出原创 2024-07-08 21:10:25 · 801 阅读 · 0 评论 -
大模型笔记1: Longformer环境配置
3.2、右键“计算机”->“属性”->“高级系统设置”->“环境变量”->在下方的“系统变量”中找到“path”->选中“path”并选择“编辑”->将 3.1中找到的bin和git-core路径复制到其中->保存并退出。注:"D:\Program Files\Git\"是安装路径,可能与你的安装路径不一样,要按照你自己的路径替换"D:\Program Files\Git\"3.1、找到git安装路径中bin的位置,如:D:\Program Files\Git\bin。原创 2024-06-26 16:05:43 · 1038 阅读 · 0 评论