自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 token是什么

简单来说,。你可以把它想象成模型“吃”文本时的“口粮”或者“积木块”。模型不能直接理解我们写的文字(比如“你好”或“Hello”),它需要先把文字切成一小块一小块的、它能认识的“token”,然后才能对这些 token 进行计算和处理。

2025-08-06 16:43:51 263

原创 大模型的tokenization对比

特性GPT 系列 (BBPE)BERT 系列 (WordPiece)LLaMA 系列 (SentencePiece-Unigram)核心算法WordPiece处理粒度字节 (Byte)Unicode 字符字节 (Byte)Unicode 字符 (通常)构建方式自底向上 (合并)自底向上 (合并)自顶向下 (移除)自顶向下 (移除)合并/选择标准频率最高概率增益最大似然损失最小 (移除)似然损失最小 (移除)分词策略贪心Viterbi (全局最优)Viterbi (全局最优)

2025-08-06 16:35:43 320

原创 Tokenization算法(BPE,WordPiece

词元化(Tokenization)是把一段自然语言文本拆分成更小的单元(称为“词元”,即 Token)的过程。这些词元最终会被转换成数字表示(模型的输入),因为机器只能处理数字。

2025-08-06 16:34:53 319

原创 直接删除之前的github提交历史吗

可以删除历史,只保留最新,也可以定向清理大文件历史最彻底的办法是orphan分支法,新建一个分支提交当前所有代码,然后强推一切操作前请备份!不要忘了.gitignore要及时配置好,避免新历史再次把大文件/不该追踪的文件加进来“当前.gitignore里新加了需要忽略的大文件,如果我用git add -A,会不会忽略这些大文件?.gitignore只能影响“新添加”到 Git 的文件已经被 Git 跟踪的文件,要先用移除追踪,再配合.gitignore才能真正忽略之后git add -A。

2025-06-26 10:06:35 946

原创 有一个项目在远程服务器上,怎么上传github

上传到 百度网盘、阿里云OSS、Google Drive、OneDrive、腾讯云COS、AWS S3 或者网盘,再在 ReadMe 里写明下载方式或提供下载脚本。对于模型等不常更新的文件,可以通过GitHub Releases上传(注意有大小上限,最大2GB/单文件,限制较多)2021年后,GitHub不再支持账户密码登录,推送时需要你输入。这样这些大文件不会再传到远程,也不会出现在版本历史中。如果你的远程服务器还没有安装Git,先安装Git。复制GitHub新仓库的地址,比如。在项目根目录新建或编辑。

2025-06-26 10:04:05 1686

原创 之前运行了nohup一个脚本,忘记了进程id,现在想要kill这个进程怎么弄

你也可以通过查看这个文件,确认脚本确实在运行,还可以推测脚本名字、启动方式等。此命令会列出包含此关键词的进程,你可以找到你的脚本对应的行,记下它的PID(第二列)。:kill以后,原来由该进程产生的写入操作会立刻停止,文件不会再被继续写入。有些脚本会启动对应的端口服务,可以用。ps aux | grep 关键词。启动的脚本,默认会把输出写到。假设你运行的脚本名为。假设你的进程PID为。

2025-06-26 09:59:46 235

原创 非端到端训练

除了端到端训练,目前仍然广泛使用分阶段训练、特征工程+模型流程、模块化系统、预训练-微调等多种组合方式。真实项目常常会根据任务特点综合使用。

2025-06-23 20:16:30 368

原创 端到端训练是什么

端到端训练就是一条龙地把原始输入直接训练到最终输出,全流程由神经网络自动“学会”每一步怎么做,人只需要提供数据、设计合适的正反例和评价标准。这是深度学习发展后,越来越多任务追求的目标。

2025-06-23 20:15:41 217

原创 还有2个月秋招,但是leetcode依旧好多不会做怎么办

你说“还有2个月秋招,但是leetcode依旧好多不会做怎么办”,其实这种焦虑非常常见,尤其是在冲刺阶段。

2025-06-23 20:11:41 267

原创 之前代码任务是二分类,后面要改成三分类,除了改loss还要改什么

输出层神经元数目改为3;Loss函数换成;标签格式应为类别号(0、1、2),保持long类型;推断时用argmax;评价指标用多分类(如accuracy, macro F1等)。

2025-06-23 15:56:00 276

原创 介绍一下trl llamafactory swift vllm 以及他们的优劣

工具主要定位技术侧重点易用性LLama适配性能推理微调trl微调(RLHF)较高是优一般最优微调最高最优优一般极好Swift微调优秀优秀优一般很好vLLM推理高效推理极高好最优最优不支持。

2025-06-20 16:10:00 432

原创 介绍一下trl库

trl是目前大语言模型微调领域最主流的 RLHF 工具库之一,极大简化了用强化学习等方法优化模型的工程难度,非常适合用于学术研究和工业应用中的 LLM 微调实验。

2025-06-20 16:04:44 380

原创 mmlu_test 验证结果 解读

你给出了微调后的llama2-7b在MMLU(mmlu_test)任务上的部分验证结果,格式为:下面为你详细解读 :各分项分别表示:整体平均 (Average):45.04% 你的llama2-7b经过微调后,在所有MMLU测试题上的平均准确率为45.04%。分学科表现:总结 :你的llama2-7b模型:

2025-06-19 13:50:13 436

原创 LLaMA-Factory数据集支持

先把csv转jsonl,字段名尽量与原训练时保持一致。用新jsonl文件作为评测数据集输入给LLaMA-Factory(用--dataset其余参数(如template、prompt字段等)保持一致。这样就可以用你自己的测试集(本地csv)来测了!

2025-06-19 11:45:34 744

原创 不cot微调模型,直接dpo微调后,让他cot推理可以吗

不经过COT微调,仅DPO后让模型COT推理,几乎不可行。一定要先用显式的COT数据做SFT微调,再用DPO进一步对齐输出风格或用户偏好。

2025-06-19 10:39:50 252

原创 要对llama2-7b做lora+dpo微调,两阶段,先用dpo微调,然后用cot数据集微调,可行吗?

先 COT 微调再 DPO 微调更合理。也可尝试两阶段迭代,但注意仔细验证性能!顺序建议:SFT(COT数据)→ DPO优化数据建议:可自建COT推荐推理集,或用RecSys数据加自制推理链建议先小规模验证,不同顺序影响,结合Validation准确率和生成内容质量共同评估。

2025-06-19 10:39:06 591

原创 baseline问题

LightGBM:传统机器学习,速度和效果兼具,适合大数据结构化任务。:简单经典文本分类基线,特征独立性强假设。TextCNN:卷积结构提取文本局部片段特征。Bi-LSTM:捕捉文本双向长距离依赖。BERT:当前NLP主流,预训练大模型,捕获深层级语义。建议准备面试时,针对每个模型多看代码实现和具体应用场景,更容易获得面试官认可!

2025-06-18 17:14:16 929

原创 在服务器上有一些代码,怎么放到github上

要把服务器上的代码上传到 GitHub 上,你可以按照以下步骤操作。假设你已经在 GitHub 上注册了账号,并新建了一个仓库。如果没有,可以先在注册并新建一个仓库。

2025-06-18 17:06:29 392

原创 箱线图(boxplot)

即需要多于1个数据才能构成分布。箱线图(boxplot)最核心的意义是。

2025-06-18 16:32:46 282

原创 集成学习采样

方法样本采样方式采样特点BaggingBootstrap(自助采样)从原始数据有放回随机采样,每个基学习器样本独立AdaBoost加权采样/加权训练样本有权重,根据分类效果不断调整,突出难分类的样本简言之用的是Bootstrap自助采样(有放回采样)。用的是加权采样(weighted sampling)或加权训练,根据样本权重动态调整关注对象,不是 bootstrap。

2025-06-18 16:31:50 218

原创 C4.5 算法

scikit-learn 不支持 C4.5(gain ratio),只能实现 ID3(信息增益)或者 CART(基尼)思想的决策树。想用 C4.5,请用第三方包如 scikit-c4.5 或自己实现。若实现 gain ratio,可以参考 C4.5 伪代码,核心公式:信息增益比 = 信息增益 / 属性固有值与 ID3 主要区别就是选 gain ratio 而非 gain。

2025-06-17 19:47:23 370

原创 ID3实现

核心在于就是ID3思想分类器,其它集成器直接用即可。criterion决策树名称分裂标准代表算法"entropy"ID3/C4.5决策树信息增益ID3, C4.5"gini"CART决策树基尼系数(Gini)CART的实现其实底层更接近 CART,但允许你选分裂标准,按"entropy"时就是用ID3的思想。二者在大多数数据集表现相近,但在某些场景下有细微不同。如果你想实现严格的ID3,应只用"entropy",且只用于分类(CART 还支持回归任务)

2025-06-17 19:44:24 732

原创 CART(二叉树)

自带的决策树只能实现。

2025-06-17 19:27:25 400

原创 详细介绍一下推荐系统和搜索中常见的指标

适用于需要对结果排序的推荐、搜索场景,体现排序模型优劣。

2025-06-16 18:01:33 862

原创 详细介绍一下AB test

如果B组效果更优,并且统计学意义显著,则全量上线新方案。否则保留原有方案,或者继续优化。A/B测试本质是真实环境下的科学实验法,核心在于随机分组指标量化和统计显著性检验。它帮助推荐系统、搜索排序、用户运营等场景持续优化,已成为所有数据驱动互联网企业的标准操作。

2025-06-16 17:36:18 822

原创 不是对话推荐,如何利用用户模拟器Agent反馈进化推荐算法

核心思想:用户模拟器Agent提供持续的高质量“环境反馈”,可以支撑推荐算法的离线训练、仿真评估和强化学习进化,显著降低真实用户实验成本,加快算法迭代与优化。

2025-06-16 17:34:34 245

原创 用llamafactory微调,怎么保持tokenizer一致

第1阶段:输出第2阶段:输出第3阶段:输出推理/部署:这样即可保证tokenizer贯穿流程全程一致!

2025-06-16 17:32:24 281

原创 先用dpo微调,在用cot微调,整个微调tokenizer要如何保持一致

【代码】先用dpo微调,在用cot微调,整个微调tokenizer要如何保持一致。

2025-06-16 17:28:15 598

原创 llama2-7b可以先用lora+dpo在HumanLLMs/Human-Like-DPO-Dataset微淘,然后再在一个cot数据集上微调吗

你说的先用lora+dpo在HumanLLMs/Human-Like-DPO-Dataset微调,再用cot数据集继续微调,这个流程完全合理且在大模型社区很常见。实际效果取决于你的CoT数据质量和数量,也可以后续用评测(如推理链数据集的准确率、合理性等)来检验效果。

2025-06-16 17:23:09 217

原创 微调llm,把它包装成api,批量调用,同时在调用的时候让模型做cot推理,输出think过程,怎么弄

最好的CoT效果来源于微调过程中用CoT样本训练。如果用的只是常规问答数据,零样本能力可能欠佳。你的模型已针对特定任务完成了微调。可以按需用正则等手段,仅提取CoT部分或最终答案。之类的话作为提示,模型更倾向于给出逻辑推理链。和模型批量生成方法,效率更高。

2025-06-16 17:20:08 278

原创 微调llama2-b后,调用时会输出一些无意义字符怎么办

出现无意义字符,大概率是Tokenizer不一致或解码方式问题加载模型和tokenizer路径是否一致;decode时;检查微调数据是否干净;检查adapter/LoRA的权重与模型是否匹配;检查推理参数是否合理。

2025-06-16 17:16:13 292

原创 机器学习防止过拟合和欠拟合的方案是什么?深度学习防止过拟合和欠拟合的方案是什么?

问题机器学习方法深度学习方法过拟合正则化、剪枝、集成学习、早停、特征选择、数据量提升正则化、Dropout、数据增强、早停、BN、集成、模型简化欠拟合增加模型复杂度、减少正则化、特征构造、训练更充分增加网络规模、减少正则化/Dropout、训练更久、改进结构、数据处理。

2025-06-16 17:04:24 373

原创 树模型基础

决策树是基础,GBDT是串行加法集成树,XGBoost是加正则、优化加速后的GBDT。XGBoost本质=高效、鲁棒、正则化的GBDT。面试切记:原理可以精讲,细节要能说出"为什么比前一代更好"。

2025-06-16 17:01:37 878

原创 集成学习基础+装饰器

装饰器本质上是一个函数,接收一个函数作为输入,返回一个包装后的函数,实现“在不更改原函数代码的情况下添加功能”。常见算法(如Bagging, Boosting)原理务必扣住应用场景和优势劣势。深度学习常见架构(Transformer/BERT)结构记清楚,关注“为什么要这样设计”,以及实际工程中如何用。优化器部分,Adam与AdamW的差异,最好能讲清公式,理解正则的位置。Python基础,掌握装饰器概念和典型实现。能够手写简单装饰器;知道装饰器的实际意义。

2025-06-13 21:12:17 1537

原创 LLM+Agent

输入:一段新闻正文(source text)模型generate:生成一段摘要文本(prediction)真实标签:人工写的摘要(ground truth)用ROUGE指标,对生成的摘要和人工摘要进行对比打分generate 得到的是模型基于输入生成的预测结果在测试集上 generate 通常表示“让模型看到样本输入,产出完整输出文本”评估指标对比的是生成结果 vs 真实标签整个流程本质上就是用模型实际"写"答案/摘要/回复,然后和标准答案比,看相似度/准确度,用来衡量模型实际水平。优点。

2025-06-13 20:50:06 576

原创 LLaMA、LoRA、DPO、vLLM、Prompt相关技术细节

方法微调思路资源消耗训练复杂度典型用途缺点LoRA插入旁路小参数中极低高效微调大模型精度略有损QLoRALoRA+主参数量化极低低超大模型微调量化兼容性方法对齐方式/损失需奖励模型训练难度优点缺点PPO强化学习+KL是高控制严格, 细粒度学习慢,pipeline难DPO对比损失/偏好否低简洁省资源,泛用性强控制力略弱GRPO泛化采样优化可选中理论强度更高,灵活实践更复杂QLoRA的正确顺序。

2025-06-13 20:38:32 506

原创 传统机器学习在面试时常考的内容

答案:答案:答案:答案:答案:答案:答案:答案:答案:答案:定义 :性质 :定义 :常用方法 :基本思想 :数学表达 : 设观测数据为D,模型参数为θ,则MLE要做的是:对数似然 :举例(正态分布) :特征工程(Feature Engineering) :对原始数据进行处理,提取、更换或者创造特征,提高模型的效果。特征选择(Feature Selection)特征构造(Feature Construction/Creation)特征编码(Feature Encoding)特征缩放(Feature Scali

2025-06-13 20:26:34 723

原创 ANN和KNN区别

KNN(精确最近邻)ANN(近似最近邻)精度最高,绝对最优稍低(~99%以上,参数可调)速度慢(全量暴力遍历)快(近似索引结构)适用小数据or离线静态场景大数据、低延迟在线服务算法暴力/排序搜索IVF、PQ、LSH、HNSW等典型应用基本检索/原型实验生产环境大规模召回、搜索问题背景给定一个大规模向量集合和一个查询向量,要求在统计时间和准确率折中的情况下,快速找出最“接近”(欧氏、余弦等距离)的Top-K邻近向量。核心思想允许少量查全率损失,极大地提升搜索速度。

2025-06-13 20:07:54 788

原创 搜推算法的原理

用深度学习将文本/图片等内容编码成稠密向量(如BERT、word2vec、Siamese网络等),将候选和查询都转为向量,计算向量间距离(如内积/余弦相似度)做召回。:结合了FM(二阶特征交互)和DNN(高阶非线性交互),输入原始特征,输出点击概率。:TF-IDF的升级版,综合了词频、文档长度归一化与逆文档频率等因素。:用Transformer深度建模用户的行为序列,实现对长期依赖的兴趣建模。:专门为异质兴趣推荐的深度模型,动态建模用户行为对目标物品的影响。:非空格分词的语言(中文、日文)、预处理环节。

2025-06-13 20:03:19 603

原创 搜索推荐的基础知识

信息检索(Information Retrieval, IR):从大量资源中找到用户需要的信息,例如:传统网页搜索、文档检索等。推荐系统= 对大规模内容,根据用户特征、历史、上下文为用户个性化推送感兴趣的物品(商品、短视频、新闻、商品...)

2025-06-13 19:54:07 578

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除