ttest11-优快云博客

原创 token是什么

简单来说，。你可以把它想象成模型“吃”文本时的“口粮”或者“积木块”。模型不能直接理解我们写的文字（比如“你好”或“Hello”），它需要先把文字切成一小块一小块的、它能认识的“token”，然后才能对这些 token 进行计算和处理。

2025-08-06 16:43:51 263

特性GPT 系列 (BBPE)BERT 系列 (WordPiece)LLaMA 系列 (SentencePiece-Unigram)核心算法WordPiece处理粒度字节 (Byte)Unicode 字符字节 (Byte)Unicode 字符 (通常)构建方式自底向上 (合并)自底向上 (合并)自顶向下 (移除)自顶向下 (移除)合并/选择标准频率最高概率增益最大似然损失最小 (移除)似然损失最小 (移除)分词策略贪心Viterbi (全局最优)Viterbi (全局最优)

2025-08-06 16:35:43 320

原创 Tokenization算法（BPE，WordPiece

词元化（Tokenization）是把一段自然语言文本拆分成更小的单元（称为“词元”，即 Token）的过程。这些词元最终会被转换成数字表示（模型的输入），因为机器只能处理数字。

2025-08-06 16:34:53 319

原创直接删除之前的github提交历史吗

可以删除历史，只保留最新，也可以定向清理大文件历史最彻底的办法是orphan分支法，新建一个分支提交当前所有代码，然后强推一切操作前请备份！不要忘了.gitignore要及时配置好，避免新历史再次把大文件/不该追踪的文件加进来“当前.gitignore里新加了需要忽略的大文件，如果我用git add -A，会不会忽略这些大文件？.gitignore只能影响“新添加”到 Git 的文件已经被 Git 跟踪的文件，要先用移除追踪，再配合.gitignore才能真正忽略之后git add -A。

2025-06-26 10:06:35 946

原创有一个项目在远程服务器上，怎么上传github

上传到百度网盘、阿里云OSS、Google Drive、OneDrive、腾讯云COS、AWS S3 或者网盘，再在 ReadMe 里写明下载方式或提供下载脚本。对于模型等不常更新的文件，可以通过GitHub Releases上传（注意有大小上限，最大2GB/单文件，限制较多）2021年后，GitHub不再支持账户密码登录，推送时需要你输入。这样这些大文件不会再传到远程，也不会出现在版本历史中。如果你的远程服务器还没有安装Git，先安装Git。复制GitHub新仓库的地址，比如。在项目根目录新建或编辑。

2025-06-26 10:04:05 1686

原创之前运行了nohup一个脚本，忘记了进程id,现在想要kill这个进程怎么弄

你也可以通过查看这个文件，确认脚本确实在运行，还可以推测脚本名字、启动方式等。此命令会列出包含此关键词的进程，你可以找到你的脚本对应的行，记下它的PID（第二列）。：kill以后，原来由该进程产生的写入操作会立刻停止，文件不会再被继续写入。有些脚本会启动对应的端口服务，可以用。ps aux | grep 关键词。启动的脚本，默认会把输出写到。假设你运行的脚本名为。假设你的进程PID为。

2025-06-26 09:59:46 235

原创非端到端训练

除了端到端训练，目前仍然广泛使用分阶段训练、特征工程+模型流程、模块化系统、预训练-微调等多种组合方式。真实项目常常会根据任务特点综合使用。

2025-06-23 20:16:30 368

原创端到端训练是什么

端到端训练就是一条龙地把原始输入直接训练到最终输出，全流程由神经网络自动“学会”每一步怎么做，人只需要提供数据、设计合适的正反例和评价标准。这是深度学习发展后，越来越多任务追求的目标。

2025-06-23 20:15:41 217

原创还有2个月秋招，但是leetcode依旧好多不会做怎么办

你说“还有2个月秋招，但是leetcode依旧好多不会做怎么办”，其实这种焦虑非常常见，尤其是在冲刺阶段。

2025-06-23 20:11:41 267

原创之前代码任务是二分类，后面要改成三分类，除了改loss还要改什么

输出层神经元数目改为3；Loss函数换成；标签格式应为类别号（0、1、2），保持long类型；推断时用argmax；评价指标用多分类（如accuracy, macro F1等）。

2025-06-23 15:56:00 276

原创介绍一下trl llamafactory swift vllm 以及他们的优劣

工具主要定位技术侧重点易用性LLama适配性能推理微调trl微调（RLHF）较高是优一般最优微调最高最优优一般极好Swift微调优秀优秀优一般很好vLLM推理高效推理极高好最优最优不支持。

2025-06-20 16:10:00 432

原创介绍一下trl库

trl是目前大语言模型微调领域最主流的 RLHF 工具库之一，极大简化了用强化学习等方法优化模型的工程难度，非常适合用于学术研究和工业应用中的 LLM 微调实验。

2025-06-20 16:04:44 380

原创 mmlu_test 验证结果解读

你给出了微调后的llama2-7b在MMLU(mmlu_test)任务上的部分验证结果，格式为：下面为你详细解读：各分项分别表示：整体平均 (Average)：45.04% 你的llama2-7b经过微调后，在所有MMLU测试题上的平均准确率为45.04%。分学科表现：总结：你的llama2-7b模型：

2025-06-19 13:50:13 436

原创 LLaMA-Factory数据集支持

先把csv转jsonl，字段名尽量与原训练时保持一致。用新jsonl文件作为评测数据集输入给LLaMA-Factory（用--dataset其余参数（如template、prompt字段等）保持一致。这样就可以用你自己的测试集（本地csv）来测了！

2025-06-19 11:45:34 744

原创不cot微调模型，直接dpo微调后，让他cot推理可以吗

不经过COT微调，仅DPO后让模型COT推理，几乎不可行。一定要先用显式的COT数据做SFT微调，再用DPO进一步对齐输出风格或用户偏好。

2025-06-19 10:39:50 252

原创要对llama2-7b做lora+dpo微调，两阶段，先用dpo微调，然后用cot数据集微调，可行吗？

先 COT 微调再 DPO 微调更合理。也可尝试两阶段迭代，但注意仔细验证性能！顺序建议：SFT（COT数据）→ DPO优化数据建议：可自建COT推荐推理集，或用RecSys数据加自制推理链建议先小规模验证，不同顺序影响，结合Validation准确率和生成内容质量共同评估。

2025-06-19 10:39:06 591

原创 baseline问题

LightGBM：传统机器学习，速度和效果兼具，适合大数据结构化任务。：简单经典文本分类基线，特征独立性强假设。TextCNN：卷积结构提取文本局部片段特征。Bi-LSTM：捕捉文本双向长距离依赖。BERT：当前NLP主流，预训练大模型，捕获深层级语义。建议准备面试时，针对每个模型多看代码实现和具体应用场景，更容易获得面试官认可！

2025-06-18 17:14:16 929

原创在服务器上有一些代码，怎么放到github上

要把服务器上的代码上传到 GitHub 上，你可以按照以下步骤操作。假设你已经在 GitHub 上注册了账号，并新建了一个仓库。如果没有，可以先在注册并新建一个仓库。

2025-06-18 17:06:29 392

原创箱线图（boxplot）

即需要多于1个数据才能构成分布。箱线图（boxplot）最核心的意义是。

2025-06-18 16:32:46 282

原创集成学习采样

方法样本采样方式采样特点BaggingBootstrap（自助采样）从原始数据有放回随机采样，每个基学习器样本独立AdaBoost加权采样/加权训练样本有权重，根据分类效果不断调整，突出难分类的样本简言之用的是Bootstrap自助采样（有放回采样）。用的是加权采样（weighted sampling）或加权训练，根据样本权重动态调整关注对象，不是 bootstrap。

2025-06-18 16:31:50 218

原创 C4.5 算法

scikit-learn 不支持 C4.5（gain ratio），只能实现 ID3（信息增益）或者 CART（基尼）思想的决策树。想用 C4.5，请用第三方包如 scikit-c4.5 或自己实现。若实现 gain ratio，可以参考 C4.5 伪代码，核心公式：信息增益比 = 信息增益 / 属性固有值与 ID3 主要区别就是选 gain ratio 而非 gain。

2025-06-17 19:47:23 370

原创 ID3实现

核心在于就是ID3思想分类器，其它集成器直接用即可。criterion决策树名称分裂标准代表算法"entropy"ID3/C4.5决策树信息增益ID3, C4.5"gini"CART决策树基尼系数（Gini）CART的实现其实底层更接近 CART，但允许你选分裂标准，按"entropy"时就是用ID3的思想。二者在大多数数据集表现相近，但在某些场景下有细微不同。如果你想实现严格的ID3，应只用"entropy"，且只用于分类（CART 还支持回归任务）

2025-06-17 19:44:24 732

原创 CART（二叉树）

自带的决策树只能实现。

2025-06-17 19:27:25 400

原创详细介绍一下推荐系统和搜索中常见的指标

适用于需要对结果排序的推荐、搜索场景，体现排序模型优劣。

2025-06-16 18:01:33 862

原创详细介绍一下AB test

如果B组效果更优，并且统计学意义显著，则全量上线新方案。否则保留原有方案，或者继续优化。A/B测试本质是真实环境下的科学实验法，核心在于随机分组指标量化和统计显著性检验。它帮助推荐系统、搜索排序、用户运营等场景持续优化，已成为所有数据驱动互联网企业的标准操作。

2025-06-16 17:36:18 822

原创不是对话推荐，如何利用用户模拟器Agent反馈进化推荐算法

核心思想：用户模拟器Agent提供持续的高质量“环境反馈”，可以支撑推荐算法的离线训练、仿真评估和强化学习进化，显著降低真实用户实验成本，加快算法迭代与优化。

2025-06-16 17:34:34 245

原创用llamafactory微调，怎么保持tokenizer一致

第1阶段：输出第2阶段：输出第3阶段：输出推理/部署：这样即可保证tokenizer贯穿流程全程一致！

2025-06-16 17:32:24 281

原创先用dpo微调，在用cot微调，整个微调tokenizer要如何保持一致

【代码】先用dpo微调，在用cot微调，整个微调tokenizer要如何保持一致。

2025-06-16 17:28:15 598

原创 llama2-7b可以先用lora+dpo在HumanLLMs/Human-Like-DPO-Dataset微淘，然后再在一个cot数据集上微调吗

你说的先用lora+dpo在HumanLLMs/Human-Like-DPO-Dataset微调，再用cot数据集继续微调，这个流程完全合理且在大模型社区很常见。实际效果取决于你的CoT数据质量和数量，也可以后续用评测（如推理链数据集的准确率、合理性等）来检验效果。

2025-06-16 17:23:09 217

原创微调llm，把它包装成api，批量调用，同时在调用的时候让模型做cot推理，输出think过程，怎么弄

最好的CoT效果来源于微调过程中用CoT样本训练。如果用的只是常规问答数据，零样本能力可能欠佳。你的模型已针对特定任务完成了微调。可以按需用正则等手段，仅提取CoT部分或最终答案。之类的话作为提示，模型更倾向于给出逻辑推理链。和模型批量生成方法，效率更高。

2025-06-16 17:20:08 278

原创微调llama2-b后，调用时会输出一些无意义字符怎么办

出现无意义字符，大概率是Tokenizer不一致或解码方式问题加载模型和tokenizer路径是否一致；decode时；检查微调数据是否干净；检查adapter/LoRA的权重与模型是否匹配；检查推理参数是否合理。

2025-06-16 17:16:13 292

原创机器学习防止过拟合和欠拟合的方案是什么？深度学习防止过拟合和欠拟合的方案是什么？

问题机器学习方法深度学习方法过拟合正则化、剪枝、集成学习、早停、特征选择、数据量提升正则化、Dropout、数据增强、早停、BN、集成、模型简化欠拟合增加模型复杂度、减少正则化、特征构造、训练更充分增加网络规模、减少正则化/Dropout、训练更久、改进结构、数据处理。

2025-06-16 17:04:24 373

原创树模型基础

决策树是基础，GBDT是串行加法集成树，XGBoost是加正则、优化加速后的GBDT。XGBoost本质=高效、鲁棒、正则化的GBDT。面试切记：原理可以精讲，细节要能说出"为什么比前一代更好"。

2025-06-16 17:01:37 878

原创集成学习基础+装饰器

装饰器本质上是一个函数，接收一个函数作为输入，返回一个包装后的函数，实现“在不更改原函数代码的情况下添加功能”。常见算法（如Bagging, Boosting）原理务必扣住应用场景和优势劣势。深度学习常见架构（Transformer/BERT）结构记清楚，关注“为什么要这样设计”，以及实际工程中如何用。优化器部分，Adam与AdamW的差异，最好能讲清公式，理解正则的位置。Python基础，掌握装饰器概念和典型实现。能够手写简单装饰器；知道装饰器的实际意义。

2025-06-13 21:12:17 1537

原创 LLM+Agent

输入：一段新闻正文（source text）模型generate：生成一段摘要文本（prediction）真实标签：人工写的摘要（ground truth）用ROUGE指标，对生成的摘要和人工摘要进行对比打分generate 得到的是模型基于输入生成的预测结果在测试集上 generate 通常表示“让模型看到样本输入，产出完整输出文本”评估指标对比的是生成结果 vs 真实标签整个流程本质上就是用模型实际"写"答案/摘要/回复，然后和标准答案比，看相似度/准确度，用来衡量模型实际水平。优点。

2025-06-13 20:50:06 576

原创 LLaMA、LoRA、DPO、vLLM、Prompt相关技术细节

方法微调思路资源消耗训练复杂度典型用途缺点LoRA插入旁路小参数中极低高效微调大模型精度略有损QLoRALoRA+主参数量化极低低超大模型微调量化兼容性方法对齐方式/损失需奖励模型训练难度优点缺点PPO强化学习+KL是高控制严格, 细粒度学习慢,pipeline难DPO对比损失/偏好否低简洁省资源,泛用性强控制力略弱GRPO泛化采样优化可选中理论强度更高,灵活实践更复杂QLoRA的正确顺序。

2025-06-13 20:38:32 506

原创传统机器学习在面试时常考的内容

答案：答案：答案：答案：答案：答案：答案：答案：答案：答案：定义：性质：定义：常用方法 :基本思想：数学表达：设观测数据为D，模型参数为θ，则MLE要做的是：对数似然：举例（正态分布）：特征工程（Feature Engineering）：对原始数据进行处理，提取、更换或者创造特征，提高模型的效果。特征选择（Feature Selection）特征构造（Feature Construction/Creation）特征编码（Feature Encoding）特征缩放（Feature Scali

2025-06-13 20:26:34 723

原创 ANN和KNN区别

KNN（精确最近邻）ANN（近似最近邻）精度最高，绝对最优稍低（~99%以上，参数可调）速度慢（全量暴力遍历）快（近似索引结构）适用小数据or离线静态场景大数据、低延迟在线服务算法暴力/排序搜索IVF、PQ、LSH、HNSW等典型应用基本检索/原型实验生产环境大规模召回、搜索问题背景给定一个大规模向量集合和一个查询向量，要求在统计时间和准确率折中的情况下，快速找出最“接近”（欧氏、余弦等距离）的Top-K邻近向量。核心思想允许少量查全率损失，极大地提升搜索速度。

2025-06-13 20:07:54 788

原创搜推算法的原理

用深度学习将文本/图片等内容编码成稠密向量（如BERT、word2vec、Siamese网络等），将候选和查询都转为向量，计算向量间距离（如内积/余弦相似度）做召回。：结合了FM（二阶特征交互）和DNN（高阶非线性交互），输入原始特征，输出点击概率。：TF-IDF的升级版，综合了词频、文档长度归一化与逆文档频率等因素。：用Transformer深度建模用户的行为序列，实现对长期依赖的兴趣建模。：专门为异质兴趣推荐的深度模型，动态建模用户行为对目标物品的影响。：非空格分词的语言（中文、日文）、预处理环节。

2025-06-13 20:03:19 603

原创搜索推荐的基础知识

信息检索(Information Retrieval, IR)：从大量资源中找到用户需要的信息，例如：传统网页搜索、文档检索等。推荐系统= 对大规模内容，根据用户特征、历史、上下文为用户个性化推送感兴趣的物品（商品、短视频、新闻、商品...）

2025-06-13 19:54:07 578

空空如也

空空如也