农场主John-优快云博客

原创网页爬取验证token

摘要：本文介绍了通过浏览器开发者工具获取API token的方法，并提供了一个Python脚本示例。首先在Network标签中过滤"task"请求，从Authorization头获取Bearer token。随后使用该token构建请求，通过eid获取对应的tids列表。脚本包含请求参数设置、headers配置（含User-Agent和Authorization）以及响应数据处理逻辑，最终返回任务ID列表并打印获取的任务数量。

2025-12-29 10:15:22 74

原创 Fork用法

摘要：如何规范地为开源项目贡献代码？核心在于建立“原仓库-Fork仓库-本地仓库”三层关联。操作步骤：1）Fork原项目到个人账号；2）克隆Fork仓库到本地；3）添加原仓库为上游（upstream）保持同步；4）在本地创建独立分支修改代码；5）修改后推送到个人Fork仓库；6）通过GitHub提交PR到原项目。关键点：始终基于最新代码修改，提交清晰描述，确保修改可运行。这种流程既支持本地自由开发，又能合规地向原项目贡献。（150字）

2025-12-19 13:20:53 523

原创 Python多线程多进程

Python并发编程：map()与as_completed()对比 Python的concurrent.futures模块提供了ThreadPoolExecutor和ProcessPoolExecutor两种并发执行方式。map()方法会等待所有任务完成后再按提交顺序处理结果，适合需要保持顺序的场景；而as_completed()则会在每个任务完成后立即处理，按照完成顺序返回结果，适合优先处理快速完成任务的场景。实验数据显示，对于3个耗时不同的任务（3秒、2秒、1秒），map()会在3秒后统一输出结果，保持

2025-11-27 01:14:16 339

原创 BGE-M3使用理解

【摘要】BGE-M3是一种创新的多模态检索模型，能同时支持稠密嵌入（语义）和稀疏（词匹配）检索。它通过单次计算即可输出：1）整体语义向量；2）词级权重（类似BM25）；3）细粒度的多向量表示。这种设计实现了三种检索方式的统一：稀疏检索（BM25式精确匹配）、稠密检索（语义理解）和多向量检索（上下文感知匹配）。特别适用于混合检索场景，无需多次计算即可融合语义和词频特征，与Vespa/Milvus等系统兼容，在保持检索效率的同时显著提升结果质量。（149字）

2025-11-12 00:22:09 749

原创 Bootstrap抽样覆盖率验证

对于既定的样本，当我们抽取足够多的 Bootstrap 样本时，统计量Tn*的经验分布会接近于 Bootstrap 的理论分布。n->无穷andB->无穷，Bootstrap抽样分布一致收敛于真实抽样分布。n是代表对总体进行n次iid抽样得到X={X1,X2,...Xn}然后每一次抽样又“有放回抽取”n次，这里又用到n了注意⚠️。Bootstrap 分布一致收敛于真实抽样分布。

2025-10-29 15:49:31 216

原创 vscode断点使用

点启动调试，jupyter点调试单元格。向下箭头单步调试，打印出来后结果。可以看到变量的各种属性了。

2025-10-27 21:10:27 211

原创 Feature Selection

特征选择流程包括：1）通过过滤法、逐步增减或随机选取方法初选属性子集；2）使用卡方检验、IV值等指标评估子集相关性；3）判断是否需更新子集，循环至最优。过滤法独立评估特征，逐步增减采用贪心算法可能局部最优，Wrapper方法用分类模型评估但效率较低。IV值通过WOE加权和衡量特征预测能力，计算需区分正负样本分布。整体流程通过迭代优化选取最佳特征子集。

2025-10-13 18:22:52 561

原创 Jupyterlab pip 无法安装到当前kernel对应环境下

文章摘要：在base环境下使用pip安装包时出现问题，建议先激活目标环境"quanyulijie"后再进行安装操作。具体步骤为：conda activate quanyulijie，然后安装jupyterlab、ipykernel和jupyternotebook等必要组件。这样可以避免环境混淆导致的安装问题。

2025-10-13 15:54:28 179

原创 Apriori&FP-Growth算法详解

Apriori与FP-Growth算法对比：两种经典频繁项集挖掘方法。Apriori通过逐层生成候选项集并计算支持度来发现频繁项集，存在组合爆炸问题。FP-Growth则通过构建紧凑的FP树结构，仅需两次数据库扫描，利用条件模式基递归挖掘，避免了候选集生成。实验显示FP-Growth在处理长模式和大量频繁项时效率显著优于Apriori，特别适合大规模数据集。两种算法各具特点：Apriori原理直观但计算量大，FP-Growth效率高但实现复杂。

2025-10-12 22:55:02 920

原创（树）Leetcode236二叉树的最近公共祖先

（树）二叉树的最近公共祖先

2025-09-26 01:08:56 181

原创（队列）Leetcode239 滑动窗口的最大值

（队列）Leetcode239 滑动窗口的最大值

2025-09-23 22:41:03 234

原创（树/递归）Leetcode98二叉搜索树+100. 相同的树

（树）Leetcode98二叉搜索树

2025-09-18 23:46:29 209

原创（回溯/组合）Leetcode77组合+39组合总和+216组合总和III

（回溯/组合）Leetcode77组合+39组合总和+216组合总和III

2025-09-08 21:46:58 237

原创 (双指针）LeetCode 209 长度最小的子数组+3 无重复字符的最长子串

LeetCode 209 长度最小的子数组+LeetCode3 无重复字符的最长子串

2025-09-05 15:45:05 442

原创 (树)Leetcode94二叉树的中序遍历+110平衡二叉树

(树)Leetcode94二叉树的中序遍历110平衡二叉树LCR 046. 二叉树的右视图

2025-08-31 19:35:07 422

原创（链表）Leetcode206链表反转+Leetcode6删除链表的倒数第N个结点+虚拟头节点使用

（链表）Leetcode206链表反转+Leetcode6删除链表的倒数第N个结点+虚拟头节点使用

2025-08-30 21:47:31 307

原创（双指针）Leetcode283.移动零-替换数字类别+Leetcode15. 三数之和

（双指针）Leetcode283.移动零-替换数字类别+Leetcode15. 三数之和

2025-08-30 13:02:49 332

原创（二分查找）Leetcode34. 在排序数组中查找元素的第一个和最后一个位置+74. 搜索二维矩阵

（二分查找）Leetcode34. 在排序数组中查找元素的第一个和最后一个位置+74. 搜索二维矩阵

2025-08-28 23:42:13 948

原创不同类型指标如何进行AB实验：Delta-Method在AB实验中的应用

文章介绍了AB实验中，对于不同类型的指标，如何进行假设检验。对于渐进分布的计算进行了详细的介绍，对delta-method/bootstrap感兴趣的朋友可以参考一下。

2025-08-26 01:00:04 644

原创（栈）Leetcode155最小栈+739每日温度

堆算法相关leetcode题

2025-08-21 23:34:18 384

原创（动态规划）Leetcode70爬楼梯+518零钱兑换

简单题爬楼梯，给出不同时间和空间复杂度的解法

2025-08-19 18:05:47 385

原创如何在GPU上安装使用Docker

如何在服务器上安装Docker，并且可以使用GPU访问容器

2025-08-07 22:36:37 497

原创小白也能掌握的LLM DPO算法！

DPO（直接偏好优化）是一种替代传统RLHF的新方法，它通过三元组数据（prompt、好结果、坏结果）直接构建偏好损失函数，无需显式训练奖励模型。基于Bradley-Terry模型，DPO将偏好比较转化为分类问题，使用交叉熵损失优化语言模型策略，使其在好结果上的生成概率高于参考模型，在差结果上低于参考模型。相比RLHF的两阶段流程（先训奖励模型再PPO优化），DPO简化了训练过程，通过隐式奖励最大化实现模型优化。

2025-07-25 16:16:00 524