- 博客(61)
- 收藏
- 关注
原创 网页爬取验证token
摘要:本文介绍了通过浏览器开发者工具获取API token的方法,并提供了一个Python脚本示例。首先在Network标签中过滤"task"请求,从Authorization头获取Bearer token。随后使用该token构建请求,通过eid获取对应的tids列表。脚本包含请求参数设置、headers配置(含User-Agent和Authorization)以及响应数据处理逻辑,最终返回任务ID列表并打印获取的任务数量。
2025-12-29 10:15:22
74
原创 Fork用法
摘要: 如何规范地为开源项目贡献代码?核心在于建立“原仓库-Fork仓库-本地仓库”三层关联。操作步骤:1)Fork原项目到个人账号;2)克隆Fork仓库到本地;3)添加原仓库为上游(upstream)保持同步;4)在本地创建独立分支修改代码;5)修改后推送到个人Fork仓库;6)通过GitHub提交PR到原项目。关键点:始终基于最新代码修改,提交清晰描述,确保修改可运行。这种流程既支持本地自由开发,又能合规地向原项目贡献。(150字)
2025-12-19 13:20:53
523
原创 Python多线程多进程
Python并发编程:map()与as_completed()对比 Python的concurrent.futures模块提供了ThreadPoolExecutor和ProcessPoolExecutor两种并发执行方式。map()方法会等待所有任务完成后再按提交顺序处理结果,适合需要保持顺序的场景;而as_completed()则会在每个任务完成后立即处理,按照完成顺序返回结果,适合优先处理快速完成任务的场景。实验数据显示,对于3个耗时不同的任务(3秒、2秒、1秒),map()会在3秒后统一输出结果,保持
2025-11-27 01:14:16
339
原创 BGE-M3使用理解
【摘要】BGE-M3是一种创新的多模态检索模型,能同时支持稠密嵌入(语义)和稀疏(词匹配)检索。它通过单次计算即可输出:1)整体语义向量;2)词级权重(类似BM25);3)细粒度的多向量表示。这种设计实现了三种检索方式的统一:稀疏检索(BM25式精确匹配)、稠密检索(语义理解)和多向量检索(上下文感知匹配)。特别适用于混合检索场景,无需多次计算即可融合语义和词频特征,与Vespa/Milvus等系统兼容,在保持检索效率的同时显著提升结果质量。(149字)
2025-11-12 00:22:09
749
原创 Bootstrap抽样覆盖率验证
对于既定的样本,当我们抽取足够多的 Bootstrap 样本时,统计量Tn*的经验分布会接近于 Bootstrap 的理论分布。n->无穷andB->无穷,Bootstrap抽样分布一致收敛于真实抽样分布。n是代表对总体进行n次iid抽样得到X={X1,X2,...Xn}然后每一次抽样又“有放回抽取”n次,这里又用到n了注意⚠️。Bootstrap 分布一致收敛于真实抽样分布。
2025-10-29 15:49:31
216
原创 Feature Selection
特征选择流程包括:1)通过过滤法、逐步增减或随机选取方法初选属性子集;2)使用卡方检验、IV值等指标评估子集相关性;3)判断是否需更新子集,循环至最优。过滤法独立评估特征,逐步增减采用贪心算法可能局部最优,Wrapper方法用分类模型评估但效率较低。IV值通过WOE加权和衡量特征预测能力,计算需区分正负样本分布。整体流程通过迭代优化选取最佳特征子集。
2025-10-13 18:22:52
561
原创 Jupyterlab pip 无法安装到当前kernel对应环境下
文章摘要:在base环境下使用pip安装包时出现问题,建议先激活目标环境"quanyulijie"后再进行安装操作。具体步骤为:conda activate quanyulijie,然后安装jupyterlab、ipykernel和jupyternotebook等必要组件。这样可以避免环境混淆导致的安装问题。
2025-10-13 15:54:28
179
原创 Apriori&FP-Growth算法详解
Apriori与FP-Growth算法对比:两种经典频繁项集挖掘方法。Apriori通过逐层生成候选项集并计算支持度来发现频繁项集,存在组合爆炸问题。FP-Growth则通过构建紧凑的FP树结构,仅需两次数据库扫描,利用条件模式基递归挖掘,避免了候选集生成。实验显示FP-Growth在处理长模式和大量频繁项时效率显著优于Apriori,特别适合大规模数据集。两种算法各具特点:Apriori原理直观但计算量大,FP-Growth效率高但实现复杂。
2025-10-12 22:55:02
920
原创 (回溯/组合)Leetcode77组合+39组合总和+216组合总和III
(回溯/组合)Leetcode77组合+39组合总和+216组合总和III
2025-09-08 21:46:58
237
原创 (双指针)LeetCode 209 长度最小的子数组+3 无重复字符的最长子串
LeetCode 209 长度最小的子数组+LeetCode3 无重复字符的最长子串
2025-09-05 15:45:05
442
原创 (树)Leetcode94二叉树的中序遍历+110平衡二叉树
(树)Leetcode94二叉树的中序遍历110平衡二叉树LCR 046. 二叉树的右视图
2025-08-31 19:35:07
422
原创 (链表)Leetcode206链表反转+Leetcode6删除链表的倒数第N个结点+虚拟头节点使用
(链表)Leetcode206链表反转+Leetcode6删除链表的倒数第N个结点+虚拟头节点使用
2025-08-30 21:47:31
307
原创 (双指针)Leetcode283.移动零-替换数字类别+Leetcode15. 三数之和
(双指针)Leetcode283.移动零-替换数字类别+Leetcode15. 三数之和
2025-08-30 13:02:49
332
原创 (二分查找)Leetcode34. 在排序数组中查找元素的第一个和最后一个位置+74. 搜索二维矩阵
(二分查找)Leetcode34. 在排序数组中查找元素的第一个和最后一个位置+74. 搜索二维矩阵
2025-08-28 23:42:13
948
原创 不同类型指标如何进行AB实验:Delta-Method在AB实验中的应用
文章介绍了AB实验中,对于不同类型的指标,如何进行假设检验。对于渐进分布的计算进行了详细的介绍,对delta-method/bootstrap感兴趣的朋友可以参考一下。
2025-08-26 01:00:04
644
原创 小白也能掌握的LLM DPO算法!
DPO(直接偏好优化)是一种替代传统RLHF的新方法,它通过三元组数据(prompt、好结果、坏结果)直接构建偏好损失函数,无需显式训练奖励模型。基于Bradley-Terry模型,DPO将偏好比较转化为分类问题,使用交叉熵损失优化语言模型策略,使其在好结果上的生成概率高于参考模型,在差结果上低于参考模型。相比RLHF的两阶段流程(先训奖励模型再PPO优化),DPO简化了训练过程,通过隐式奖励最大化实现模型优化。
2025-07-25 16:16:00
524
原创 估计大模型推理部署所需显存(含KV cache讲解)(一)
如果你想入门大模型并自己部署,掌握大模型在推理、部署和微调过程中所需的显存是非常关键的一步,特别是当你需要租用昂贵的显卡资源时更是如此。本文介绍了在模型推理时所需显存和什么关键变量相关,以及KVcache的讲解
2025-07-21 17:34:53
1466
1
原创 如何在KL散度的意义下解释极大似然估计(二)
解释三个问题1.MLE和最小化KL散度的等价性 2.作为损失函数使用 3. 为什么二分类问题使用交叉熵损失而不是均方误差损失?
2025-07-17 23:28:31
443
原创 python itertools模块:itertools.product(一)
python itertools模块:itertools.product使用,结合df.iterrows()返回两个dataframe处理后行的笛卡尔积
2025-07-09 14:32:04
325
原创 如何使用numpy和pandas处理数据-查看数据类型/计算聚合统计量/loc iloc/merge concat(二)
1.使用pandas创建dataframe,修改df的列名 2.查看dataframe每一列数据类型 3.计算df的聚合统计量 4.使用iloc/loc进行行列索引 5.df.drop删除单列多列 6.merge和concat
2025-07-02 18:03:14
536
原创 Joblib库多进程/线程使用(一):使用generator参数实现边响应边使用
介绍了进程线程的概念,并且简单介绍了Joblib库多进程/线程使用,最后使用generator参数实现边响应边使用
2025-06-24 16:02:19
1135
原创 使用Python处理元祖/列表等结构封装的数据(一)
使用Python处理元祖/列表等结构封装的数据(一)1.zip函数使用 2.列表表达式/map函数 3.any/all()
2025-06-16 15:35:49
447
原创 如何使用numpy和pandas处理数据-apply/np.where/iterrows()处理行数据(一)
如何使用numpy和pandas处理数据?and/or/not和&/|/~基本知识,None,NAN基本概念,以及如何用apply/np.where/iterrows()处理行数据
2025-06-11 17:47:07
1142
原创 一文掌握Python中可变(mutable)与不可变(immutable)对象问题
一文掌握Python中可变(mutable)与不可变(immutable)对象问题
2025-06-10 16:54:55
244
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅