自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 网页爬取验证token

摘要:本文介绍了通过浏览器开发者工具获取API token的方法,并提供了一个Python脚本示例。首先在Network标签中过滤"task"请求,从Authorization头获取Bearer token。随后使用该token构建请求,通过eid获取对应的tids列表。脚本包含请求参数设置、headers配置(含User-Agent和Authorization)以及响应数据处理逻辑,最终返回任务ID列表并打印获取的任务数量。

2025-12-29 10:15:22 74

原创 Fork用法

摘要: 如何规范地为开源项目贡献代码?核心在于建立“原仓库-Fork仓库-本地仓库”三层关联。操作步骤:1)Fork原项目到个人账号;2)克隆Fork仓库到本地;3)添加原仓库为上游(upstream)保持同步;4)在本地创建独立分支修改代码;5)修改后推送到个人Fork仓库;6)通过GitHub提交PR到原项目。关键点:始终基于最新代码修改,提交清晰描述,确保修改可运行。这种流程既支持本地自由开发,又能合规地向原项目贡献。(150字)

2025-12-19 13:20:53 523

原创 Python多线程多进程

Python并发编程:map()与as_completed()对比 Python的concurrent.futures模块提供了ThreadPoolExecutor和ProcessPoolExecutor两种并发执行方式。map()方法会等待所有任务完成后再按提交顺序处理结果,适合需要保持顺序的场景;而as_completed()则会在每个任务完成后立即处理,按照完成顺序返回结果,适合优先处理快速完成任务的场景。实验数据显示,对于3个耗时不同的任务(3秒、2秒、1秒),map()会在3秒后统一输出结果,保持

2025-11-27 01:14:16 339

原创 BGE-M3使用理解

【摘要】BGE-M3是一种创新的多模态检索模型,能同时支持稠密嵌入(语义)和稀疏(词匹配)检索。它通过单次计算即可输出:1)整体语义向量;2)词级权重(类似BM25);3)细粒度的多向量表示。这种设计实现了三种检索方式的统一:稀疏检索(BM25式精确匹配)、稠密检索(语义理解)和多向量检索(上下文感知匹配)。特别适用于混合检索场景,无需多次计算即可融合语义和词频特征,与Vespa/Milvus等系统兼容,在保持检索效率的同时显著提升结果质量。(149字)

2025-11-12 00:22:09 749

原创 Bootstrap抽样覆盖率验证

对于既定的样本,当我们抽取足够多的 Bootstrap 样本时,统计量Tn*的经验分布会接近于 Bootstrap 的理论分布。n->无穷andB->无穷,Bootstrap抽样分布一致收敛于真实抽样分布。n是代表对总体进行n次iid抽样得到X={X1,X2,...Xn}然后每一次抽样又“有放回抽取”n次,这里又用到n了注意⚠️。Bootstrap 分布一致收敛于真实抽样分布。

2025-10-29 15:49:31 216

原创 vscode断点使用

点启动调试,jupyter点调试单元格。向下箭头单步调试,打印出来后结果。可以看到变量的各种属性了。

2025-10-27 21:10:27 211

原创 Feature Selection

特征选择流程包括:1)通过过滤法、逐步增减或随机选取方法初选属性子集;2)使用卡方检验、IV值等指标评估子集相关性;3)判断是否需更新子集,循环至最优。过滤法独立评估特征,逐步增减采用贪心算法可能局部最优,Wrapper方法用分类模型评估但效率较低。IV值通过WOE加权和衡量特征预测能力,计算需区分正负样本分布。整体流程通过迭代优化选取最佳特征子集。

2025-10-13 18:22:52 561

原创 Jupyterlab pip 无法安装到当前kernel对应环境下

文章摘要:在base环境下使用pip安装包时出现问题,建议先激活目标环境"quanyulijie"后再进行安装操作。具体步骤为:conda activate quanyulijie,然后安装jupyterlab、ipykernel和jupyternotebook等必要组件。这样可以避免环境混淆导致的安装问题。

2025-10-13 15:54:28 179

原创 Apriori&FP-Growth算法详解

Apriori与FP-Growth算法对比:两种经典频繁项集挖掘方法。Apriori通过逐层生成候选项集并计算支持度来发现频繁项集,存在组合爆炸问题。FP-Growth则通过构建紧凑的FP树结构,仅需两次数据库扫描,利用条件模式基递归挖掘,避免了候选集生成。实验显示FP-Growth在处理长模式和大量频繁项时效率显著优于Apriori,特别适合大规模数据集。两种算法各具特点:Apriori原理直观但计算量大,FP-Growth效率高但实现复杂。

2025-10-12 22:55:02 920

原创 (树)Leetcode236二叉树的最近公共祖先

(树)二叉树的最近公共祖先

2025-09-26 01:08:56 181

原创 (队列)Leetcode239 滑动窗口的最大值

(队列)Leetcode239 滑动窗口的最大值

2025-09-23 22:41:03 234

原创 (树/递归)Leetcode98二叉搜索树+100. 相同的树

(树)Leetcode98二叉搜索树

2025-09-18 23:46:29 209

原创 (回溯/组合)Leetcode77组合+39组合总和+216组合总和III

(回溯/组合)Leetcode77组合+39组合总和+216组合总和III

2025-09-08 21:46:58 237

原创 (双指针)LeetCode 209 长度最小的子数组+3 无重复字符的最长子串

LeetCode 209 长度最小的子数组+LeetCode3 无重复字符的最长子串

2025-09-05 15:45:05 442

原创 (树)Leetcode94二叉树的中序遍历+110平衡二叉树

(树)Leetcode94二叉树的中序遍历110平衡二叉树LCR 046. 二叉树的右视图

2025-08-31 19:35:07 422

原创 (链表)Leetcode206链表反转+Leetcode6删除链表的倒数第N个结点+虚拟头节点使用

(链表)Leetcode206链表反转+Leetcode6删除链表的倒数第N个结点+虚拟头节点使用

2025-08-30 21:47:31 307

原创 (双指针)Leetcode283.移动零-替换数字类别+Leetcode15. 三数之和

(双指针)Leetcode283.移动零-替换数字类别+Leetcode15. 三数之和

2025-08-30 13:02:49 332

原创 (二分查找)Leetcode34. 在排序数组中查找元素的第一个和最后一个位置+74. 搜索二维矩阵

(二分查找)Leetcode34. 在排序数组中查找元素的第一个和最后一个位置+74. 搜索二维矩阵

2025-08-28 23:42:13 948

原创 不同类型指标如何进行AB实验:Delta-Method在AB实验中的应用

文章介绍了AB实验中,对于不同类型的指标,如何进行假设检验。对于渐进分布的计算进行了详细的介绍,对delta-method/bootstrap感兴趣的朋友可以参考一下。

2025-08-26 01:00:04 644

原创 (栈)Leetcode155最小栈+739每日温度

堆算法相关leetcode题

2025-08-21 23:34:18 384

原创 (动态规划)Leetcode70爬楼梯+518零钱兑换

简单题爬楼梯,给出不同时间和空间复杂度的解法

2025-08-19 18:05:47 385

原创 如何在GPU上安装使用Docker

如何在服务器上安装Docker,并且可以使用GPU访问容器

2025-08-07 22:36:37 497

原创 小白也能掌握的LLM DPO算法!

DPO(直接偏好优化)是一种替代传统RLHF的新方法,它通过三元组数据(prompt、好结果、坏结果)直接构建偏好损失函数,无需显式训练奖励模型。基于Bradley-Terry模型,DPO将偏好比较转化为分类问题,使用交叉熵损失优化语言模型策略,使其在好结果上的生成概率高于参考模型,在差结果上低于参考模型。相比RLHF的两阶段流程(先训奖励模型再PPO优化),DPO简化了训练过程,通过隐式奖励最大化实现模型优化。

2025-07-25 16:16:00 524

原创 如何在Linux服务器上安装CUDA

如何在Linux服务器上安装CUDA,并且检查是否安装成功

2025-07-25 14:53:44 671

原创 安装miniconda

安装miniconda

2025-07-24 13:31:09 118

原创 大模型微调所需显存计算(二)

这一期讲解一下如何估计大模型微调所需显存,其影响因素可以概括为:模型本身参数+梯度参数+优化器状态+激活值+其他

2025-07-22 12:07:17 1752

原创 估计大模型推理部署所需显存(含KV cache讲解)(一)

如果你想入门大模型并自己部署,掌握大模型在推理、部署和微调过程中所需的显存是非常关键的一步,特别是当你需要租用昂贵的显卡资源时更是如此。本文介绍了在模型推理时所需显存和什么关键变量相关,以及KVcache的讲解

2025-07-21 17:34:53 1466 1

原创 如何在KL散度的意义下解释极大似然估计(二)

解释三个问题1.MLE和最小化KL散度的等价性 2.作为损失函数使用 3. 为什么二分类问题使用交叉熵损失而不是均方误差损失?

2025-07-17 23:28:31 443

原创 KL Divergence:如何衡量两个概率分布之间的距离(一)

解释何为熵、交叉熵、KL散度

2025-07-16 15:30:16 751

原创 python itertools模块:itertools.product(一)

python itertools模块:itertools.product使用,结合df.iterrows()返回两个dataframe处理后行的笛卡尔积

2025-07-09 14:32:04 325

原创 如何使用numpy和pandas处理数据-查看数据类型/计算聚合统计量/loc iloc/merge concat(二)

1.使用pandas创建dataframe,修改df的列名 2.查看dataframe每一列数据类型 3.计算df的聚合统计量 4.使用iloc/loc进行行列索引 5.df.drop删除单列多列 6.merge和concat

2025-07-02 18:03:14 536

原创 Joblib库多进程/线程使用(一):使用generator参数实现边响应边使用

介绍了进程线程的概念,并且简单介绍了Joblib库多进程/线程使用,最后使用generator参数实现边响应边使用

2025-06-24 16:02:19 1135

原创 使用Python处理元祖/列表等结构封装的数据(一)

使用Python处理元祖/列表等结构封装的数据(一)1.zip函数使用 2.列表表达式/map函数 3.any/all()

2025-06-16 15:35:49 447

原创 如何使用numpy和pandas处理数据-apply/np.where/iterrows()处理行数据(一)

如何使用numpy和pandas处理数据?and/or/not和&/|/~基本知识,None,NAN基本概念,以及如何用apply/np.where/iterrows()处理行数据

2025-06-11 17:47:07 1142

原创 一文掌握Python中可变(mutable)与不可变(immutable)对象问题

一文掌握Python中可变(mutable)与不可变(immutable)对象问题

2025-06-10 16:54:55 244

原创 一文了解异常检测基础知识并应用于实战

一文了解python异常检测基础知识并应用于实战

2025-06-09 14:01:16 695

原创 使用EdgeOne和Cursor 一键生成和部署个人网站

使用EdgeOne和Cursor 一键生成和部署个人网站!免费!小白也行!

2025-05-09 15:53:47 517

原创 如何使用edu邮箱白嫖Cursor Pro,chrome如何修改前端代码并生效

chrome如何修改前端代码并生效,白嫖cursor一年pro

2025-05-09 15:02:33 641

原创 没有conda,怎么用pip进行虚拟环境创建和包管理

没有conda,怎么用pip进行虚拟环境创建和包管理

2025-04-27 11:02:46 286

原创 如何下载使用awscli

如何下载使用awscli

2025-04-22 17:29:23 577

哈夫曼树和线索二叉树的实现

哈夫曼树和线索二叉树的实现

2022-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除