- 博客(49)
- 收藏
- 关注
原创 为什么为了让邻近位置得分高,必须满足:方向(Q1) ≈ 方向(K2),而且Multi-Head是怎么学到不同的几何关系的,如果我设置的head数量不同呢
要让 Q1 对 K2 的注意力分数更高,必须保证它们方向接近(数学上唯一可行)。
2025-12-11 17:32:15
731
原创 为什么加上位置编码后 patch 会有空间信息 需要解释一下
很多人以为:实际上理解这个问题,只需要搞清楚两件事:本质很简单:比如:加到 patch feature 上以后:现在每个 patch 的 embedding 都不同了,不仅包含内容,还包含位置。这一点非常关键:Transformer 的注意力更新公式:也就是说:于是注意力权重:会自动包含:举例:→ 注意力更容易连通它们→ 模型从注意力结构中学到“它们是邻居”→ 注意力连接更弱→ 模型学到“它们距离远”注意力矩阵逐渐学到 二维空间拓扑结构。你可能会问:原因是:✔ 注意力天然会把相邻 index
2025-12-11 17:31:12
646
原创 vit创建一组可学习的位置编码是怎么初始化的,怎么体现不同位置的
这已经在大量论文中可视化过 —— 位置编码的 PCA 会形成非常规整的 2D 网格。举例:Transformer 在训练时会学习任务(分类或对比学习)。Transformer 看到足够多的数据后会自动学出二维结构。Transformer 的 Q/K/V 是从。假设某个任务需要识别“猫在左边还是右边”。OpenCLIP/CLIP 的实现是。ViT 的位置编码本质上是。(不像卷积是 2D)。
2025-12-11 17:29:59
849
原创 多头和q,kv的区别
概念含义Q/K/VAttention 的基本向量(Query/Key/Value)多头(Multi-Head)使用多组 Q/K/V 并行地做注意力Q/K/V 是向量,多头是结构。← 最重要。
2025-12-11 17:26:39
249
原创 服务器的端口有多少个,为什么是这个数量
服务器端口数量 =65,536 个由TCP/UDP 端口字段为 16 位决定分为 well-known / registered / dynamic 三类历史兼容性导致该标准永久固定。
2025-11-28 14:50:04
390
原创 <module> register_finder(pkgutil.ImpImporter, find_on_path) AttributeErro
Python 3.12 对应的 get-pip.py 是新版,兼容性是没问题的。pipx 是纯 Python 工具,用 conda-forge 安装最稳。所以 pip 在 Python 3.12 下直接崩了。仍然试图使用这些已移除的 API,因此无法运行。我可以一步步带你配置到可正常使用 Strix。如果成功,pipx 就能安装了。
2025-11-26 16:12:55
311
原创 ID3 算法为什么可以用来优化决策树
信息增益驱动:每次选择最能区分类别的特征,减少树的不确定性。贪心递归构建:快速生成高效结构,尽可能少的分支和深度。提前停止划分:避免冗余节点,提高分类效率。ID3 用“最优划分特征优先”的策略,让树更短、更准确、更高效。
2025-11-24 14:25:22
125
原创 大模型微调
非常好 👍你已经有(这点非常有优势),转向其实正是目前最有潜力的方向之一。下面我帮你系统梳理一下——的完整路线图,分为四个阶段讲清楚每个阶段该学什么、做到什么水平,以及可以如何结合你的已有技术栈。
2025-11-07 17:07:49
679
原创 项目下有多个模块,每个模块有pom文件,是怎么继承的
项目角色说明父 pom统一管理版本、插件、属性子 pom继承父 pom,声明自身依赖管理但不引入依赖<modules>声明子模块路径会构建所有模块,保证依赖顺序。
2025-11-05 16:20:19
433
原创 XGBoost的原理
初始化预测值(常数)计算梯度和二阶导寻找最优分裂点,生成新树更新预测值重复若干轮,直到损失不再下降XGBoost 是一种基于梯度提升(Boosting)的高效树模型,它通过一阶 + 二阶导数近似、正则化与并行优化,使得模型兼具速度、精度和泛化能力。如果你想更进一步,我可以帮你画一个图(流程图或残差拟合示意图)来直观理解“多棵树逐步修正误差”的过程,要不要我画一个?
2025-11-03 16:16:23
680
原创 蓝绿部署的具体方式是怎么切换流量的
切换方式控制层切换速度零停机成本回滚难度负载均衡器切换网络层秒级✅高很容易应用层秒级✅中容易K8s Label服务编排层秒级✅中容易DNS域名层分钟级⚠️ 可能短暂中断低较慢。
2025-11-03 13:59:45
505
原创 服务各部署的区别
名称一句话理解蓝绿部署“两套环境,切换指针”金丝雀发布“先让一小部分人试试看”滚动部署“逐台更新”灰度发布“渐进式上线,动态调整流量”
2025-11-03 13:52:07
427
原创 Agent 与 Workflow 的区别总结
🔹Agent = 智能决策与行动的单元(可思考、可执行)🔹Workflow = 多个 Agent 或工具的编排逻辑(执行路径固定或可配置)
2025-10-30 13:50:35
247
原创 vue项目中有的多个.env文件的配置
命令默认 mode加载文件.envproduction.envtest.env.env.testA.env.env.A.env.A以--mode A.env.env.local.env.A.local文件优先级最高,且默认会被.gitignore忽略(适合存放机密变量)。Vue CLI 的文件机制是可扩展的:除了默认的productiontest你可以用任意自定义模式(如.env.A.env.B),只要在命令中使用--mode A或--mode B。
2025-10-28 14:50:27
392
原创 为什么python服务需要设置host为0.0.0.0才能被外部访问,127.0.0.0不行
地址含义是否允许外部访问127.0.0.1仅监听本机 loopback 接口❌0.0.0.0监听所有网卡接口✅127.0.0.1= “只让我自己听”;0.0.0.0= “谁都能来听,但要我自己防护”。
2025-10-28 14:48:24
1144
原创 基于大模型的中文问题英文答案的中问英答方案
这些模型在训练时大多数语料为英文,因此它们的输出语言自然倾向于英文。只要你再在提示词上“锁死”输出语言,就能实现稳定英文回答。WEBCPM:最近一个“中文问题”+“中文答案”但构造过程中参考了英文QA论坛。PsyQA:中文心理健康问答数据集(22,000个问题+56,000多答案)(这样即使模型在对话中遗忘系统规则,也会被本轮 prompt 拉回英文输出。MLQA:多语言抽取式问答基准数据,包含简体中文和英文。、且英文表达自然流畅的模型。即使模型能多语言理解,你仍需要。
2025-10-28 14:04:57
735
原创 Gunicorn + Flask 体系下精准区分两类超时来源(连接层超时和应用层超时)
Gunicorn + Flask 体系下精准区分两类超时来源:这类问题 Gunicorn 默认日志看不出来,我们需要通过日志+配置结合分析。下面是一份完整的实践指南👇Gunicorn 只有一种真正的“超时”:它监控的是:因此:如果日志中出现→ 请求已连接,但没被及时处理或卡在内部逻辑(应用层问题)。如果没有此日志但客户端报超时→ 请求可能根本没到 Gunicorn(连接层问题)。我们可以让 Flask 主动打印三个阶段:启动命令:分析逻辑:加上:日志格式(默认):分析方式:临时查看 TCP
2025-10-27 09:56:02
786
原创 相似度算法原理
算法类型特点典型场景Cosine相似度方向敏感,长度无关文本 / Embedding 检索Euclidean距离长度敏感,距离越小越相似图像向量、数值特征相似度长度敏感,分数越大越相似推荐、召回排序Manhattan距离稀疏向量效果好TF-IDF / Sparse 特征Jaccard集合二值向量 / 关键词标签匹配、关键词相似度Hamming二值距离二进制 hash 向量文档去重、SimHashMMR多样化综合相关性与多样性QA / 多文档检索。
2025-10-24 13:59:59
382
原创 3D点云 → 光场多视角渲染 → 裸眼3D显示
步骤输入输出技术核心① 点云重建多相机或NeRFPLY/GLB点云深度估计 + 匹配② 多视角渲染点云 + 相机位姿多视角RGB图像③ 光场合成多视角图像裸眼3D显示帧光场SDK / GPU渲染④ 屏幕显示光场帧裸眼3D图像光栅透镜成像。
2025-10-14 15:43:09
418
原创 裸眼3D光场显示核心技术总结
阵列结构:多摄像头平面或半球排列覆盖不同视角。同步采集:硬件触发或软件时间戳保证同步。标定:获取相机内参和外参,常用工具 OpenCV、COLMAP、AliceVision。输出:同步图像帧集合,每帧带时间戳。
2025-10-14 14:47:42
291
原创 yolo各版本区别特点
YOLOv1 → 单阶段检测 (regression)YOLOv2 → Anchor 机制 + 多尺度训练YOLOv3 → FPN + 多尺度预测YOLOv4 → CSP + SPP + PAN + 增强训练YOLOv5 → PyTorch 重写 + 工程优化YOLOv6 → 工业优化 + RepConv + Anchor-freeYOLOv7 → E-ELAN + 辅助头 + 多任务融合YOLOv8 → Anchor-free + 解耦头 + 统一框架。
2025-10-14 09:48:36
742
原创 TypeError: CLIPTextModel.__init__() got an unexpected keyword argument ‘offload_state_dict‘
【代码】TypeError: CLIPTextModel.__init__() got an unexpected keyword argument ‘offload_state_dict‘
2025-10-09 17:52:56
146
原创 BM25 + 向量检索融合 的 Python 示例
文档: 苹果公司发布了新款 iPhone | BM25: 1.32 | 向量: 0.62 | 融合: 0.69。文档: 乔布斯创立了 Apple 公司 | BM25: 2.41 | 向量: 0.87 | 融合: 0.95。文档: 橙子富含维生素C | BM25: 0.00 | 向量: 0.11 | 融合: 0.04。👉 可以看到,既利用了 关键词命中,又利用了 语义相似度。用 BM25 做关键词匹配,得到稀疏检索分数。对两种分数做 归一化 + 加权融合,再排序。=== 混合检索结果 ===
2025-09-11 14:42:49
231
原创 BM25 的核心公式解析
比如“苹果”出现 100 次和 1000 次,相关性差不多,不应该加太多分。常见词(比如“的”、“是”)几乎每篇文章都有,不代表相关性高。所以 BM25 用了个“饱和函数”让分数逐渐趋于平稳。所以 BM25 会对长文档“降权”,对短文档“升权”。一个关键词在文章里出现得多,说明文章跟关键词更相关。如果文章很长(比如百科全书),关键词自然更容易出现;如果文章很短(比如微博),出现一次就很重要。所以 BM25 给稀有词高分,常见词低分。稀有词(比如“石墨烯”)更能区分文档。关键词的重要性(IDF,逆文档频率)
2025-09-11 14:36:25
125
原创 finishConnect(..) failed: Connection refused
【代码】finishConnect(..) failed: Connection refused。
2025-08-18 15:44:38
132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅