- 博客(76)
- 收藏
- 关注
原创 YOLO5
(宽度系数)控制网络层数和通道数,衍生出n( nano)、s(small)、m(medium)、l(large)、x(extra large)5个版本,适配不同硬件场景(从手机到GPU)。替代YOLOv4的传统下采样,通过“切片拼接”将640×640×3的输入图像转化为320×320×12的特征图,减少计算量的同时保留更多细节特征,提升小目标检测能力。替换YOLOv4的SPP模块,用“1×1卷积+多尺度池化+拼接”的简化结构,在保持感受野的前提下大幅降低计算复杂度,推理速度提升约20%。
2025-11-07 07:49:31
31
原创 YOLO4
Bag of Specials(BOS,网络设计)**两大策略,在单GPU上实现实时检测的同时,精度超越同期模型(如COCO数据集上AP达43.5%,FPS约65)。,提出**Bag of Freebies(BOF,训练技巧)YOLOv4将目标检测领域的先进技术进行。
2025-11-03 18:26:26
691
原创 Django项目
通过以上配置和流程,Django可作为高效的后端API服务,与前端框架无缝配合,实现前后端分离的Web应用开发。使用DRF的视图类(如。示例:自定义注册视图(
2025-11-03 18:25:23
1907
原创 大模型中的位置编码
ALIBI的核心是偏置b_k的设计,其中(即两个token的距离)。论文中证明线性偏置bk−m⋅kbk−m⋅k其中m是一个正的系数(斜率),用于控制偏置随距离的衰减速度。ALIBI通过在注意力分数中引入与token距离成线性关系的偏置,实现了对位置信息的高效建模。其核心优势是无额外参数、长序列泛化能力强,已被应用于多个大模型(如LLaMA的部分变体)中。与传统位置编码相比,ALIBI更符合注意力机制的本质(关注近距离依赖),且在训练短序列、推理长序列的场景下表现优异。
2025-11-02 07:24:40
1104
原创 DPO与PPO
PPO是强化学习领域的“瑞士军刀”,以稳定性和通用性著称,适合需要显式奖励信号的任务;DPO是大模型对齐的“新利器”,通过简化RLHF流程大幅降低工程难度,更适合依赖人类偏好的场景。选择时需根据任务类型(是否有明确奖励/偏好数据)和计算资源权衡。
2025-11-02 07:04:02
1137
原创 MobileNet v3
MobileNet v3通过NAS搜索与人工设计结合,实现了“精度-效率-延迟”的三重优化,其h-swish激活、SE模块嵌入和首尾结构调整成为轻量级网络的设计范式。Large版适合对精度要求高的场景(如智能相机),Small版适合资源极度受限的设备(如嵌入式传感器),至今仍是移动端视觉任务的标杆模型。
2025-11-02 07:02:56
761
原创 多模态生成 Flamingo
基础模型:Chinchilla(70B参数)或Gopher(280B参数),仅微调插入的门控交叉注意力层。输入处理:文本通过BPE编码为Token序列,图像/视频用特殊标记$ <\text{image}> $表示,序列总长度限制为256。Flamingo系列通过冻结预训练模型+轻量桥接模块的设计,在少样本多模态推理中取得突破性进展。架构创新:感知器重采样器和门控交叉注意力层实现高效多模态融合。数据范式:利用互联网级图文交织数据,突破传统图文对的局限性。工程优化。
2025-11-01 21:44:33
910
原创 多模态生成 DALL-E
DALL-E系列推动了AI生成图像技术的商业化落地,广泛应用于广告设计、教育、医疗等领域。DALL-E系列(DALL-E、DALL-E 2、DALL-E 3)是文本到图像生成领域的里程碑式模型,
2025-11-01 21:41:28
639
原创 目标跟踪 deepsort
DeepSORT(Deep Simple Online and Realtime Tracking)是SORT算法的核心改进版,核心突破是,在保持实时性(FPS≈30)的同时,大幅提升多目标跟踪的稳定性和鲁棒性,成为多目标跟踪领域的经典基准算法。
2025-11-01 21:40:58
820
原创 分类 EfficientNet
EfficientNet的核心价值在于**“以最小计算量实现最高精度”**,其复合缩放策略和高效模块设计为后续轻量级模型(如EfficientNetV2)奠定了基础,至今仍是分类、检测、分割等任务的常用骨干网络。
2025-10-31 10:47:14
788
原创 MobileNet v1
MobileNet v1的核心价值在于用深度可分离卷积实现计算量与精度的极致平衡,其模块化设计和缩放策略为移动端模型开发提供了范式。尽管后续版本(v2/v3)引入了残差连接和NAS优化,但v1的基础思想至今仍是轻量级网络的基石。
2025-10-31 07:02:49
855
原创 VIT详细讲解
ViT在超大规模数据集(如JFT-300M,包含3亿张图像)上预训练后,迁移到中小规模数据集(如CIFAR-10、VTAB)时性能超越顶尖CNN模型(如BiT、Noisy Student)。ViT首次将标准Transformer编码器直接应用于图像分类任务,摒弃了传统CNN的卷积操作,证明了Transformer在视觉领域的通用性。在块嵌入序列前添加可学习的CLS Token,其输出通过多层Transformer编码器后聚合全局信息,作为图像的最终表示用于分类。是可学习的位置编码。
2025-10-31 07:00:17
639
原创 YOLO2论文
YOLO2的损失函数基于YOLO1优化,核心调整来自Anchor Boxes的引入,损失函数整体形式如下:Loss=λcoord∑i=0S2∑j=0AIijobj[(tx−t^x)2+(ty−t^y)2]+λcoord∑i=0S2∑j=0AIijobj[(tw−t^w)2+(th−t^h)2]+∑i=0S2∑j=0AIijobj(C−C^)2+λnoobj∑i=0S2∑j=0AIijnoobj(C−C^)2+∑i=0S2Iiobj∑c∈classes(pc−p^c)2\begin{align*}Loss
2025-10-30 06:32:01
487
原创 CLIP论文解析
CLIP(Contrastive Language-Image Pretraining)核心是通过对比学习对齐图文语义空间,实现零样本泛化。
2025-10-30 06:30:46
612
原创 python性能调优
优化方向核心原理最佳适用场景加速效果局限性GIL规避多进程/释放GIL实现并行CPU密集型(计算、算法)多核场景提速≈核数进程通信成本高、内存占用大异步优化事件循环减少I/O等待I/O密集型(网络、数据库)高并发场景提升10-100倍不适合CPU密集型PyPy加速JIT编译为机器码循环密集型纯Python代码5-50倍对C扩展兼容性差选择策略若代码有大量循环/计算 → 优先用PyPy;若代码是API服务/爬虫(多I/O) → 用异步优化;
2025-10-30 06:29:17
664
原创 LLama系列大模型
架构演进:从基础Transformer架构逐步引入GQA优化注意力机制,最终发展到MoE混合专家架构和多模态融合,实现了从密集模型到高效稀疏模型的转变,大幅提升了性能与效率比。多模态能力:从单一文本模型扩展到支持视觉、图像等多模态输入,LLama 4采用早期融合机制,将文本与视觉token一体化输入模型主干,实现了端到端的多模态理解和生成。上下文长度突破。
2025-10-29 06:47:50
744
原创 智能体提示词优化
在多智能体协同工作场景中,提示词优化的核心是,确保智能体之间目标对齐、信息流转高效、冲突可追溯。以下是结合工程实践的优化方法论,包含。
2025-10-29 06:45:53
1015
原创 YOLO1论文
核心贡献:首次将目标检测任务转化为端到端的回归问题,摒弃传统两阶段算法的候选框生成步骤,实现实时检测。S=7:图像划分的网格数B=2:每个网格预测的边界框数C=20:PASCAL VOC数据集的类别数(x,y):边界框中心相对于所在网格的归一化坐标(0-1)(w,h):边界框宽高相对于整幅图像的归一化比例(0-1)xiyixiyi等:模型预测值;xiyix_i、y_ixiyi等:真实标签值。
2025-10-29 06:44:26
923
原创 PID控制算法
核心优势:结构简单、参数调整直观、鲁棒性强,适用于线性和弱非线性系统。参数调试:通常遵循“先比例(P)、再积分(I)、后微分(D)”的原则,或使用Ziegler-Nichols等工程整定方法。局限性:对强非线性、时变系统控制效果有限,需结合自适应控制、模糊控制等改进。PID控制是控制工程的基础,掌握其原理和实现对工业自动化、机器人控制等领域至关重要。
2025-10-28 06:52:50
845
原创 python异步编程
库名角色核心场景与asyncio的关系asyncio异步基础框架协程调度、事件循环管理、并发任务控制所有异步库的运行时依赖aiohttp异步HTTP客户端/服务器高并发爬虫、API调用、异步Web服务基于asyncio实现,需在事件循环中运行asyncmy异步MySQL驱动异步数据库查询、插入,高并发Web应用基于asyncio实现,提供异步数据库接口关键原则异步编程只适合I/O密集型任务。
2025-10-28 06:51:46
919
原创 开发中的安全问题
安全场景核心防护手段代码关键操作XSS输入过滤、输出编码、CSPJsoup过滤、Vue自动转义、CSP头SQL注入参数化查询、ORM框架、输入验证CSRFToken验证、SameSite CookieSpring Security CSRF、SameSite配置HTTPS配置申请证书、服务器加密配置Nginx SSL配置、HTTP跳转HTTPS敏感数据加密密码哈希+盐、AES对称加密BCrypt加密、AES加解密。
2025-10-28 06:50:47
959
原创 蚁群(Ant Colony Optimization, ACO)算法
优点:鲁棒性强(对初值不敏感)、全局搜索能力强(通过群体协作和正反馈)、适合解决复杂组合优化问题。缺点:收敛速度较慢(需多次迭代)、参数敏感(α\alphaαβ\betaβρ\rhoρ需调优)、对高维问题效率低。适用场景:旅行商问题(TSP)、车辆路径规划(VRP)、网络路由优化、调度问题等组合优化领域。
2025-10-27 07:52:30
1609
原创 AdaBoost(Adaptive Boosting)算法
优点:无需手动设计弱分类器(默认决策树桩即可);对噪声不敏感(相比其他Boosting算法);可解释性较强(弱分类器权重反映重要性)。缺点:训练时间随弱分类器数量增加而增长;对异常值敏感(错分样本权重持续放大);难以处理高维稀疏数据(需配合特征选择)。适用场景:二分类/多分类任务(如欺诈检测、图像识别),尤其适合中等规模数据集。
2025-10-26 05:46:30
923
原创 线性判别分析
LDA通过最大化“类间散度/类内散度”实现有监督降维,核心是求解Sw−1SbSw−1Sb的特征向量;手动实现需计算类均值、类内/类间散度矩阵,sklearn封装了高效实现,支持多分类;与PCA相比,LDA更关注“分类友好性”,适合有标签的降维场景,但受限于类别数的降维上限。若数据存在非线性结构,可扩展至核LDA(Kernel LDA),通过核函数将数据映射到高维后再应用LDA,捕捉非线性分类信息。
2025-10-26 05:45:58
627
原创 潜在语义分析
优点:能有效捕捉潜在语义,解决一词多义和多词一义问题;实现简单,基于成熟的SVD理论。缺点:计算复杂度高(SVD对大型矩阵耗时);无法处理动态语料(新增文档需重新训练);缺乏概率解释(难以量化语义关联的置信度)。适用场景:文本检索(如搜索引擎)、主题识别、文档聚类、同义词挖掘等NLP任务。
2025-10-25 06:21:31
653
原创 余弦退火算法(Cosine Annealing)详解
sklearn的或支持通过# 自定义余弦退火学习率# 初始化模型model = SGDClassifier(learning_rate='constant', eta0=0.1) # 初始学习率eta0=0.1X, y = np.random.randn(1000, 10), np.random.randint(0, 2, 1000) # 模拟数据# 训练并手动调整学习率T = 100 # 周期长度# 每次迭代更新学习率# 部分拟合(每次训练一个batch)核心优势。
2025-10-25 06:21:13
1119
原创 牛顿法与拟牛顿算法详解
算法核心优势核心缺陷适用场景牛顿法收敛快(二阶收敛)计算海森矩阵及逆成本高,高维困难低维、函数光滑的优化问题拟牛顿法收敛较快,计算成本低近似矩阵可能偏离真实曲率高维优化(如机器学习模型训练)牛顿法和拟牛顿法是数值优化的核心算法,尤其在机器学习中,拟牛顿法(如BFGS、L-BFGS)是训练复杂模型(如XGBoost、神经网络)的常用工具。
2025-10-24 05:35:10
1096
原创 反向传播算法
输入层:1层(输入向量x∈Rn0x∈Rn0n0n_0n0为输入特征数);隐藏层:1层(神经元数n1n_1n1输出层:1层(神经元数n2n_2n2,输出向量a2∈Rn2a2∈Rn2,即预测值)。符号定义LLL:损失函数(衡量预测值与真实值yyy的差异,如均方误差、交叉熵);WlW^lWl:第lll层到第l1l+1l1层的权重矩阵(维度nl×nl−1nl×nl−1Wi。
2025-10-24 05:34:41
631
原创 Transformer结构与输入处理详解
Transformer的核心是用自注意力机制替代序列依赖,用并行计算提升效率,用多头注意力和残差连接增强模型能力。预处理:分词→Token ID映射;编码:嵌入+位置编码→编码器堆叠(双向注意力)→上下文向量;解码:嵌入+位置编码→解码器堆叠(掩码注意力+跨注意力)→输出向量;生成:线性投影+Softmax→概率分布→预测序列。
2025-10-24 05:34:10
846
原创 朴素贝叶斯算法
朴素贝叶斯通过特征独立性假设简化计算,适合高维数据(如文本分类)。核心公式基于贝叶斯定理,推导依赖独立性假设。实现时需注意概率下溢问题(用对数转换解决)。sklearn 提供了开箱即用的接口,支持多种数据类型。
2025-10-23 06:03:25
862
原创 K近邻(K-Nearest Neighbors, KNN)算法
优点:简单易实现,对非线性数据有效,无需假设数据分布。缺点:计算量大(预测时需遍历所有训练样本),对高维数据敏感(维度灾难),对不平衡数据和噪声敏感。适用场景:小样本数据集、分类任务(如推荐系统、图像识别初步分类)。实际应用中,常通过降维(如PCA)或KD树/球树优化KNN的计算效率。
2025-10-23 06:03:12
1290
原创 逻辑斯蒂回归(Logistic Regression)算法
优点:输出为概率,可解释性强(权重反映特征重要性);训练高效(凸优化问题);适合作为基线模型。缺点:仅能捕捉线性关系(需手动构造非线性特征);对异常值敏感;高维数据下可能过拟合(需正则化)。适用场景:二分类任务(如风险评估、点击率预测)、多分类(通过One-vs-Rest或Softmax)。
2025-10-23 06:02:52
1006
原创 k-means
K-Means通过交替优化簇分配和簇中心,最小化簇内平方误差和,实现高效聚类。手动实现可理解核心逻辑,sklearn版本则适合工程应用(优化了初始化、空簇处理等细节)。
2025-10-22 03:46:01
623
原创 XGBoost算法
XGBoost是加法模型,由KKK棵决策树组成,对样本xix_ixiyi∑k1Kfkxiyik1∑Kfkxi其中fkx∈Ffkx∈FFF是所有可能的决策树集合),fkxf_k(x)fkx表示第kkk棵树对样本xxx的输出(叶子节点权重)。XGBoost通过二阶泰勒展开优化目标函数,结合正则化控制树复杂度,实现高效且泛化能力强的集成学习。
2025-10-22 03:45:46
845
原创 SVM 支持向量机
w⋅xb0w⋅xb0ww1w2wdTww1w2...wdT是超平面的法向量(决定超平面方向);bbb是偏置(决定超平面位置);xx1x2xdTxx1x2...xdT是样本特征向量。样本到超平面的“几何间隔”(对w\mathbf{w}w和bbbγiyiw⋅xib∥w∥γi∥w∥yiw⋅xibyi∈1−1。
2025-10-22 03:45:28
747
原创 主成分分析
中心化数据的协方差矩阵S∈Rp×pS∈Rp×pS1n−1XTXSn−11XTX其中SijS_{i,j}Sij表示第iii个特征与第jjj个特征的协方差,对角线元素SiiS_{i,i}Sii为第iii个特征的方差。VarZwTSwVarZwTSwPCA通过最大化投影方差实现降维,主成分是协方差矩阵的特征向量,特征值表示信息重要性;
2025-10-21 06:25:44
789
原创 奇异值分解
对于任意一个实数矩阵A∈Rm×nA∈Rm×nmmm行nnnAUΣVTAUΣVTU∈Rm×mU∈Rm×m:左奇异向量矩阵,是正交矩阵(满足UTUImUTUImImI_mIm为mmm阶单位矩阵);Σ∈Rm×nΣ∈Rm×n:奇异值矩阵,是对角矩阵(非对角元素全为0),对角线上的元素称为“奇异值”,记为σ1≥σ2≥⋯≥σk≥0σ1≥σ2≥。
2025-10-21 06:15:09
746
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅