- 博客(119)
- 资源 (12)
- 收藏
- 关注
原创 mcp初探
本文介绍了MCP服务的部署与Dify平台配置过程:1)通过Python编写MCP服务代码(mcp_test.py),实现获取系统时间功能;2)配置环境依赖并启动服务;3)在Dify平台添加MCP服务并配置IP地址;4)通过创建工作流测试服务连通性。整个流程包含服务端部署和平台集成两个主要环节,最终实现系统时间查询功能的自动化工作流调用。
2025-09-16 17:22:20
160
原创 mineru+docker+dify实现文档识别
本文介绍了通过Docker方式部署MinerU并与Dify集成的完整流程。首先下载源码和Dockerfile构建mineru-sglang镜像,然后通过docker-compose启动网页界面、API和加速服务。接着在Dify中安装MinerU插件并进行授权配置,需修改.env文件中的FILES_URL参数。最后演示了在Dify工作流中成功解析PDF文件内容的操作。该方法比源码安装更便捷,适合需要快速部署MinerU的用户。
2025-09-16 14:25:28
486
原创 mineru+dify实现文档识别
本文介绍了Mineru和Dify两款工具在文档识别与处理中的协同应用。Mineru作为高性能OCR工具,提供高精度文本识别和多语言支持;Dify则是强大的数据处理平台,支持多种数据源和可视化工作流设计。通过整合二者,可实现从文档扫描到数据处理的自动化流程,显著提升工作效率。文章详细说明了安装配置步骤、API服务启动方法以及在Dify中创建工作流的实践指南,为数字化转型中的文档处理提供了完整解决方案。
2025-09-15 14:28:21
209
原创 Dify自定义插件
Dify插件CLI工具安装与使用指南:本文介绍了如何安装和使用Dify插件CLI工具进行插件开发。主要内容包括:1) 下载并安装CLI工具;2) 常用指令说明;3) 创建插件项目的完整流程,包括项目初始化、语言选择、类型设定和权限配置;4) 项目目录结构说明;5) 环境变量配置和插件运行方法。该工具支持Python开发,可创建不同类型的插件(如Tool、Model等),并提供了详细的权限控制选项。安装测试成功后,开发者可通过简单的命令快速创建和运行插件项目。
2025-09-11 09:12:21
219
原创 探索大模型的前沿:从GPT到LLAMA,看看AI如何改变世界
摘要:大型语言模型(LLMs)如GPT和LLAMA正深刻改变人工智能领域。GPT系列以出色的文本生成能力著称,而LLAMA则凭借多语言支持和高效压缩技术脱颖而出。核心技术包括变压器架构、大规模预训练和模型压缩等。这些模型已应用于医疗、金融和教育等领域,显著提升效率。然而也面临计算成本高、数据偏见等挑战。未来发展方向包括多模态交互和通用AI,需平衡技术创新与伦理约束,确保AI发展造福人类社会。(149字)
2025-09-09 13:46:36
144
原创 Windows禁止更新
通过修改注册表可大幅延长Windows更新暂停时间。方法:1)运行regedit找到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings;2)新建32位QWORD值FlightSettingsMaxPauseDays;3)输入超大数值(如10000天约27年)并设为十进制。重启后查看更新设置即可生效,实现"准永久"暂停更新,避免激进关闭带来的系统风险。
2025-09-09 11:55:57
587
原创 Ragflow 本地化部署
Ragflow本地部署指南:1)安装Docker并启动服务;2)克隆Ragflow仓库;3)选择合适版本进行安装(推荐使用老版命令);4)解决可能出现的GPU驱动错误;5)修改端口配置后启动服务,通过8888端口访问Web界面。注意:国内镜像加速可能引发ES连接问题,GPU版本需硬件支持。
2025-08-12 09:41:15
204
原创 linux下部署 dify,并配置本地ollama大模型
本文介绍了Dify平台的安装配置及Ollama模型接入方法。首先通过GitHub获取源码,配置环境变量后使用Docker启动服务,访问80端口完成管理员账号设置。在模型配置部分,详细说明了Ollama的连接步骤,包括填写模型名称、服务地址、上下文长度等参数,并特别指出多模态模型需勾选Vision支持。针对高版本Dify可能出现模型不显示的问题,给出了解决方案文中提供了完整的配置示例和常见问题处理方法。
2025-08-11 19:26:14
838
原创 SGLang vs vLLM vs Ollama:三大LLM工具深度对比与选型指南
本文对比分析了当前三大主流大语言模型工具SGLang、vLLM和Ollama的核心特性与技术差异。SGLang擅长结构化生成控制,vLLM以生产级性能见长,Ollama则侧重本地开发便利性。通过架构解析、性能测试和功能对比,为开发者提供选型建议:本地开发优先Ollama,需要复杂逻辑控制选择SGLang,企业级部署推荐vLLM。文章还探讨了工具组合使用策略及未来发展趋势,建议根据项目阶段需求灵活搭配,以平衡开发效率与运行性能。
2025-08-11 14:38:52
488
原创 使用 Python 和 eFinance 实现 A 股历史数据大规模下载与存储
随着金融市场的快速发展,获取并存储高质量的股票数据成为许多quant研究者、数据分析师以及投资者的核心需求。本文将详细介绍如何利用Python和eFinance(东方财富)API,实现A股所有股票的历史行情数据大规模下载,并将其存储到SQLite数据库中。通过这一指南,您可以轻松构建自己的金融数据仓库,为后续分析和研究奠定坚实基础。金融数据是量化分析和算法交易的基础,而高质量的历史数据是构建可靠模型的关键。通过以上步骤,您可以轻松构建自己的A股历史数据仓库,为未来的分析与研究奠定坚实基础。
2025-07-28 08:44:37
1470
原创 大模型发展与应用详解:从技术基础到实际案例探析
大模型凭借其强大的自然语言处理能力,正以前所未有的方式重塑我们的生活和工作。在未来的道路上,如何在技术创新与伦理约束之间找到平衡,将是每一个研究者和决策者的重要课题。在当今的人工智能领域,大规模语言模型(Large Language Models,LLMs),简称大模型,正如一颗新星般闪耀。大模型指的是基于深度学习技术,通过海量数据训练,能够理解和生成自然语言的模型。一家投资公司利用大模型分析海量市场数据,每日生成的财经新闻摘要精准识别出潜在的投资机会和风险信号,帮助投资者做出更明智的决策。
2025-07-25 17:46:17
393
原创 yolov13 训练自己的数据集
标注要求:生成 `.txt` 文件,每行格式 `[class_id] [x_center] [y_center] [width] [height]`(归一化坐标)。- CUDA 内存不足:减小 `batch` 或 `imgsz`(如 640→416),启用 `half=True`(半精度)。- 数据集路径错误:检查 `.yaml` 中 `path` 是否为绝对路径,或改用相对路径(如 `../datasets`)。- 训练中断恢复:设置 `resume=True` 并指向 `last.pt`。
2025-07-21 14:59:51
406
原创 SiamFC 算法详解
SiamFC作为孪生网络跟踪器的开创性工作,通过简洁高效的设计实现了实时目标跟踪,为后续研究提供了重要基础。虽然存在一些局限性,但其核心思想仍被广泛应用,不断推动着视觉目标跟踪领域的发展。
2025-04-25 12:01:43
271
原创 SiamFC算法深度解析
SiamFC(Siamese Fully-Convolutional Networks)是一种基于孪生网络(Siamese Network)的视觉目标跟踪算法,由Bertinetto等人在2016年提出。适用于需要实时跟踪的场景,如无人机追踪、视频监控、自动驾驶等,尤其在对速度要求较高的场景中表现突出。,将响应图上的每个位置视为二分类样本(正样本为真实目标中心,负样本为背景区域)。:后续帧中可能包含目标的更大区域(通常为255×255像素)。输出为响应图(17×17),最大值对应目标在搜索区域中的位置。
2025-04-24 22:21:31
295
原创 CamShift目标追踪算法
CamShift(Continuously Adaptive Mean Shift)算法是Mean Shift算法的改进版本,主要用于视频序列中的目标跟踪。它通过动态调整搜索窗口的大小和方向,适应目标在运动过程中的尺度变化和旋转,广泛应用于计算机视觉领域,如人脸跟踪、物体追踪等。从上一帧的目标位置开始,在反向投影图上运行Mean Shift算法,寻找密度最大的区域(即新目标位置)。对后续每一帧,计算每个像素属于目标颜色分布的概率,生成反向投影图(概率密度图)。依赖颜色分布,若背景与目标颜色相似易失效。
2025-04-24 11:52:40
169
原创 Mean-Shift目标跟踪算法详解
其改进版(如CAMShift)可解决尺度问题,但复杂场景需结合其他特征或深度学习模型。结合卡尔曼滤波(Kalman Filter)预测目标位置,提升快速移动时的鲁棒性。对直方图进行归一化,得到概率分布 ququ(uu为直方图的bin索引)。通过Mean-Shift迭代,找到相似度最高的区域(密度峰值)。联合颜色、纹理(LBP)、或深度特征(如HOG)增强判别能力。统计目标区域内颜色的概率分布(即“目标模型”)。将目标的颜色分布(如HSV空间的H通道)表示为。:手势跟踪(如基于肤色的手部追踪)。
2025-04-23 16:55:44
146
原创 KCF目标追踪算法 (Kernelized Correlation Filters) 详解
该算法基于相关滤波(Correlation Filter)理论,结合核技巧(Kernel Trick)和循环矩阵(Circulant Matrix)性质,在计算效率与跟踪精度之间取得了良好的平衡。KCF算法因其高速度(可达数百FPS)和较高的鲁棒性,成为目标跟踪领域的重要基准方法之一。KCF算法的核心思想是通过训练一个滤波器,使其在目标位置处产生最强的响应,从而在后续帧中快速定位目标。:传统的相关滤波器是线性的,KCF通过核方法(如高斯核、多项式核)将其扩展到非线性情况,提高分类能力。
2025-04-23 14:15:21
813
原创 在 Windows 下安装 Dify 教程
确保 Docker Desktop 正在运行并有足够资源(至少 4GB 内存分配给 Docker)现在您已经在 Windows 上成功安装并运行了 Dify,可以开始构建您的 AI 应用了!:所有数据会自动保存在 Docker 卷中,即使容器停止也不会丢失。下载并安装 Docker Desktop for Windows。安装完成后启动 Docker Desktop。确保在设置中启用 WSL 2 后端(推荐):如果 80 端口被占用,可以在。PostgreSQL 数据库。推荐配置至少 8GB 内存。
2025-04-22 11:23:11
2442
原创 Mask R-CNN
不仅能够完成目标检测(检测物体并给出边界框),还能为每个检测到的物体生成精确的像素级分割掩码(Mask)。:二值交叉熵(Binary Cross-Entropy),计算每个像素的预测掩码与真实掩码的误差。的掩码(K 是类别数,m 是掩码分辨率,通常 14×14 或 28×28)。Mask 分支仅预测当前类别对应的掩码,避免不同类别竞争,提升分割质量。:预测每个 RoI 的分割掩码(Mask),采用 FCN 结构。在原有的分类(Class)和回归(Box)分支基础上,新增一个。
2025-04-22 09:37:24
906
原创 图像分割的发展历程
如Non-local Networks(2018)、CBAM(2018),增强重要区域权重。扩展Faster R-CNN,增加分割分支,实现检测与分割一体化(实例分割)。:结合编码器-解码器和空洞空间金字塔池化(ASPP),提升多尺度分割能力。:扩展至点云(如PointNet++)和时序数据(如MaskTrack)。:如SAM(Meta),通过提示(prompt)实现零样本分割。(2001):将分割转化为能量最小化问题,结合颜色和边界信息。:使用SIFT、HOG等特征结合分类器(如SVM)进行分割。
2025-04-22 09:04:46
742
原创 ByteTrack自定义数据集训练指南
使用NVIDIA Jetson部署,启用--fp16和--trt以下是使用ByteTrack 通过保留低置信度检测框(传统方法会过滤掉),利用运动关联(IoU匹配)和外观特征(可选)实现高精度多目标跟踪,尤其适合遮挡和拥挤场景。
2025-04-21 13:51:08
901
原创 unet训练自己的数据集
通过以上步骤,即可完成UNet在自定义数据集上的训练和部署。图像和标签:图像(如.jpg.png)和对应的分割掩膜(mask,需与图像同名且尺寸相同)。目录结构dataset/train/images/ # 训练图像masks/ # 对应的标签val/images/ # 验证图像masks/ # 对应的标签。
2025-04-21 11:03:22
1344
原创 DeepLabv3+训练自己的数据集指南
希望这个指南能帮助你成功训练自己的DeepLabv3+模型!使用不同的backbone(如Xception)提高精度。对应的标注图像(PNG格式,每个像素值代表类别ID)类别ID应从0开始连续编号(0,1,2,...)标注图像应为单通道,像素值0通常表示背景。添加数据增强(随机缩放、旋转、颜色变换):减小batch_size或图像尺寸。输入图像(如JPG/PNG格式):尝试降低学习率或使用学习率调度。:增加数据增强或使用正则化技术。使用混合精度训练加速训练过程。:在损失函数中使用类别权重。
2025-04-21 10:38:27
1128
原创 FairMOT与MCFairMOT算法对比
扩展 FairMOT 的单类别检测头,支持同时预测不同类别的中心点和边界框。可选方案:为不同类别设计独立的Re-ID子网络,减少跨类别特征混淆。需同时跟踪多类别目标(如交通监控中的车、人、非机动车)。有足够算力支持多类别计算(如服务器或高性能GPU)。:减少无关类别的干扰(如车辆轨迹不会匹配到行人)。:需平衡不同类别的样本分布(避免类别不平衡)。,可进一步优化多类别场景下的抗遮挡能力。,并调整损失函数(如类别加权交叉熵)。仅需跟踪单类别目标(如行人或车辆)。可接受稍低的帧率以换取多类别支持。
2025-04-18 16:42:32
839
原创 CenterTrack
的多目标跟踪(MOT)算法,由 Xingyi Zhou 等人提出(ECCV 2020)。显式学习目标的运动模式(而非依赖 Kalman 滤波),更适合非线性运动(如行人突然转向)。,从而实现高效的单阶段(One-Stage)跟踪,适用于实时应用(如自动驾驶、视频监控)。否则初始化为新目标。对短暂丢失的目标(如遮挡),保留历史轨迹一段时间(类似 SORT 的机制)。:预测目标从 t−1t−1 帧到 tt 帧的位移(Δx,ΔyΔx,Δy)。上一帧的检测热图 Ht−1Ht−1(可选,用于增强时序信息)
2025-04-18 16:39:30
1001
原创 BoT-SORT算法
显著提升了复杂场景下的跟踪稳定性,是 SORT 系列算法的先进版本。:传统 Kalman 滤波假设目标运动是线性的,但在实际场景中,相机可能移动(如车载摄像头、无人机拍摄),导致目标运动非线性。:DeepSORT 使用外观特征(Re-ID)辅助匹配,但在遮挡或低分辨率情况下可能失效。,在SORT、DeepSORT和OC-SORT的基础上进一步提升了跟踪鲁棒性,尤其是在。:传统 SORT 使用固定的过程噪声和观测噪声,无法适应不同运动速度的目标。:对未匹配的检测和轨迹,使用 Re-ID 特征计算相似度。
2025-04-18 16:37:18
1083
原创 OC-SORT算法
OC-SORT(Observation-Centric SORT)是一种基于观测中心的多目标跟踪(MOT, Multi-Object Tracking)算法,是对经典SORT(Simple Online and Realtime Tracking)算法的改进。传统SORT以预测为中心(如Kalman滤波的预测优先),而OC-SORT更注重当前帧的观测结果,减少对不可靠预测的依赖。在数据关联时,不仅考虑位置和IOU(交并比),还加入运动方向的一致性判断(如速度向量夹角),减少相似外观目标的误匹配。
2025-04-18 16:19:50
932
原创 FairMOT算法详解
同时完成目标检测和重识别(Re-ID)特征提取,解决了传统两阶段方法(如DeepSORT)中检测与Re-ID任务的不公平性问题,显著提升了跟踪的准确性和效率。,即让检测(Detection)和重识别(Re-ID)两个任务在同一个网络架构中。检测器和Re-ID模型分开训练,检测框的质量直接影响Re-ID特征提取。检测误差会传递到Re-ID阶段,导致ID切换(ID Switch)增加。输出热图(Heatmap),预测目标中心点(类似CenterNet)。:引入全局Re-ID检索(如BoT-SORT)。
2025-04-18 16:14:27
1755
原创 图像篡改检测算法
然而,面对不断演进的篡改手段和生成技术(如AIGC),算法需持续进化以平衡准确性、效率和泛化能力。:端到端学习篡改特征(如MesoNet、ManTra-Net)。:识别GAN生成图像的频域伪影(如FakeCatcher)。:适应新型篡改技术(如Diffusion模型生成内容)。:篡改区域边缘可能不自然(如模糊、锐化过度)。:突出可疑区域(如EXIF信息引导的检测)。:依赖预嵌入信息(如数字水印、数字签名)。:结合噪声、纹理、光照等特征提升鲁棒性。:IoU(交并比)、篡改定位准确率。
2025-04-18 16:01:30
914
原创 AI中台系统设计方案探讨
集成JupyterLab、低代码建模工具(如H2O.ai)、预训练模型库(Hugging Face、PaddleHub)。:通过REST/gRPC接口封装AI能力(如OCR、语音识别),支持流量控制与鉴权(如Kong、Apigee)。:服务注册发现(Consul)、熔断降级(Hystrix)、监控告警(Prometheus+Grafana)。:分布式存储(如HDFS、Ceph)与对象存储(如S3、OSS),支持海量数据高速读写。加密传输(TLS)、动态脱敏(如数据掩码)、访问控制(RBAC)。
2025-04-18 15:58:34
889
原创 yolo系列发展
后续版本在保持速度的同时,通过结构创新(如FPN、RepVGG)和训练技巧(如动态标签分配)持续提升精度。:由Alexey Bochkovskiy团队提出(非官方版本,但被广泛认可)。:从两阶段(Faster R-CNN)到单阶段(YOLO),再到轻量化设计。:输入图像尺寸动态调整(320×320到608×608),增强鲁棒性。:通过3种不同尺度的特征图(FPN结构)检测不同大小目标。:引入先验框(Anchor),提高边界框预测的多样性。:引入残差结构(ResNet),提升特征提取能力。
2025-04-18 14:52:11
626
原创 目标检测综述
通过滑动窗口遍历图像,结合手工设计的特征(如HOG、SIFT、Haar)和分类器(如SVM、Adaboost)进行检测。(You Only Look Once):YOLOv1(2016)到YOLOv9(2024),兼顾速度与精度。(2020):首次将Transformer引入目标检测,端到端训练,无需手工设计组件(如NMS)。:用边界框(Bounding Box)标出物体的位置,通常用坐标(x, y, w, h)表示。:结合文本(如CLIP)、点云(LiDAR)等信息。
2025-04-18 14:43:14
157
原创 unet算法发展历程简介
UNet是一种基于深度学习的图像分割架构,自2015年提出以来经历了多次改进和扩展,逐渐成为医学图像分割和其他精细分割任务的标杆。:对称的U形网络,左侧(编码器)通过下采样提取特征,右侧(解码器)通过上采样恢复空间分辨率。UNet的成功得益于其简洁性、灵活性和可扩展性,未来仍将是图像分割领域的重要基线模型。:空间/通道注意力(如SE模块)、自注意力(Non-local模块)。:将编码器的高分辨率特征与解码器的上采样特征拼接,保留局部细节。处理3D医学图像(如CT、MRI),在解码器中使用3D反卷积。
2025-04-18 14:34:40
1269
原创 DeepLab 算法发展历程
DeepLab 系列至今仍是语义分割领域的基石,后续许多工作(如 OCRNet、Mask2Former)均受其启发。:多尺度特征融合显著提升分割精度(PASCAL VOC 2012: 79.7% mIOU)。:DeepLabv3 输出分辨率低(通常为输入尺寸的 1/8),边界模糊。:成为语义分割的标杆模型,支持轻量化(MobileNetV2)和实时应用。:传统 CNN 通过池化(Pooling)降低分辨率,导致空间信息丢失。:自动搜索更优的 DeepLab 结构(如 Auto-DeepLab)。
2025-04-18 09:11:13
805
原创 DeepLabv3+ 简介
的架构,在语义分割任务中实现了高精度和鲁棒性,至今仍是工业界和学术界的常用模型。:并行使用不同膨胀率(dilation rate)的卷积,识别不同大小的物体。编码器输出(经过 ASPP)先进行 4 倍上采样,再与主干网络的低层特征融合。模块,显著提升了物体边界的分割精度,同时保持了多尺度上下文信息提取的能力。:支持高性能(ResNet)和轻量化(MobileNet)主干网络。在不降低特征图分辨率的情况下,扩大感受野,捕捉多尺度信息。和高层语义信息,优化分割结果的细节,特别是物体边缘。
2025-04-18 09:02:35
1359
原创 DeepSORT 目标追踪算法详解
DeepSORT 凭借其高效的实时性和稳定的追踪效果,已成为多目标追踪领域的基准算法。通过合理选择检测器、优化Re-ID模型及调整参数,可显著提升其在复杂场景下的性能。领域的经典算法,通过结合目标检测、运动预测和外观特征匹配,实现了高效、稳定的实时追踪。MOTA=1−漏检数+误检数+ID切换数总目标数MOTA=1−总目标数漏检数+误检数+ID切换数。:将大模型(如ResNet50)蒸馏至轻量模型(如MobileNetV2)。:提取目标的深度特征(128维或256维向量),用于区分不同目标。
2025-03-19 14:48:01
1600
原创 基于深度学习的目标追踪技术全解析
模拟遮挡训练鲁棒表示(Occlusion-Aware R-CNN)。:引入区域建议网络(RPN),联合分类与回归提升定位精度。:FP16/INT8量化与层融合(NVIDIA GPU)。:逐帧检测目标,通过数据关联(匈牙利算法)跨帧链接轨迹。:融合YOLO检测与Re-ID特征,卡尔曼滤波预测轨迹。:卷积与Transformer结合,平衡局部与全局信息。:FAIR的检测与追踪平台(集成Mask R-CNN)。:CLIP模型实现未知类别追踪(如OVTrack)。:联合训练检测与Re-ID,解决特征不一致问题。
2025-03-19 14:31:40
1092
原创 目标追踪综述
目标追踪的核心任务可定义为:给定视频序列初始帧中目标的标注信息(通常为边界框或掩码),在后续每一帧中预测目标的时空状态(位置、尺度、运动轨迹等)。其核心挑战在于如何建模目标的外观与运动特征,并应对复杂环境干扰(如遮挡、光照变化、背景杂波等)。
2025-03-06 16:15:52
867
口罩数据集(mask,nomask),VOC格式,可用于目标检测
2022-07-12
图像视频的车牌检测系统
2024-04-26
目标检测数据集的扩充升级版
2024-04-11
目标检测数据集扩充程序
2023-12-04
基于深度学习的摔倒检测
2023-03-06
基于yolov5的猪体(pig)识别
2023-03-04
牛(cow)目标检测数据集
2023-03-04
牛(cow)数据集,VOC格式
2023-03-04
基于深度学习的钢筋端面识别
2023-03-04
yolov5牛体检测识别
2023-02-28
tkinter实现图像与视频中的人员统计
2023-02-27
前后端实现口罩检测与人脸识别
2023-02-19
python-flask-vue实现前后端人体与车辆属性检测
2023-02-18
基于yolov6的安全帽检测
2022-10-18
基于yolov5的安全帽检测
2022-10-18
PaddleOCR+HTML 图像OCR识别系统介绍
2025-04-20
视频人体属性检测演示系统
2025-04-18
html实现的经典贪吃蛇游戏
2025-04-09
Flask + YOLO + HTML 实现前后端图像/视频目标检测:零基础实战教程
2025-04-07
【Flask+paddle深度学习】高精度音频识别系统(附完整源码、模型&详细部署教程)
2025-04-07
VisionTransformer图像分类
2024-05-08
VGGNet图像分类算法
2024-05-08
GoogleNet图像分类算法
2024-05-08
pyqt+yolo+lprnet车牌检测识别系统
2024-05-06
ResNet图像分类算法
2024-05-06
DenseNet图像分类
2024-05-05
AlexNet图像分类
2024-05-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅