- 博客(315)
- 收藏
- 关注
原创 AladdinEdu使用手册
AladdinEdu的使用主要分为三步,workshop建立 > 环境配置 > GPU调用,以下内容将围绕此流程展开。
2025-04-16 18:38:28
3012
3
原创 论文分享 |告别等值面:Faithful Contouring如何实现近乎无损的3D体素表示
本文提出了Faithful Contouring,一种革命性的免于等值面提取的3D体素表示方法。该方法旨在解决传统基于符号距离场和等值面提取的3D表示方法(如Marching Cubes)所固有的保真度损失问题,如网格增厚、内部结构丢失和锯齿状伪影。Faithful Contouring通过直接将原始网格编码为稀疏的忠实轮廓令牌,绕过了SDF转换和水密化预处理,从而实现了近乎无损的几何表示。它支持2048+超高分辨率,能鲁棒处理开放表面、非流形结构和复杂内部空腔。实验表明,该方法在表示保真度和网格重建质量上
2025-11-24 21:14:20
10
原创 论文分享 |超越PSNR:多尺度结构相似性如何让AI更懂“看图体验”
本文针对传统图像质量评估方法(如PSNR/MSE)与人类主观感知不符的问题,提出了多尺度结构相似性 方法。该方法基于人类视觉系统高度适应于从场景中提取结构信息 的顶层假设,通过模拟不同观看条件(如距离、分辨率)下视觉系统对图像细节的感知差异,在多个尺度上综合评估图像质量。论文创新性地采用图像合成策略 来校准不同尺度间的相对重要性参数。在LIVE数据库上的实验表明,MS-SSIM在预测准确性、一致性和单调性上均优于PSNR、Sarnoff模型及所有单尺度SSIM变体,显著提升了客观质量评估与主观感知的相关性。
2025-11-24 21:05:40
112
原创 Triton高级编程:实现超越CuBLAS性能的GEMM Kernel
本文深入探讨了如何使用OpenAI Triton语言编写高性能的GEMM(通用矩阵乘法)内核,实现超越NVIDIA cuBLAS库的性能表现。文章从GPU编程的挑战入手,详细解析了Triton的块级编程模型、内存管理、自动调优机制等核心技术,并通过实际案例展示了如何通过SplitK并行化、FP8精度格式利用等优化技术显著提升矩阵计算效率。实验结果表明,优化后的Triton内核在Llama3-70B等大模型推理场景下可比cuBLAS实现提升近2倍性能,为AI研究者和工程师提供了极具价值的GPU高性能编程实践指
2025-11-23 23:52:24
20
原创 MLIR与Polymer:揭秘Google下一代AI编译器的设计哲学
本文深入剖析了Google下一代AI编译器MLIR与Polymer的设计哲学与技术架构。MLIR通过多层次中间表示与Dialect系统,统一碎片化的AI编译生态;Polymer则在此基础上专注于大规模分布式计算优化。文章探讨了其渐进式降低、集群级IR等核心技术,分析了在实际工作负载中的性能表现,并展望了AI编译器的未来发展方向。
2025-11-23 20:43:32
18
原创 基于MMTracking的多目标跟踪:ByteTrack与DeepSORT算法实践
本文基于OpenMMLab的MMTracking框架,详细探讨了ByteTrack与DeepSORT两种先进多目标跟踪算法的原理与实战应用。通过分析MMTracking模块化架构及其对多种跟踪任务的支持,文章深入解析了ByteTrack基于检测框关联的创新设计和DeepSORT融合运动与外观特征的技术特点,并提供了完整的环境配置、模型训练和性能评估指南。实验结果表明,ByteTrack在保持高跟踪准确性的同时实现了显著的效率优势,为视频分析、自动驾驶等场景的算法选型提供了重要参考。
2025-11-22 20:33:52
28
原创 MMPose与人体姿态估计:Top-Down与Bottom-Up方法框架对比
本文深入剖析了OpenMMLab项目中的MMPose工具箱,重点对比分析了Top-Down与Bottom-Up两种人体姿态估计方法的技术框架、实现原理与性能特点。文章涵盖MMPose的模块化架构设计、主流算法模型实现、多数据集支持特性,以及在实际应用中的性能表现,为计算机视觉研究者和工程师提供了全面的技术参考和实践指导。
2025-11-22 20:28:24
25
原创 项目分享|Gemini CLI:将谷歌大模型直接带入终端的开源AI助手
Gemini CLI是谷歌开源的命令行AI工具,将Gemini大模型能力直接集成到终端环境。支持免费使用、内置文件操作和Shell命令执行,可通过MCP协议扩展功能。提供OAuth登录、API Key等多种认证方式,适用于代码分析、项目生成、自动化脚本等开发场景,极大提升开发效率。
2025-11-20 18:06:44
606
原创 项目分享|字节跳动开源的唇形同步项目——LatentSync
LatentSync是字节跳动开源的端到端唇语同步模型,基于音频条件潜在扩散技术,无需中间运动表示即可实现高质量视频生成。支持512×512分辨率,通过Whisper音频编码和UNet交叉注意力实现精准的音频-视觉对齐。提供完整的数据处理、训练和评估工具链,显存需求最低仅8GB,适用于真人视频和动漫内容的唇语同步应用。
2025-11-20 17:25:08
939
原创 MMOCR技术内幕:DBNet与ABINet的文本检测与识别原理
本文深入剖析了MMOCR框架中DBNet与ABINet两大核心算法的技术原理与实现机制。DBNet通过可微分二值化模块解决文本检测中的阈值优化问题,ABINet则利用自主双向迭代架构实现视觉与语言模型的深度融合。文章结合MMOCR框架的具体实现,详细分析了两种算法的网络结构、训练策略及应用场景,为OCR领域的研究者和工程师提供了深入的技术参考和实践指导。
2025-11-20 16:45:30
169
原创 MMDeploy部署实战:将OpenMMLab模型高效转化为ONNX、TensorRT
本文详细介绍了如何使用MMDeploy将OpenMMLab模型高效转化为ONNX和TensorRT格式,涵盖环境配置、模型转换原理、实战步骤、性能优化技巧及部署验证方法。通过具体示例和性能对比,帮助读者掌握深度学习模型部署的全流程,实现推理速度的显著提升。文章还探讨了常见问题解决方案和高级优化策略,为工业级应用提供全面指导。
2025-11-20 14:48:40
539
原创 MMPreTrain源码解读:Vision Transformer、Swin Transformer在分类任务中的实现
本文深入解读了MMPreTrain中Vision Transformer和Swin Transformer的源码实现,从框架概述、原理分析、模块设计到训练策略进行全面剖析。文章详细介绍了ViT的全局注意力机制和Swin Transformer的移位窗口注意力,分析了它们在图像分类任务中的性能表现和适用场景,并提供了丰富的配置示例和实践建议,为读者深入理解和使用这两种先进的Transformer模型提供了重要参考。
2025-11-19 22:39:04
440
原创 项目分享| LightRAG让大模型更懂你的数据
LightRAG是香港大学开源的检索增强生成框架,创新性地融合向量检索与知识图谱技术,支持多模态文档处理和实时知识检索。具备多存储后端支持、完整可视化界面和企业级可观测性,在各项基准测试中显著优于传统RAG方案。提供从轻量级到企业级的完整解决方案,是构建智能知识管理系统的理想选择。
2025-11-19 19:07:44
863
原创 项目分享|MuseTalk:让虚拟人“开口说话“
MuseTalk是腾讯音乐推出的实时高保真视频口型同步模型,支持30fps+实时处理和多语言音频驱动。基于潜在空间单步修复技术,在保持身份一致性的同时实现精准唇语同步。提供完整开源代码、预训练模型和训练脚本,支持自定义模型训练,为虚拟数字人和视频配音应用提供企业级解决方案。
2025-11-19 18:57:18
698
原创 项目分享|Ollama:在本地轻松运行大语言模型
Ollama是一个开源的本地大语言模型运行平台,支持一键安装和运行Gemma、Llama等主流模型。提供简洁的CLI工具和REST API,支持模型定制、多模态处理和嵌入生成。具有丰富的生态集成,涵盖Web界面、移动端、开发框架和插件扩展,让用户在本地环境中轻松享受AI能力,保障数据隐私和使用的灵活性。
2025-11-18 19:38:03
354
原创 项目分享|PythonRobotics让机器人算法一目了然
PythonRobotics是一个开源的机器人算法Python实现库,涵盖定位、地图构建、SLAM、路径规划、运动控制等完整技术栈。项目以代码清晰、算法全面、易于学习为特色,提供详细文档和动画演示,适合机器人学习者和研究者使用。通过最小依赖实现即装即用,是机器人算法从理论到实践的理想桥梁。
2025-11-18 19:20:47
898
原创 项目分享|Strix:开源AI黑客代理,为你的应用安全保驾护航
Strix 是一款开源AI驱动的安全测试平台,通过模拟真实黑客行为,对应用进行动态渗透测试与漏洞验证。其核心优势在于AI代理协同作战、真实PoC验证、低误报率,并支持无缝集成CI/CD流程。Strix提供CLI与Docker两种使用方式,适用于白盒、黑盒、灰盒等多种测试场景,助力开发者在研发早期发现并修复安全漏洞。
2025-11-18 18:26:17
477
1
原创 项目分享|rendRadar 热点雷达:让AI帮你追踪真正关心的资讯
TrendRadar是一个开源智能热点聚合工具,支持从知乎、微博等11+平台自动抓取新闻,通过关键词筛选和个性化算法精准推送用户关心的内容。提供三种推送模式和AI深度分析功能,支持企业微信、飞书等多渠道通知。项目采用Docker容器化部署,30秒即可快速上手,帮助用户告别信息过载,实现高效信息获取。
2025-11-18 18:02:20
677
原创 论文分享 |LLM之间的“心灵感应”:通过向量翻译实现直接语义通信
本文提出了一种革命性方法,实现大型语言模型(LLMs)间的直接语义通信,无需经由文本令牌。通过训练一个双编码器翻译器,学习在Llama-2-7B与Mistral-7B-Instruct的表示空间之间进行向量映射,并设计了一种保守的向量注入机制(30%混合强度)将翻译后的语义安全导入目标模型。实验成功展示了跨模型的语义转移,并揭示了一个关键发现:双向翻译存在2.01:1的性能不对称,表明通用模型比指令微调模型产生更易迁移的语义表示。该工作为构建高效、高保真的多模型协作AI系统开辟了全新道路,标志着从“文本传递
2025-11-18 17:08:34
815
原创 论文分享 |CoCa:颠覆性融合对比与生成,重新定义视觉-语言基础模型
本文深入解读了Google Research提出的突破性模型CoCa。该模型通过一种创新的“解耦解码器”架构,将对比学习与生成式学习无缝融合于一个统一的编码器-解码器框架中,从而同时具备了强大的视觉表示、跨模态对齐与检索、以及多模态理解与生成能力。CoCa在包括ImageNet分类、COCO/Flickr30K检索、VQA视觉问答、NoCaps图像描述等超过20项视觉与跨模态任务中实现了state-of-the-art的性能,尤其在零样本设定下表现卓越。其端到端的单阶段训练范式、任务自适应的注意力池化器设计
2025-11-18 16:20:59
709
原创 MMSegmentation全景梳理:从PSPNet到SegFormer的语义分割演进
本文基于MMSegmentation开源框架,系统梳理了语义分割技术从经典PSPNet到现代SegFormer的完整演进路径。文章深入分析了各里程碑算法的核心创新点,包括PSPNet的金字塔池化模块、DeepLab系列的ASPP模块、HRNet的高分辨率保持机制、OCRNet的物体上下文表示以及SegFormer的Transformer架构。通过详细的代码实现和性能对比,揭示了语义分割技术在上下文建模、多尺度处理和计算效率方面的持续进步,为研究者和工程师提供了全面的技术参考和实践指南。
2025-11-17 21:20:17
705
原创 MMYOLO深度解析:YOLOX、YOLOv7、YOLOv8在统一框架下的对比
本文基于OpenMMLab的MMYOLO统一框架,深度解析了YOLOX、YOLOv7和YOLOv8三个重要目标检测算法。文章从架构设计、核心创新、训练策略等多个维度进行对比分析,提供了在统一基准下的性能评估和实际应用选择指南。通过详细的代码解析和实验数据,揭示了各算法的优势特点和适用场景,为研究者和开发者提供了全面的技术参考和实践指导。
2025-11-17 20:02:55
2687
原创 MMDetection3D实战:从点云到3D边界框的自动驾驶感知
本文全面介绍了基于MMDetection3D框架的3D目标检测实战应用,涵盖从点云数据预处理、模型训练优化到部署上线的完整流程。通过详细的代码示例和实践技巧,展示了如何在自动驾驶场景中实现高效准确的3D物体检测。文章重点讲解了PointPillars、CenterPoint等先进算法的原理与实现,并提供了性能优化、可视化分析和TensorRT部署等高级主题的解决方案,为读者构建工业级3D感知系统提供全面指导。
2025-11-16 20:28:27
716
原创 Pytest for AI:深度学习模型的单元测试与集成测试策略
本文全面探讨了使用Pytest框架为深度学习项目构建完整测试体系的策略和方法。从数据预处理、模型组件到训练流水线和推理服务,详细介绍了各层次的测试实践。文章提供了丰富的代码示例,涵盖了测试夹具配置、自定义断言、性能基准测试等高级主题,并展示了如何将测试集成到持续集成流程中。通过系统的测试策略,帮助AI团队提升模型质量、加速迭代速度、降低生产风险。
2025-11-16 15:33:29
973
原创 AI基础设施即代码:使用Terraform管理云上GPU资源
本文全面介绍了使用Terraform实现AI基础设施即代码的完整实践方案。从基础概念到高级架构,详细讲解了如何在多云环境中高效管理GPU资源,包括网络规划、存储配置、安全加固、成本优化等关键环节。通过模块化设计和自动化脚本,实现了AI训练和推理环境的快速部署与弹性伸缩。文章还提供了完整的最佳实践和运维指南,帮助读者构建可靠、安全且成本优化的AI基础设施体系。
2025-11-15 22:06:03
882
原创 FastAPI构建AI模型服务:高性能异步推理服务器设计
本文详细介绍了使用FastAPI构建高性能AI模型推理服务器的完整方案。从异步编程基础到高级优化技巧,涵盖了服务架构设计、性能优化、安全防护、监控部署等关键环节。通过实际代码示例展示了如何实现异步批处理、连接池管理、缓存策略等核心功能,帮助读者构建生产级别的AI模型服务。文章还提供了性能测试数据和最佳实践建议,为AI项目的工业化部署提供全面指导。
2025-11-15 09:01:23
1354
原创 项目分享|AgenticSeek:完全本地的多智能体AI助手
AgenticSeek是一款基于多智能体架构的本地化AI助手,具有完全离线运行、隐私保护等核心优势。它支持智能网页浏览、自动化编程、任务规划和语音交互等功能,采用分布式智能体系统自动分配任务。技术架构包含Docker容器化、多LLM支持和Redis缓存,推荐配置为RTX 4090(24GB+)流畅运行32B模型。用户可通过简单的Docker部署快速搭建环境,无需网络连接即可使用强大的AI能力,特别适合重视数据隐私的用户场景。
2025-11-14 18:52:47
783
原创 项目分享|DeepCode:多智能体编码工具
DeepCode是一个基于多智能体系统的开源代码生成平台,它能够将研究论文、自然语言描述和各类文档自动转换为功能完备的代码。与传统的代码生成工具不同,DeepCode采用自主编排的多智能体架构,模拟了人类开发者的完整工作流程
2025-11-14 18:41:22
752
原创 项目分享|Everywhere:一个无处不在的上下文感知 AI 助手
在人工智能工具层出不穷的今天,我们是否还需要频繁截图、复制粘贴、切换应用才能获得 AI 的帮助?Everywhere 的出现,正是为了打破这一局限。它是一款实时感知屏幕内容的交互式 AI 助手,让你在任何界面、任何时刻,一键唤醒 AI,获取即时支持。
2025-11-14 18:31:00
279
原创 论文分享 |找到视觉Transformer的“丢失一环”:ViT-P如何实现更强大的通用图像分割
本文指出了当前基于掩码的通用图像分割模型(如Mask2Former、OneFormer)的一个核心痛点:掩码生成质量很高,但掩码分类精度不足,这严重限制了整体分割性能的上限。为此,作者提出了 ViT-P,一个新颖的两阶段分割框架。该框架将掩码生成与分类解耦:第一阶段使用任意的现有模型生成类别无关的掩码提议;第二阶段引入一个基于视觉Transformer的点分类模型,通过关注每个掩码的中心点来对其进行精确分类。ViT-P作为一个无需预训练的适配器,能灵活集成各种预训练ViT,且创新性地利用粗标注和框标注来提升
2025-11-14 16:57:19
580
原创 论文分享 |跨越图像与视频的创作壁垒:NUWA——统一视觉合成预训练模型深度解读
NUWA 是一个统一的多模态预训练模型,能够生成或编辑图像和视频,支持包括文本生成图像、文本生成视频、视频预测、草图生成图像、图像补全、文本引导图像/视频编辑等8类视觉合成任务。其核心创新在于提出了一个通用的3D Transformer编码器-解码器架构,并设计了3D Nearby Attention机制,有效建模视觉数据在空间与时间维度的局部性,显著降低计算复杂度。实验表明,NUWA在多个任务上达到最优效果,并具备强大的零样本泛化能力。该模型是迈向通用视觉内容生成平台的重要一步。
2025-11-14 14:09:12
591
原创 论文分享 |Perception Encoder——最强视觉特征,藏在网络中间层
《Perception Encoder》提出了一种基于对比学习的视觉编码器家族,其核心发现是:最强的视觉嵌入并不位于网络输出层,而是隐藏于中间层。通过鲁棒的图像预训练与视频数据引擎,PEcore 在图像与视频的零样本任务中达到 SOTA。进一步地,团队提出语言对齐与空间对齐方法,分别构建 PElang 与 PEspatial,在 MLLM 任务与密集预测任务中均实现领先性能。PE 展示了单一对比预训练方法可通过对齐调优适应多种下游任务,为通用视觉模型的发展提供了新方向。
2025-11-14 13:51:49
829
原创 项目分享|FLUX:Black Forest Labs开源图像生成与编辑模型
FLUX是Black Forest Labs推出的开源图像生成与编辑模型系列,基于先进的流匹配技术,支持文本生成图像、图像修复、结构条件控制等多种任务。项目提供完整的模型套件和工具链,包括TensorRT加速支持,并设有灵活的商业化授权方案。FLUX.1系列模型在生成质量和效率方面表现优异,为AIGC领域的研究和应用提供了可靠的技术基础。
2025-11-14 10:23:10
1051
原创 论文分享 |【突破性进展】Co-DETR:协同混合分配训练,重塑DETR目标检测范式
本文提出了Co-DETR,一种创新的协同混合分配训练方案,以解决DETR系列目标检测器中因一对一集合匹配导致的训练样本稀疏问题。该方法通过在训练时引入多个基于一对多标签分配的辅助检测头(如ATSS、Faster R-CNN),为编码器特征学习提供密集监督,同时从这些辅助头中提取正样本坐标生成定制化正查询,以提升解码器的训练效率。关键优势在于,推理时所有辅助组件被丢弃,不引入任何额外计算开销。实验表明,Co-DETR在多个DETR变体上显著提升了性能与收敛速度,其中基于ViT-L的模型在COCO test-d
2025-11-13 16:20:29
686
原创 论文分享 |突破性研究:4D注意力神经网络实现高精度EEG情绪识别
本文提出了一种基于四维注意力神经网络的EEG情绪识别方法(4D-aNN)。该方法将原始EEG信号转换为包含空间、频谱与时间信息的4D表示,并在此基础上引入空间、频谱与时间三重注意力机制,自适应地捕捉关键脑区、频段与时间片段。在SEED数据集上的实验表明,4D-aNN在个体内划分条件下达到96.10%的识别准确率,优于现有主流模型。消融实验进一步验证了各注意力模块的有效性,尤其是时间注意力对性能贡献最大。该研究为多维度EEG信号建模提供了新思路,具备较强的理论价值与应用前景。
2025-11-13 16:11:31
594
原创 论文分享 |统一连续生成模型:打破范式壁垒,实现高效高质量生成
本文提出了一种统一连续生成模型框架,将多步生成方法与少步生成方法融合于同一训练与采样体系。通过引入一致性比率λ,UCGM-T 训练器能够灵活生成适用于不同推理步数的模型;而 UCGM-S 采样器则可在不增加计算成本的前提下,显著提升预训练模型的生成质量与效率。实验表明,UCGM 在 ImageNet 等数据集上取得了最先进的性能,尤其在少步生成任务中表现突出。该框架具备高度兼容性,适用于扩散、流匹配、一致性模型等多种主流生成范式。
2025-11-12 19:22:37
668
原创 论文分享 |Hierarchical Dual-Head Model——为自杀风险评估装上“左脑”和“右脑”
本文针对社交媒体自杀风险评估任务中面临的类别不平衡、风险等级的序数性与分类性共存、以及时序依赖性等核心挑战,提出了一个基于MentalRoBERTa的分层双头神经网络模型。该模型利用在心理健康文本上预训练的MentalRoBERTa编码单条帖子,通过一个3层Transformer编码器融合帖子的时序信息和时间间隔,以捕捉用户心理状态的动态演变。其核心创新在于双预测头:一个CORAL头用于保持风险等级(指示、想法、行为、尝试)之间的序数关系,一个标准分类头用于进行灵活的分类判别。模型通过一个融合了CORAL损
2025-11-12 18:19:47
877
原创 论文分享 |MCTTrack——用Mamba的隐藏状态为视觉跟踪注入更强“记忆力”
本文针对视觉目标跟踪中视频级上下文信息利用不充分的问题,提出了一个名为 MCTTrack 的新型框架。传统视频级跟踪方法通常仅使用少量额外令牌来传递上下文信息,容易导致信息丢失。MCTTrack 创新性地利用 Mamba 模型(一种状态空间模型)的隐藏状态 来持续记录和传输更丰富、更关键的视频序列上下文信息。其核心是 上下文信息融合模块,该模块通过 Mamba 层存储历史信息,并通过交叉注意力层将其深度融合到主干网络的每一层视觉特征中。实验表明,MCTTrack 在 LaSOT、GOT-10k 等多个权威基
2025-11-12 18:12:18
516
原创 项目分享|GGML机器学习推理的轻量级解决方案
GGML是一个专为机器学习设计的高效张量计算库,以其零运行时内存分配、全面量化支持和跨平台能力著称。项目采用纯C++实现,无第三方依赖,为llama.cpp、whisper.cpp等知名项目提供底层支持。支持CUDA、HIP、SYCL等多种硬件加速方案,并提供完整的Android移动端部署方案。GGUF文件格式作为模型分发标准,进一步巩固了其在高效推理领域的重要地位。
2025-11-12 16:34:28
302
原创 项目分享|GLM-4系列:新一代开源大语言模型
GLM-4-0414是智谱AI开源的大语言模型系列,包含90亿到320亿参数的多款模型,涵盖对话、推理和深度思考等不同能力。该系列在多项评测中表现优异,支持32K原生上下文并可扩展至128K,提供完善的工具调用和微调支持。不同规格的模型为从轻量级部署到复杂研究任务的各种场景提供了合适的技术选择,推动开源AI生态的进一步发展。
2025-11-12 16:02:41
856
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅