医疗AI探索
文章平均质量分 91
“医疗AI探索”专栏是一个专注于人工智能在医疗领域实战与前沿技术的分享平台。这里从医疗大模型的本地部署、量化微调、临床辅助应用入手,深入剖析真实项目经验、技术坑点与优化方案。未来将持续探索AI影像诊断、药物研发、智能问诊、慢病管理等热点方向,结合最新政策、技术进展与案例分析,帮助开发者、医务人员与A
FIREINWORLD2
HYK。985院校硕士毕业,现担任算法研究员一职,热衷于深度学习算法研究与应用。曾获得阿里云天池比赛第三名,CCE比赛第五名,科大讯飞Q比赛第六名。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用BioMistral-7B训练自己的本地医疗大模型 实操版,已亲自运行
具体网址在这里。原创 2025-12-16 14:44:15 · 28 阅读 · 0 评论 -
利用大规模生物活性挖掘,计算识别针对癌基因驱动蛋白 EGFR、BRAF 与 CDK4 的高亲和力抑制剂
背景:精准癌症治疗需要小分子抑制剂与致瘤蛋白靶点之间的精确匹配。方法:我们使用 Python 及 ChEMBL 数据库 API 开发了一套计算流程,系统性地筛选针对 EGFR、BRAF 与 CDK4 的高亲和力配体。对 IC50 < 1000 nM 的生物活性进行过滤,并检索候选化合物的分子结构(SMILES)以供后续优化。结果:本研究共识别出 [插入总数] 种独特化合物。其中,对 BRAF 激酶而言,我们挑选了一批 IC50 低至 6.0 nM 的高效实验性化合物。原创 2025-12-15 13:54:27 · 30 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】第9章 全身优化与接触显式轨迹优化(Contact-Implicit TO)
本章目标:系统地把“接触显式/隐式建模”的数学基础、数值化策略与求解技巧串联起来,给出可实施的直接离散化(direct transcription / collocation)与求解流程,并通过“从站立到跳跃”的全身轨迹优化案例说明如何把理论落到工程实现上。章节以严格的符号、代数推导为主,辅以实际求解器技巧与工程建议。9.1 概览与问题定义9.2 接触建模:显式 vs 隐式(与互补约束)9.2.1 接触显式(Explicit contact modeling)原创 2025-11-05 18:10:02 · 45 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】 第 8 章 运动学与动力学的优雅耦合——原理详解
概览与符号约定本章目标:以严谨而工程可用的方式,系统推导并解释机器人控制中从运动学到动力学耦合的核心方法。主要内容包括经典刚体动力学方程、逆动力学求解(含约束与摩擦/限位)、任务空间(Operational Space)控制的推导与性能说明、力/位置混合(hybrid)控制理论、以及与梯度和雅可比矩阵相关的数值稳定性问题与实现技巧。每一部分都附带数学推导、算法伪码与工程建议。概览与符号约定1 逆动力学(Inverse Dynamics)基础与求解策略1.1 逆动力学的定义与直接解。原创 2025-11-05 17:56:47 · 54 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】 第7章 (二) 轨迹规划与碰撞避让:采样式与优化式算法实战
RRT是一种基于采样的路径规划算法,它通过随机扩展树来探索环境。下面是一个在ROS 2中实现RRT的完整示例。Cpp深色版本。原创 2025-11-03 22:12:59 · 47 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】 第7章 轨迹规划与碰撞避让 — 原理与深入推导
本章重点从数学与数值角度系统、深入地推导与比较常见轨迹规划方法的原理:采样式方法(RRT、PRM)、优化式方法(CHOMP、STOMP、TrajOpt、KOMO)以及在高维机器人空间(多关节机械臂、多指抓取)下的工程化技巧(分层、任务空间、优先级投影)。我们力求把每种方法的目标函数、约束、算法更新和收敛/完备性特性用严谨的数学形式写清楚,并给出实现时的数值注意事项与互相比较的理论依据。原创 2025-11-03 22:02:30 · 50 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】 第6章 触觉与高分辨触觉(GelSight 等)与接触状态估计
对于抓取任务,我们关心:哪些指尖/表面已经接触物体?接触的接触点位置/区域?(几何定位)是否发生 slip?是否将要 slip?(短期预测)接触力分布与总抓取力是否足够?(稳定性评估)这些可以用 GelSight 输出 + 网络估计 + 物理检验联合实现。原创 2025-11-03 21:24:00 · 50 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】第4章 — 代码实现扩展(工程/可运行 / 深度细节)
下面我把第4章中“代码实现部分”做成的若干模块化示例。每个示例都带有详尽注释、实现细节与工程技巧,便于读者立刻拿来跑、理解并扩展。示例使用 Python(NumPy/SciPy/OpenCV/PyTorch),尽量避免需要难装的 C++ 依赖;对性能敏感处我说明如何在生产中替换为更高效的库(Ceres/ceres-python / g2o / HPIPM / custom C++ kernels)。原创 2025-11-03 20:52:07 · 42 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】 第4章 视觉感知与三维理解 (二)详细推导
目标:推导如何从大规模稀疏正规方程通过 Schur 补高效消去点云变量只解位姿增量。本章系统地把相机成像、几何、SLAM、VO、事件相机、语义映射与 Transformer 在机器人中的应用,用数学公式与推导串联起来,展示如何从物理模型推到概率 MAP、再到数值线性代数(Schur 补、稀疏分解)和最优化实现(Gauss–Newton / LM / 内点法 / ADMM)。原创 2025-11-03 20:34:56 · 197 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】 第4章 视觉感知与三维理解 (一)
本章目标给出从相机成像模型到三维几何恢复(单目/双目/深度/事件相机)的严谨数学推导;推导视觉里程计(VO)与 SLAM 的主要优化目标(bundle adjustment、pose-graph 等)与数值求解;介绍语义分割与端到端“像素→动作”管线的基本原理及训练目标;讨论 Vision Transformer(ViT)与 Transformer 在机器人策略中的应用(含代表性最新工作示例与讨论);视觉系统工程(延迟、带宽、滤波、同步、时间戳/补偿)与工程实践建议。原创 2025-11-03 19:57:58 · 64 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】第3章 优化基础与数值方法
本章系统介绍了优化问题的理论基础与数值方法。重点涵盖非线性规划(NLP)与二次规划(QP)的最优性条件与数值解法,包括KKT条件、序列二次规划(SQP)的推导与实现。详细讨论了最优控制问题的直接/间接方法(如Direct Collocation/Shooting)及其离散化技巧,分析了稀疏线性代数、KKT系统求解策略与数值稳定性问题。通过主流求解器(IPOPT、OSQP、HPIPM等)的解析,阐述了不同方法的适用范围与实现要点。强调工程实践中问题离散化、稀疏结构利用、求解器选择等关键因素,为优化问题从理论到原创 2025-11-03 19:15:31 · 140 阅读 · 0 评论 -
【现代人形机器人:从物理建模到大模型驱动的控制与学习】第1章 机器人建模回顾
本章建立读者进行后续控制 / 优化 / 学习工作的数学与计算基础。内容分为三大块:刚体运动学:位姿表示、坐标变换、旋转参数与李代数/李群(指数映射、twist)多关节机构的正/逆运动学:DH 与 POE 两种建模、雅可比矩阵推导、数值/解析逆解方法与奇异性问题约束动力学:拉格朗日公式、牛顿—欧拉递归算法、接触/冲击模型、受约束系统的方程(拉格朗日乘子与互补性条件)每一节同时给出与练习题。假设读者已具备线性代数(矩阵、特征分解、SVD)、多变量微积分与基础力学(牛顿第二定律)知识。原创 2025-11-02 20:49:40 · 76 阅读 · 0 评论 -
【研究生论文课题】复合材料加工表面质量的智能优化机理
模拟一个真实的物理过程,生成一组包含加工参数(转速、进给、深度)和对应的表面粗糙度(Ra)的“实验数据”。: 使用一个人工神经网络(ANN)来学习加工参数与表面质量之间的复杂非线性关系,构建一个高精度的预测代理模型。: 应用遗传算法(Genetic Algorithm, GA),以训练好的人工神经网络为指导,在整个参数空间中高效地搜索能够实现最佳表面质量(最低表面粗糙度)的最优加工参数组合。: 将优化过程和预测模型的响应曲面进行可视化,直观地展示结果。原创 2025-09-12 15:54:35 · 61 阅读 · 0 评论 -
【研究生论文课题】从相对距离到绝对坐标:自动化锚点标定的优化原理剖析
对于任意一种木桩布局,我们可以计算出任意两个木桩之间的实际距离。这个距离与连接它们的橡皮筋的“原始长度”(即我们的测量距离)之间会有一个差值。这个差值就代表了该连接上的“拉伸”或“松弛”程度,即**“误差”原创 2025-09-12 15:45:07 · 211 阅读 · 0 评论 -
【研究生论文课题】基于解构与重绘的高一致性人脸编辑模型
本文提出了一种高一致性人脸编辑方法Flux,通过解构几何形变与纹理生成来解决身份漂移问题。Flux首先预测精确的像素位移流场模拟表情变化,生成半成品图像和施工区遮罩;然后利用扩散模型在遮罩区域内进行上下文感知的智能修复,同时结合身份特征确保一致性。这种"先形变后修复"的策略既保留了原始身份特征,又实现了生动的语义编辑。方法在保持90%以上原始像素的同时,仅对必要区域进行约束性生成,达到了编辑效果与身份保真的最佳平衡。Flux的创新性在于将复杂编辑任务分解为可控的几何变换和条件修复两个阶段原创 2025-09-12 15:37:28 · 76 阅读 · 0 评论 -
【研究生课题】基于上下文学习的视频生成与编辑模型:深入理论分析
综合上述原理,一个先进的视频生成与编辑模型可以被概括为一个多层级、多模态的条件去噪系统:它以一个强大的扩散模型为基础,通过跨模态注意力接收来自文本和图像的全局指令;通过时间注意力和运动先验处理帧间的动态和一致性;并通过身份引导实现对特定目标的精确和持久化控制。这个框架将视频生成从一个难以控制的“黑箱”,转变为一个可精确控制、可定制的“创作引擎”,为未来视频内容的自动化生产和个性化编辑打开了全新的大门。原创 2025-09-12 15:28:08 · 51 阅读 · 0 评论 -
【研究生论文课题】基于多尺度特征的医学多模态融合:从方法到验证 已实现 源码在文末
多模态医学影像(如 MRI、CT、PET)在空间结构与功能代谢等信息上具有天然互补性,但临床场景中存在分辨率不一、模态不齐、跨设备域移等挑战。本文面向“实验室验证有效/已有同类文章发表”的成熟度,系统综述多模态融合的代表性技术,并提出一套可复现实验方案与模型蓝图:一种多尺度跨模态融合网络(MS-CMFN)。该网络以金字塔式多尺度表示为基础,引入跨尺度可变形交互注意力与门控专家路由,兼顾细粒度结构与全局上下文;同时以注册对齐、缺失模态鲁棒性训练与自监督预训练提升泛化与可用性。原创 2025-08-22 15:07:09 · 92 阅读 · 0 评论 -
【研究生论文课题】 基于对比学习的医学视觉问答
输入医学影像 xxx(如X光、CT切片或病理图)与自然语言问题 qqq,生成医学上且的不确定性的答案 aaa。1)跨模态对齐难:影像-文本语义鸿沟;2)医学知识稀疏且术语复杂;3)开/闭式问答兼容与事实一致性;4)小样本数据与域外泛化。:在的基础上,引入与,同时结合与,提升检索-对齐-生成一体化能力。为中文/英文双语问答适配 SLAKE 与其它公开数据集。SLAKE 为、含与的Med-VQA数据集,适合区域对齐与可解释性评估。原创 2025-08-22 14:43:50 · 62 阅读 · 0 评论 -
【研究生论文课题】无人机智能体辅助的城市IoT服务优化
例如,SynDrone数据集314提供了72,000个标注样本,包含多高度、多模态(图像与3D数据)的城市场景信息,支持语义分割等任务,大大降低了真实数据收集的成本。时间被划分为T个时隙,无人机在每个时隙根据环境观测调整悬停位置,并为覆盖范围内的设备提供服务。每架无人机在本地训练模型,定期将模型参数上传至中央服务器进行聚合(如FedAvg算法),再将更新后的全局模型分发至各无人机。通过本研究,我们期望为智慧城市中的无人机辅助IoT服务提供一套高效、安全的解决方案,推动低空经济与城市数字化的发展。原创 2025-08-22 14:41:49 · 71 阅读 · 0 评论 -
【研究生论文课题】基于知识图谱补全的关系推理与实体预测
本章提出一个结构化嵌入 + 关系图神经网络 + 可微路径/规则推理的混合框架,兼顾可扩展性、表达力与可解释性(图略)。输入层:为每个实体/关系初始化嵌入与类型特征,构造带向/带标的多关系图。对每个关系显式增广逆关系 r−1r^{-1}r−1,有助于训练稳定与收敛(“reciprocal relations”技巧)。表达层(Relation-aware GNN):采用关系感知的消息传递学习实体上下文表征,兼收路径/邻域证据(3.3 节)。R-GCN/CompGCN 的思想表明,多关系图卷积可显著提升补全精度。原创 2025-08-22 14:23:07 · 117 阅读 · 0 评论 -
【研究生论文课题】基于检索增强生成(RAG)的知识增强问答与推理
在过去数年中,大语言模型(Large Language Models, LLMs)取得了显著突破,其在开放域问答、自然语言推理、知识对话等任务中展现出接近甚至超越人类的表现(OpenAI, 2023;这类模型通过大规模预训练捕获了丰富的语言模式和通用知识,使其能够在单跳问答等任务中生成自然流畅且语义合理的回答。然而,LLM 的知识来源完全依赖于训练数据,因而存在显著局限:一方面,模型的参数化知识是静态且有限的,难以覆盖动态更新的事实信息;原创 2025-08-22 13:43:01 · 122 阅读 · 0 评论 -
【研究生论文课题】隐私保护的大语言模型分布式联合训练 完整代码 稍微修改即可发表
以 Transformer 为核心架构的 LLM(如 GPT 系列、LLaMA 系列等)通常依赖海量语料与长周期训练,常见手段包括数据并行、模型并行与流水线并行,以支撑大参数规模与长上下文长度。我们希望以 FL 为骨架,引入安全聚合与差分隐私,保证训练过程中各参与方的原始数据不出域,且对可见的模型更新进行噪声化或加密处理,降低推断攻击与重构风险。服务器侧周期性整合全局知识,提升通用性。机制:客户端以小模型进行就地训练与快速迭代,服务器端与/或部分算力充足节点维护大模型,对聚合的小模型知识进行吸收与反哺。原创 2025-08-22 12:48:42 · 142 阅读 · 0 评论 -
研究生课题 医学大模型参数高效微调(PEFT)的理论与实证研究
最后,基于公开的医学问答数据集(MedMCQA),我们提供了一套完整的、可复现的实证分析流程,展示了如何在单张GPU上高效微调7B规模的医学大模型,并验证了该方法的有效性。这些常数本身也会占用可观的内存。理论分析表明,LoRA的低秩假设是其有效性的基础,而QLoRA通过创新的量化和内存管理技术,极大地降低了微调的硬件门槛。LoRA的理论基石是Aghajanyan等人的研究发现:尽管预训练模型嵌入在一个高维参数空间中,但它们在适应下游任务时展现出极低的“内在维度”(intrinsic dimension)。原创 2025-08-20 14:18:52 · 105 阅读 · 0 评论 -
【研究生课题】 端侧多模态大模型的理论与实践:模型压缩与高效架构的协同研究
最后,本文提供了一套完整的实证分析流程,展示了如何构建一个由MobileViT和Gemma-2B组成的多模态模型,并通过PEFT微调与4-bit量化,最终实现一个可在端侧高效运行的视觉问答模型。通过将轻量级视觉主干与小型LLM结合,并利用LoRA进行高效的特定任务适配,最后通过GPTQ等高级量化技术进行极致压缩,我们能够在保持可接受性能的同时,将复杂的MLLMs部署到资源受限的设备上。我们可以使用一个强大的云端MLLM(教师模型,如LLaVA-13B)来指导一个轻量级的端侧模型(学生模型)的训练。原创 2025-08-20 14:14:17 · 90 阅读 · 0 评论 -
【具身智能】第六章 模块化导航与交互方法 附完整源码
本文介绍了模块化导航与交互方法的核心组件及实现代码。主要内容包括:1)占据栅格图构建方法,通过激光扫描数据更新地图;2)A*路径规划算法实现,在栅格地图上寻找最优路径;3)动态窗口方法(DWA)局部规划器实现,用于避障导航;4)SemExp前沿模块化模型的架构级伪代码,展示语义感知探索决策流程。文章提供了完整的Python代码实现,涵盖从地图构建到路径规划的完整导航流程,适合机器人导航算法开发者参考使用。原创 2025-08-09 14:03:33 · 88 阅读 · 0 评论 -
【具身智能】第一章 目标导向导航(Goal‑Oriented Navigation, GON)——完整理论剖析 含源代码实现,代码在文末
本文介绍了一个基于深度学习的机器人目标导航系统框架,包含感知定位、语义建图、路径规划和低层控制四个模块。系统采用可微结构设计,支持端到端训练。关键技术包括:视觉-惯性里程计定位、SAM语义分割、CLIP目标对齐、GNN/Diffusion路径规划器,以及PID/MPC/Diffusion控制策略。实验在Habitat-Sim和Gazebo环境中验证,结果显示Diffusion规划器在动态环境中表现优异(SPL>0.5)。文章提供了完整的代码结构和训练流程,支持从仿真到真实环境的迁移学习。原创 2025-08-08 21:27:11 · 2212 阅读 · 0 评论 -
【人工智能论文未发表 】完整源码在文末 基于物理约束引导的3D双人交互生成
本文提出了一种基于物理约束引导的3D人体交互动作生成框架,通过结合运动学先验和物理仿真,解决了现有方法在动作自然性和物理合理性之间的平衡问题。该方法采用Transformer条件扩散模型学习运动数据分布,并引入可微分物理引擎评估动作合理性,将物理能量函数作为引导项融入扩散采样过程。实验表明,该方法在保持动作多样性的同时,显著减少了穿透体积等物理错误,相比纯运动学方法提升了物理真实性。该工作为数字人交互动作生成提供了新的解决方案,在虚拟现实、机器人等领域具有应用潜力。原创 2025-08-08 12:53:41 · 67 阅读 · 0 评论 -
【人工智能论文未发表 含源码】基于具身感知的动态人体三维重建
《基于具身感知的动态人体三维重建方法研究》 本文提出了一种针对具身感知场景的动态人体三维重建方法,解决了移动相机视角下的人体重建难题。该方法通过联合优化相机运动与人体姿态,实现了未知相机运动下的高精度三维人体重建。 研究团队设计了一个基于最大后验概率估计的时序优化框架,主要创新点包括: 统一能量函数:整合2D投影误差、人体运动平滑约束和相机运动平滑约束 物理约束机制:引入基于接触检测的地面约束 IMU数据融合:利用惯性测量单元提升轨迹估计稳定性 实验验证表明,该方法在EgoBody和RICH数据集上显著优于原创 2025-08-08 12:10:15 · 51 阅读 · 0 评论 -
【人工智能论文参考未发表 含源码实现】基于视觉语言模型的手物交互三维重建
摘要: 本文提出了一种基于视觉语言模型(VLM)的手物交互(HOI)三维重建方法,通过语言语义引导解决传统方法在遮挡和几何歧义下的局限性。框架整合手部姿态估计(MANO)、物体检测(YOLOv8/SAM)和VLM(LLaVA)模块,将自然语言描述(如“拧瓶盖”)转化为可微分的语义接触损失,优化手部与物体的三维对齐。实验表明,该方法在遮挡场景中显著提升了重建的物理真实性和语义一致性,优于纯几何优化方法。核心贡献包括语义增强的重建框架和可微语义约束设计,为具身智能和数字孪生提供了新思路。 关键词: 手物交互;三原创 2025-08-08 11:10:47 · 188 阅读 · 0 评论 -
【人工智能论文发表】SRMT: 通过显式多维几何注意力增强多模态大模型的空间推理
本文提出SRMT模型,通过显式多维几何注意力机制增强多模态大模型的空间推理能力。该模型创新性地在标准注意力计算中融入几何偏置项,包括相对位置编码和交并比编码,使模型能够精确理解对象间的空间关系。实验表明,SRMT在CLEVR和VSR数据集上显著优于基线模型,尤其在需要精确空间推理的任务上提升明显。作者还提供了完整的PyTorch实现代码,包括几何注意力层和训练流程。这项工作为构建更强大的空间推理模型提供了新思路,未来可拓展到3D几何表征和动态场景分析等领域。原创 2025-08-04 15:32:55 · 70 阅读 · 0 评论 -
【人工智能论文发表】基于医学病例文本和多模态大模型的医疗影像分割方法研究
摘要:本研究提出MMS-Former,一种基于级联多模态Transformer的文本引导医学图像分割框架。该模型创新性地将临床文本信息深度融入图像分割全过程,通过SwinUNETR提取视觉特征,ClinicalBERT编码病历文本,并在解码器的每个上采样阶段通过交叉注意力模块实现多级文本特征融合。实验表明,相比纯视觉模型,MMS-Former在Dice系数和IoU指标上分别提升3%以上,在处理边界模糊目标时表现尤为突出。模型还设计了结合Dice损失和图文对比损失的复合目标函数,确保分割精度与语义对齐。代码实原创 2025-08-04 15:22:05 · 85 阅读 · 0 评论 -
【人工智能论文发表】世界知识增强的混合专家推理式虚假信息检测
摘要:本文提出了一种基于世界知识增强的混合专家推理式虚假信息检测框架(MoE-KRD),通过融合外部知识图谱信息和多专家协同分析机制,显著提升了虚假信息检测的准确性和可解释性。该框架包含三个核心模块:(1)知识增强模块从知识图谱检索相关事实;(2)混合专家模块通过语义逻辑、文体风格和知识一致性三个专家网络进行多角度分析;(3)决策模块整合专家意见并生成可解释的判断依据。实验表明,MoE-KRD在检测性能和可解释性方面均优于传统方法。该研究为构建可信赖的AI辅助信息审核系统提供了新思路。原创 2025-08-04 14:48:32 · 50 阅读 · 0 评论 -
【人工智能论文发表】ARGF - 面向鲁棒协同感知的自适应冗余与门控融合机制
摘要:本文介绍了一种名为ARGF(自适应冗余与门控融合)的创新多模态融合机制,旨在提升多智能体协同感知系统的鲁棒性。该机制通过动态置信度评估和可靠性门控模块,有效应对传感器失效和通信不稳定等挑战。报告详细阐述了理论基础、PyTorch实现、训练策略及评估方法,包含完整的模块化代码(BEV编码器、特征变换、可靠性门控和融合模块)以及专为冗余学习设计的损失函数。实验部分提供了受控环境下的鲁棒性评估方案,所有代码均具备生产级质量,可直接用于研究和开发。原创 2025-08-04 14:41:56 · 93 阅读 · 0 评论 -
【人工智能论文发表】通过信息瓶颈化的噪声嵌入对齐学习鲁棒的多模态表征——原文+源码
本文提出噪声嵌入对齐(NEA)框架,通过门控噪声注入(GNI)层在视觉-语言模型的嵌入空间中注入可学习的自适应噪声,以提升模型鲁棒性。基于信息瓶颈原理,NEA强制模型在噪声干扰下保持跨模态对齐能力,从而学习更本质的语义表征。文章提供了完整的PyTorch实现,包含噪声注入层、CLIP架构集成和分布式训练方案。该方法在ImageNet-R和MS-COCO等基准测试中显著提升了零样本检索和分类性能,无需修改模型架构或增加数据。原创 2025-08-04 14:32:29 · 43 阅读 · 0 评论 -
视频文件批量转换为文字记录
本文介绍了一个完整的视频转文字自动化工作流程,包含两个核心Python脚本:1) 视频转音频脚本(处理视频.py),将视频批量转换为符合Vosk要求的16kHz/16-bit单声道WAV文件;2) 音频转文字脚本(处理音频.py),使用Vosk库进行离线语音识别并输出文本。方案采用解耦设计,要求预先配置好Python环境、Vosk库、FFmpeg工具和中文语音模型,通过简单两步操作即可完成批量转换。脚本包含详细错误处理和日志输出功能,适合非专业用户使用。原创 2025-07-26 23:20:36 · 2286 阅读 · 0 评论 -
项目开发纪要:新增函数及模块集成流程
如果是雷达系统特有的算法(如新的脉冲压缩变体、MTD 后处理、目标检测、CFAR 等),它应该属于。在现有雷达信号处理项目中,创建一个新的信号处理函数,并将其集成到项目中,最终通过测试运行。观察 CLion 的 CMake 输出窗口,确保没有错误发生,并且你的新文件已被正确识别。通过遵循这个流程,你就可以有条不紊地添加新的功能到你的项目中,并确保它们被正确编译和测试。如果是通用的数字信号处理函数(如新的滤波、变换、波形生成等),它应该属于。声明你的新函数原型。在正确的命名空间内,添加你的新函数原型声明。原创 2025-07-18 21:11:09 · 44 阅读 · 0 评论 -
DSP C++ 数字信号处理算法库
这个 C++ 信号处理算法库是一个强大而全面的工具集,其在时域、频域和各种滤波算法上的丰富实现,加上对双精度运算的深入支持以及可能源自 DSP 硬件优化的底层函数,使其在处理高性能和高精度信号处理任务中独具优势。更完善的文档: 使用 Doxygen 等工具生成自动化的、专业的 API 文档,大大提高用户上手效率。独立的测试框架: 将模块集成到 Catch2 或 Google Test 等成熟的单元测试框架中,实现更规范、更易于管理的测试流程。C++ 现代特性深度利用。原创 2025-07-17 18:42:06 · 120 阅读 · 0 评论 -
【自制视频数据集】在Pexels 网站下载公开视频数据集
【摘要】本文分享了从Pexels下载公开视频数据集的Python脚本,主要功能包括:1)支持多关键词分类搜索并自动创建子目录存储;2)使用Pexels API获取高清视频资源;3)智能选择最高质量视频文件;4)内置随机延时防止请求过快。作者ZhuChunSHU是985硕士、算法研究员,在深度学习领域有丰富经验,曾获多项AI赛事奖项。脚本适用于需要高质量视频素材的研究人员,需自行注册获取API密钥后使用。原创 2025-06-30 15:22:36 · 132 阅读 · 0 评论 -
【自监督学习完整教程】第 8 章:自监督学习的未来:前沿探索与研究机遇
《自监督学习前沿进展与实践》摘要 本文由算法研究员ZhuChunSHU撰写,探讨自监督学习(SSL)的最新发展趋势与应用前景。文章首先分析了2025年SSL研究热点,包括多模态SSL(如CLIP模型)、跨领域迁移、结合弱监督学习及视频3D数据SSL。重点介绍了新兴算法MAE(Masked Autoencoders)及其变体BEiT/SimMIM的遮蔽预测机制。文章指出当前SSL面临的四大挑战:计算效率、泛化能力、可解释性和伦理问题,并提出了相应研究机遇。最后,作者通过PyTorch实现了一个简化版MAE模型原创 2025-06-27 14:30:22 · 58 阅读 · 0 评论 -
【自监督学习完整教程】第 7 章:自监督学习的工业落地:从模型到部署
本文介绍了自监督学习(SSL)在工业项目中的落地应用,通过医疗影像分类和推荐系统两个典型案例,展示了如何利用SSL解决数据稀缺、标注成本高等实际痛点。文中详细阐述了工程化挑战(如数据增强优化、模型压缩、推理加速)及解决方案,并提供了从SimCLR预训练、分类器微调到ONNX模型部署的完整代码流程。该技术能有效降低对标注数据的依赖,提升模型在数据稀缺场景下的性能,为工业界AI应用提供了新思路。原创 2025-06-27 14:24:37 · 137 阅读 · 0 评论
分享