- 博客(35)
- 收藏
- 关注
原创 大模型太贵,小模型太笨?医疗 AI 诊断的“蒸馏”破局之路
在医疗 AI 领域,我们常陷入两难:大型多模态模型(如 GPT-4V)效果惊艳,但因其高昂的推理成本和隐私风险而难以在医院落地;而小型模型虽易于部署,却在复杂诊断任务上精度不足。本文提出了一种“视觉语言-知识蒸馏 (VL-KD)”的实战框架,巧妙地结合了“教师-学生”模式。我们利用大型视觉语言模型(如 Med-CLIP)的强大泛化能力作为“教师”,指导一个轻量级的“学生”模型(如 MobileNetV2)进行学习。这种方法不仅能大幅压缩模型体积,还能在保证高精度的同时,使其易于在医院本地环境中部署,真正实现
2025-10-26 22:32:26
1856
原创 Git 分支冲突解决实战:以 PaddlePaddle/docs 提交 PR 为例
本文分享了在开源项目PaddlePaddle/docs中提交PR时遇到分支冲突的完整解决过程。作者在修改拼写词典_typos.toml时,由于上游仓库更新导致文件冲突。通过分析冲突标记,作者判断双方新增了不同的拼写词,因此采用合并内容的解决方案。文章详细介绍了从查看冲突、手动编辑文件到最终提交更新的每个步骤,并总结了处理Git冲突的核心经验:理解冲突标记含义、合理决策处理方式、保持PR自动更新。这次实践帮助作者掌握了多仓库协作、分支合并和冲突解决等关键Git技能。
2025-10-20 22:47:11
946
原创 大型开源项目的“代码洁癖”:我们如何安全引入 `typos` 并众包修复海量拼写错误
本文介绍了在大型开源项目中安全引入typos-cli工具并修复海量拼写错误的策略。通过"增量拦截+存量修复"两步走方案:首先在CI中拦截新错误,然后采用"白名单优先"方式逐步清理存量问题。关键点是建立两条铁律:不修改API和专有名词,并通过创建全量白名单、分派社区任务、人工甄别修复的方式安全推进。这种策略既确保了代码质量提升,又不会破坏项目稳定性,还能促进社区参与,最终形成项目专属词典。该思路可推广到其他代码规范改进工作。
2025-10-19 22:40:02
1177
原创 电影评论情感分析(GRU,RNN,LSTM,Bi-LSTM)
本实验使用IMDB电影评论数据集(25,000条训练/测试数据)对比了四种循环神经网络在情感分析中的表现。通过PaddlePaddle框架实现了GRU、RNN、LSTM和Bi-LSTM模型,采用256维词嵌入和200词长序列处理。实验结果表明:RNN因结构简单在特定场景下表现优异;Bi-LSTM凭借双向上下文捕捉能力获得最高准确率;LSTM和GRU分别通过门控机制平衡了性能与复杂度。所有模型均完成80轮训练,最终Bi-LSTM展现出最优的收敛稳定性和预测性能,验证了复杂网络结构在语义理解任务中的优势。
2025-10-17 22:41:54
1153
原创 你的大脑在做梦时悄悄“开机”了吗?——从心跳中破译REM睡眠的惊人秘密
你是否好奇为何做梦时感觉忽而沉浸、忽而警觉?这篇博客将带你解读一项突破性科学研究,揭示 REM 睡眠并非单一状态,而是由“离线”的时相期和“在线”的紧张期构成。文章将通过生动的比喻和图表,解释科学家如何使用“心跳诱发电位 (HEP)”这一前沿技术,证明在紧张期 REM 睡眠中,我们的大脑对身体内部信号的监控能力,几乎恢复到了与清醒时无异的水平。这不仅刷新了我们对睡眠的认知,也为理解梦境与身心健康提供了全新视角。
2025-10-16 21:49:53
1051
原创 AI 读论文终极进化:从“摘要生成器”到“数字审稿人
论文摘要 本文介绍了一种结构化AI Prompt设计方法,旨在将AI从简单的"摘要生成器"提升为具备批判性思维的"数字审稿人"。该方法通过9个核心模块(A-I)系统性地拆解论文: 强调方法学深度审查,要求AI验证统计前提、复现关键参数 设置"魔鬼代言人"环节主动寻找潜在混淆因素 要求提供可复现性信息(代码版本、随机种子等) 包含统计稳健性测试建议(剔除异常值、替代模型等) 与通用Prompt相比,该方法能生成包含效应量、置信区间等关键指标的结构化报
2025-10-14 20:54:33
1483
原创 告别“只会 CV”,向开源世界提交你的第一个 PR!
摘要: 本文是Git与GitHub的入门实战指南,手把手教你完成首次开源贡献。从基础概念讲起,Git是本地版本控制系统,GitHub是云端协作平台。核心流程分为四步:1)Fork项目到个人仓库;2)Clone到本地并创建开发分支;3)修改代码后Commit并Push;4)发起Pull Request(PR)请求合并。每个步骤配有详细命令和比喻解释,特别强调分支管理、规范提交信息等最佳实践。完成PR后,你还将学会如何响应代码审查、处理合并等后续操作。通过这个完整流程,开发者能突破对开源协作的畏惧,迈出从&qu
2025-10-11 18:16:37
2478
原创 你的 AI 应用又在“一本正经地胡说八道”?是时候用 RAG 治治大模型的幻觉了
为什么我们构建的 AI 问答机器人有时会自信地给出完全错误的信息?这就是大模型的“幻觉”问题。本文将从一个开发者的视角,带你深入剖析幻觉产生的根源,并详细介绍当前最主流、最有效的解决方案——RAG (检索增强生成)。你将读懂 RAG 的工作原理,学习其核心架构,并通过伪代码示例了解如何为你的 LLM 应用配备一个强大的“事实核查员”,让它变得更加可靠和专业。
2025-10-06 13:50:12
1497
原创 揭秘心跳与大脑的“密语”:从 0 到 1 实现睡眠期心电诱发电位(HEP)计算
本文是一篇面向神经科学研究者和数据科学家的实战指南,详细拆解了在充满挑战的睡眠脑电(EEG)数据中计算心电诱发电位(HEP)的全过程。文章从 HEP 的基本概念和研究意义出发,指出了在睡眠数据中提取 HEP 的核心技术挑战(如强烈的心电伪迹)。通过“预处理、R-峰定位、分段、打标签”四个清晰的步骤,本文提供了一套完整的、可复现的计算流程,并附有关键代码示例和图表设计建议。读完本文,你将能独立完成从原始多模态数据到带有睡眠分期标签的 HEP 数据提取,为深入研究心脑交互打下坚实基础。
2025-10-03 22:15:27
2905
原创 你的模型精度99%,可能是个谎言:置换检验如何戳破“虚假繁荣”
你是否曾用少量数据训练出一个性能惊艳的模型,并为此沾沾自喜?小心,这可能是一个由随机性编织的“假阳性”陷阱。本文将通过一个开发者的故事,带你深入了解小样本数据如何放大偶然性,并详细介绍一种强大的统计“测谎仪”——置换检验(Permutation Test)。读完本文,你不仅能理解其原理,还能用一行 scikit-learn 代码,科学地判断你的模型学到的究竟是真实规律还是随机噪音,从此告别“虚假繁荣”。
2025-10-02 20:37:54
986
原创 揭秘大模型“开卷考试”的秘密武器:一文彻底搞懂 RAG
摘要:RAG——大语言模型的“开卷考试”外挂 RAG(检索增强生成)技术通过结合实时检索与生成能力,解决了大语言模型(LLM)的三大痛点:知识过时、事实性幻觉和私有数据隔离。其核心原理分为两步: 离线构建知识库:将文档切分、向量化后存入向量数据库; 在线检索生成:用户提问时,先检索相关文档片段,再让LLM基于这些上下文生成答案。 本文通过形象比喻(闭卷vs开卷考试)解释RAG优势,并给出5分钟搭建RAG应用的代码示例(使用LangChain+FAISS)。相比微调方案,RAG具有成本低、更新快和可解释性强的
2025-09-29 22:04:32
1622
原创 从“最强大脑”到“最强小脑”:VLA 大模型如何让 AI 拥有“身体”?
你是否想过,为什么能对答如流的智能音箱,却无法帮你从冰箱里拿一瓶可乐?因为它们只有“大脑”,却没有“身体”。本文将带你深入了解 VLA (Vision-Language-Action) 大模型——这项让 AI “知行合一”的关键技术。我们将用生动的比喻,为你清晰剖析 VLA 与 GPT-4V 等模型的本质区别,并一探 Google、特斯拉等巨头的前沿实践。读完本文,你将理解为何 VLA 正开启机器人领域的“iPhone 时刻”。
2025-09-28 17:29:36
1314
原创 告别千篇一律!保姆级教程带你打造让 HR 和同行都惊艳的 GitHub 个人名片
还在使用默认的 GitHub 主页吗?本文是一篇保姆级的 GitHub Profile 美化教程,专为希望打造强大个人品牌的开发者设计。文章将带你从零开始,通过激活特殊的 Profile 仓库,一步步集成欢迎横幅、技术栈图标墙、动态 GitHub 数据看板、贪吃蛇贡献图以及社交媒体徽章等 6 大核心组件。告别千篇一律,用一个精心设计的 GitHub 主页,给 HR 和技术同行留下专业、有趣的深刻印象。
2025-09-27 23:06:41
1359
原创 别再猜了!打开深度学习“黑箱”,让你的预测模型说“人话”
还在为深度学习模型的“黑箱”问题而烦恼吗?当模型给出一个预测结果,你是否想知道它背后的决策依据?本文将带你告别“炼丹玄学”,系统梳理可解释 AI (XAI) 的核心概念与方法。我们将深入浅出地介绍 LIME 和 SHAP 这两大“万能”利器,并探讨 Grad-CAM 等模型特定方法在图像领域的应用。读完本文,你将获得一张清晰的 XAI 技术地图,并学会如何选择和使用合适的工具,让你和你的 AI 模型都能“明明白白”。
2025-09-26 22:58:49
1388
原创 SVFormer: Semi-supervised Video Transformerfor Action Recognition论文研读与复现
该论文提出了一种基于Transformers的半监督视频动作识别方法SVFormer,并在此基础上引入了一种专门为视频Transformers模型设计的数据增强方法Tube TokenMix。Tube TokenMix旨在通过对视频片段进行增强处理,提升模型在视频动作识别任务中的表现。此外,我们还结合了时间扭曲增强方法,该方法通过任意改变帧长度来覆盖视频中的复杂时间变化,从而进一步提升模型的识别性能。
2025-09-25 20:06:13
1185
原创 告别野路子:一文学会阿里工程师的预测模型搭建四步法
你是否也曾面对一堆业务数据,满脑子都是 model.fit(),却不知从何下手?本文将终结这种“野路子”模式,为你提供一套来自阿里巴巴工程师实战总结的端到端预测模型搭建“作战地图”。我们将通过“数据准备 -> 数据预处理 -> 模型搭建 -> 结果验证”四步法,带你走通从原始数据到可靠预测的最后一公里。读完本文,你将获得一个清晰、可复用的机器学习项目框架。
2025-09-24 21:52:33
1071
原创 fMRI 数据只会做组间差异?教你用 CPM 模型挖掘预测个体行为的宝藏
想知道如何通过大脑扫描图像来预测一个人的认知能力或性格特质吗?本文将带你深入浅出地了解神经科学领域的热门技术——基于连接组的预测模型(Connectome-based Predictive Modeling, CPM)。我们将用“大脑社交网络”的生动比喻,为你拆解 CPM 的核心三步曲:如何筛选“黄金连接”、如何构建简洁的预测模型,以及如何通过严格的交叉验证确保其有效性。读完本文,你将完全掌握 CPM 的原理,并理解其在科学研究中的巨大潜力。
2025-09-23 22:50:42
1110
原创 隔壁“心跳派对”太吵?用统计学揪出脑电信号里的“内鬼”
在处理脑电(EEG)等生物信号时,我们如何确定测量到的是真实的大脑活动,还是心脏跳动带来的电信号干扰(ECG 伪迹)?直接降噪可能会丢失宝贵的信号。本文以一个生动的“隔壁派对”比喻开场,深入浅出地介绍了一套严谨的“四重统计验证法”,通过直接比较、协方差分析(ANCOVA)、相关性检验和非参数置换检验,层层递进地排除伪迹干扰。这套方法论不仅适用于神经科学研究,其严谨的“证伪”思想对所有需要从强噪声中分离弱信号的数据分析场景都具有极高的参考价值。
2025-09-22 16:24:19
969
原创 揭秘梦境的 AI 架构师:Mamba 模型如何读懂你的睡眠密码?
你是否好奇整夜的睡眠中,大脑究竟经历了怎样的奇妙旅程?本文将带你从 N1 浅睡到 REM 梦境,深入探索睡眠各个阶段的奥秘及其对健康的重要性。更重要的是,我们将揭示为什么传统的 RNN 和 Transformer 在分析长达数小时的脑电(EEG)信号时力不从心,并隆重介绍新一代序列模型——Mamba——如何凭借其线性复杂度和选择性状态空间机制,成为睡眠分期任务的“新王”。读完本文,你不仅能收获硬核的睡眠科学知识,还能掌握 Mamba 在处理超长时序数据时的核心优势与实战思路。
2025-09-21 22:14:12
1567
原创 告别 Transformer 的二次方梦魇:Mamba 如何实现线性时间序列处理?
为什么我们需要 Mamba?痛点切入:从一个“失忆”的聊天机器人故事开始,引出 Transformer 处理长文本时面临的性能瓶颈和高昂成本(O(N²) 复杂度)。核心观点:Mamba 作为一种全新的架构,基于状态空间模型(SSM)并引入“选择机制”,成功地将序列处理的复杂度降至线性(O(N)),有望解决 Transformer 的核心痛点。收获预期:读完本文,你将彻底理解: Transformer 的“二次方诅咒”究竟是什么。状态空间模型(SSM)的基本思想。Mamba 最核心的两大创新。
2025-09-21 20:04:18
1493
原创 每天学习一个统计检验方法--协方差分析 (ANCOVA)(以噩梦障碍中的心跳诱发电位研究为例)
它是谁?ANOVA和线性回归的结合体。何时用?当你想要比较两个或多个组的均值,但又怀疑有某个连续变量(协变量)在“捣乱”时。怎么做?通过统计方法先“剔除”协变量的影响,再对“净化”后的数据进行组间比较,让结论更可信、更纯粹。
2025-09-20 21:05:16
1310
原创 每天学习一个统计检验方法--曼-惠特尼U检验(以噩梦障碍中的心跳诱发电位研究为例)
本文摘要: 本研究通过比较噩梦组(NM)和对照组(CTL)的REM睡眠时长数据,介绍了曼-惠特尼U检验的应用。该非参数检验方法不要求数据服从正态分布,通过排名比较两组数据差异。研究展示了完整的数据分析流程:1)混合两组数据并排序;2)计算各组排名和;3)基于U统计量判断差异显著性。示例分析显示,当p值<0.05时认为存在显著差异。文章还提供了Python和R语言实现代码,以及一个交互式网页工具,可直观探索数据分布和检验结果。该方法适用于非正态分布或等级数据的组间比较。
2025-09-20 20:50:48
1175
原创 每天学习一个统计检验方法--基于聚类的置换t检验(以噩梦障碍中的心跳诱发电位研究为例)
本文介绍了基于聚类的置换检验在高维脑电(EEG)数据分析中的应用。该方法通过将时空上相邻的显著点连接成簇,计算簇内统计量,并通过置换检验控制多重比较问题,被广泛应用于神经科学研究。文中以Perogamvros等(2019)的研究为例,展示了该方法如何发现噩梦患者在REM睡眠阶段额叶区域心跳诱发电位(HEP)的显著增强。研究通过Fieldtrip工具箱实现聚类置换t检验,在200-600ms时间窗内比较噩梦患者与对照组的差异,结果显示REM阶段右额叶电极簇(449-504ms)存在显著差异。文章还提供了Pyt
2025-09-19 23:44:24
1462
原创 完成LRU页面调度算法的模拟(GUI)
摘要:本文实现了LRU页面置换算法的C语言和Python GUI版本。算法通过维护页面访问队列和时间戳,置换最近最少使用的页面。实验包含队列初始化、页面查找、置换等核心功能,并统计缺页次数和命中率。Python版本提供图形化界面支持用户交互。总结指出可优化数据结构性能、实现其他置换算法比较、增强输入验证及改进测试模式等进一步改进方向。
2025-09-19 23:37:15
1189
原创 在虚拟机中完成PV操作验证实验
本实验通过PV操作实现经典的生产者-消费者问题变体。实验设计了一个盘子作为共享资源(容量为1),父亲和母亲作为生产者分别放入苹果和橘子,女儿和儿子作为消费者分别取用对应水果。使用信号量empty控制盘子空间,mutex实现互斥访问,apple/orange信号量协调生产者消费者。实验在Linux环境下用多线程编程实现,通过sem_wait/sem_post模拟PV操作。后续改进将盘子容量扩展为3,并增加小猫小狗两个消费者角色,通过引入互斥锁mutex确保多消费者场景下的线程安全。实验结果表明该方案能有效实现
2025-09-18 19:19:26
1048
原创 预测模型入门:用相关性筛选预测模型的候选特征
本文介绍了特征选择在预测模型构建中的重要性,提出通过皮尔逊相关系数分析来筛选有效特征。文章给出了Python实现代码,包括数据加载、标准化处理、相关性计算及可视化展示。该方法能快速识别与目标变量高度相关的特征,为后续建模提供基础。作者建议先通过相关性分析进行初步筛选,再结合更复杂的方法继续优化特征集,以提高模型性能和可解释性。文中代码可直接应用于实际数据分析,输出结果为Excel表格和直观的条形图。
2025-09-18 12:14:02
695
1
原创 Python小技巧:给表格列名加上文件名前缀
本文介绍了一个用Python处理Excel数据的实用技巧:通过将文件名添加到列名前,解决多表合并时的列名冲突问题。该方法使用pandas库,只需读取Excel文件后,用列表推导式修改列名格式为"文件名_原列名",即可清晰区分各列来源。文中提供了完整代码示例,展示了如何自动获取文件名、修改列名并保存结果。这个技巧特别适合批量处理多个结构相似的Excel文件,能有效避免合并时的列名混淆问题,提高数据处理效率和可追溯性。整个操作简单高效,只需几行代码即可完成。
2025-09-16 23:01:55
226
原创 编写一个最简单的OS
本实验通过在Linux环境下使用gcc和nasm工具,完成了简单操作系统的编写与启动。实验内容包括:安装编译器、创建虚拟硬盘映像、编写汇编程序test.asm并编译为bin文件,最后通过Bochs模拟器成功运行。实验过程中解决了磁盘锁定问题,初步掌握了x86汇编指令和虚拟磁盘操作。通过实践,深入理解了计算机底层运行机制,认识到汇编语言与高级语言的差异。未来计划编写更复杂的汇编程序,如加法运算或倒计时功能,以进一步巩固操作系统开发技能。
2025-09-16 22:52:15
477
原创 多功能数字钟的设计与实现--数字逻辑课程设计
设计一个多功能数字钟,包含以下内容:时钟模块(可调节设置时间),闹钟模块(到达设定时间LED灯亮一分钟),秒表模块(实现0.00到99.99秒的计时),倒计时模块(实现0到9999秒的倒计时,倒计时结束灯亮)。
2025-09-15 23:59:44
2878
6
原创 Python小技巧:删除日志文件中的指定行
本文介绍了一个Python快速清理日志文件的小技巧。通过使用startswith()方法配合列表推导式,可以轻松删除日志中以指定关键词(如"Round")开头的冗余行。示例代码展示了如何读取日志文件,过滤掉以"Round"开头的行,并将清理后的内容保存到新文件中。该方法简单高效,不仅适用于日志清理,还可用于各类数据文件的快速过滤,只需修改关键词即可满足不同需求。
2025-09-14 22:54:30
367
原创 搭建基于Bochs的Linux虚拟机
本实验通过在Windows/Linux环境下使用Bochs模拟器和Linux0.11搭建操作系统环境,主要完成了Bochs配置、Linux0.11内核编译等关键步骤。实验过程中需修改多个Makefile文件参数,并使用Vim编辑器进行操作。通过实践,加深了对操作系统内核运行原理的理解,掌握了基本的系统编译和调试技能,为后续深入学习操作系统底层机制奠定了基础。
2025-09-14 22:47:54
1045
原创 深入理解 BP 神经网络:从 XOR 到小麦种子分类的模式识别实验
BP(Back Propagation,误差反向传播)神经网络是最经典的多层前馈神经网络训练算法之一。它通过前向传播和误差反向传播不断调整权值与偏置,从而实现复杂的非线性映射。本实验首先利用 BP 神经网络解决了“异或”问题,进一步扩展到小麦种子数据集的分类,实现了一个完整的模式识别任务。通过实验,我不仅加深了对 BP 网络训练机制的理解,还掌握了数据预处理、网络调参与实验验证的过程。
2025-09-13 08:00:00
897
原创 从零构建产生式系统:动物疾病诊断的智能推理实验
在人工智能学习过程中,产生式系统是最直观的知识表示与推理方法之一。本实验以动物疾病诊断为应用场景,结合正向推理与反向推理,设计并实现了一个基于规则的智能系统。通过 Python 与 PySide2 的 GUI 界面开发,不仅完成了规则库与事实库的搭建,还实现了用户交互式的疾病诊断。本文将详细介绍实验原理、设计思路、实现步骤与心得体会,帮助读者快速理解产生式系统的运行机制。
2025-09-12 22:26:23
939
1
原创 Python小技巧:一行代码提取Word文档里的所有图片
在日常办公中,我们经常需要从 Word 文档中保存图片,但手动一张张“另存为”既耗时又低效。本文介绍了一种基于 Python 的方法,利用 python-docx 与 zipfile 库,只需十几行代码,就能快速提取 Word(.docx)文档中的所有图片,并按上下文顺序自动保存到本地文件夹中。该方法不仅适用于单个文档,也可扩展到批量处理,极大提升了办公自动化效率。
2025-09-12 21:59:36
486
人工智能基于BP神经网络的模式识别方法研究:小麦品种分类与异或逻辑训练模型设计
2025-09-18
操作系统基于PV操作的多线程同步与互斥验证:虚拟机环境下生产者消费者问题的设计与实现
2025-09-18
操作系统基于汇编语言的最小化OS设计:Linux环境下Bochs模拟器的引导扇区开发与调试
2025-09-18
【操作系统实验】基于Bochs的Linux 0.11虚拟机搭建与内核编译调试技术研究
2025-09-18
人工智能基于产生式规则的动物疾病诊断系统:正向与反向推理机制实现及Python GUI应用设计
2025-09-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅