- 博客(13)
- 收藏
- 关注
原创 超越“死记硬背”:REAL-Prover 如何通过“检索增强”与“自我进化”,让大模型学会真正的数学推理
摘要: REAL-Prover 是一项突破性的AI技术,旨在攻克高等数学定理证明这一人类智慧堡垒。传统AI擅长计算但缺乏创造性推理能力,尤其在大学及以上数学领域表现不足。REAL-Prover通过三大创新解决这一难题:1)采用形式化证明语言Lean,将数学证明转化为可验证的"代码";2)结合检索增强生成(RAG)技术,在证明过程中动态调用Mathlib知识库中的定理;3)构建双循环自进化系统:HERALD-AF数据工厂自动转换数学教材为形式化习题,而迭代证明引擎通过"敏捷开发&
2025-10-29 14:45:37
812
原创 AI医生如何摆脱“黑箱”?Fleming-R1论文精读:解密可信赖医疗大模型的训练之道
摘要: 医疗AI面临"黑箱困境":当AI医生给出正确诊断却无法解释推理过程时,如何确保其可靠性?Ubiquant AI团队的最新研究Fleming-R1(arXiv:2509.15279v1)通过三大创新解决了这一核心问题:(1)推理导向的数据策略(RODS)构建高质量训练素材;(2)思维链冷启动注入专家思维框架;(3)可验证奖励强化学习(RLVR)优化推理路径。7B版本在医疗基准测试中超越更大模型,32B版本与GPT-4o表现相当。该研究突破了传统医疗LLM"有答案无理由&q
2025-10-29 14:30:59
776
原创 解剖Diffusion语言模型:数据高效的根源是架构还是训练策略?
人工智能领域正面临“令牌危机”——高质量公开文本数据逐渐耗尽。主流自回归(AR)语言模型在多轮训练中易过拟合,性能下降。而扩散语言模型(DLM)展现出在有限数据下持续学习的能力。研究发现,DLM的"超级学习"能力主要源于其"令牌丢弃"技术(随机遮盖部分输入),而非复杂的扩散算法。实验证实,简单的AR模型搭配令牌丢弃即可获得与完整DLM相当的数据效率。这一发现为突破数据瓶颈提供了新思路,揭示了通过信息缺失促进深度学习的新路径。
2025-10-29 13:52:08
852
原创 AI工程落地避坑指南——从RAG、RLHF到Evals,构建卓越AIGC应用的底层逻辑
当前AI领域,无数团队陷入追逐最新模型和框架的“军备竞赛”,却忽视了产品成功的根本。本文基于AI工程专家、畅销书《AI Engineering》作者Chip Huen的深度洞察,为你系统性地拆解了构建卓越AIGC应用的全过程。文章从一个引发行业共鸣的思考——“什么才能真正改进AI应用”——出发,深入探讨了从技术原理到企业实践的每一个关键环节。在本文中,你将学到:价值回归: 为什么说“与用户交谈、准备好数据”远比“评估最新模型、采用新框架”更重要?技术揭秘: 通俗解读预训练、微调、RLHF和RAG等核心
2025-10-27 01:07:08
997
原创 如何衡量 AI 开发人员的生产力?
摘要:AI时代开发者体验(DevEx)的变革与挑战 本文探讨了AI时代开发者体验(DevEx)的核心价值与变革。DevEx是开发者与工具、流程及团队文化互动的综合感知,包含心流状态、认知负荷和反馈循环三大支柱。AI工具正在重塑传统编码心流,将开发者角色从"代码创作者"转变为"AI协调者",推动工作模式向更高维度的系统设计演进。同时,传统生产力指标(如代码行数)在AI时代完全失效,Dora等现代框架也面临局限性。AI带来的最大挑战在于如何平衡效率提升与质量保障,避免陷入
2025-10-27 00:57:34
910
原创 利用大模型实现数据标注自动化
当然,如果我们的知识库或范例集非常庞大,超出了模型的上下文窗口,那就需要依赖如“检索增强生成”(Retrieval-Augmented Generation, RAG)等更复杂的技术,动态地为每个任务检索最相关的知识片段并注入提示中,但这已超出了本节的范畴。这个闭环不仅解决了标注效率的问题,更重要的是,它建立了一个可持续改进的框架:我们可以不断地将新的、模型不确定的数据送入这个流程,持续地扩充和完善我们的基准真相数据集,为训练出更强大的定制化模型打下坚实的基础。首先,它是一个典型的定制化业务需求。
2025-10-25 16:54:40
643
原创 万物皆可“标注”:在数据、算法与现实世界之间搭建桥梁
数据标注是AI训练的核心环节,尤其在计算机视觉领域,它通过人工或人机协作的方式为原始图像添加语义标签,教会AI识别物体、理解场景甚至预测行为。行业已从纯人工迈向人机混合模式,不同公司根据需求选择自动化主导或人工主导的标注策略。随着技术进步,数据标注的应用已从基础的物体识别扩展到复杂场景分析,如农业中的精准除草和安防中的行为预测,展现了AI感知能力的深度与广泛潜力。
2025-10-25 16:45:31
301
原创 大型语言模型在科研中的隐形危机——“LLM Hacking”
摘要: 大型语言模型(LLMs)为社会科学研究带来革命性潜力,能高效处理海量文本数据,但也引入“LLM Hacking”风险——研究者通过模型选择、提示词设计等操作,在数据生成阶段系统性扭曲结论,导致假阳性、假阴性或方向性错误。与“p-hacking”不同,LLM Hacking更隐蔽,发生在分析前阶段,通过调整模型参数、映射规则等自由度,可能完全改变研究结果。这种偏误可能误导学术发现和政策决策,亟需方法论规范与透明度提升以保障研究可靠性。
2025-10-25 16:36:33
391
原创 人机共创——大型语言模型时代下的数据标注新范式
摘要: 在数据科学领域,传统的众包标注曾是构建高质量数据集的核心方法,但大型语言模型(如GPT-4)的出现颠覆了这一范式。本文通过对比实验,探讨人类众包工作流与GPT-4在数据标注任务上的表现差异。实验采用全新的生物医学论文标注任务,避免数据污染,并优化众包流程(如交互界面设计、数据清洗策略和标签聚合算法)。研究强调,人类众包在系统性优化后仍具竞争力,但LLM的崛起要求重新思考数据科学的未来方向。
2025-10-25 00:12:17
957
原创 打造AI的“粮仓”——数据市场的构想与实践
AI时代的"数据困境"与破局之道 当前AI发展面临核心挑战:高质量训练数据的获取难题。传统公开数据集已被过度使用且难以满足垂直领域需求,数据搜寻过程耗时耗力。Scientific公司推出"数据市场"解决方案,旨在打造"数据领域的Expedia",将分散的数据资源整合为统一平台。其核心价值体现在:1)广度与定制化,汇聚各类数据并支持按需生成;2)智能化服务,提供数据导购式体验;3)从"数据量"到"适配性"的理念
2025-10-25 00:05:36
859
原创 数据标注的热潮:初创公司的生存与发展指南
数据淘金热:高质量数据驱动AI成功 在人工智能领域,数据质量往往比算法本身更为关键。一个平庸的算法配以高质量的数据,其效果通常优于顶尖算法搭配劣质数据。本文探讨了数据获取、标注与战略制定中的核心挑战与实用策略。 数据获取策略 初创公司应优先考虑数据标注而非单纯的数据收集,因为标注将原始数据转化为可用的商业价值。在资源有限的情况下,建立合作关系比直接采购更高效,例如与客户共享数据换取折扣或产品积分。同时,充分利用公共数据集(如医疗行业的CMS数据)可大幅降低成本。 数据标注的复杂性 数据标注远非简单的图像识别
2025-10-24 23:57:50
351
原创 Reddit创业淘金术
想象一下,如果存在一个地方,那里聚集了数以亿计的用户,他们不加掩饰地讨论着自己的生活、工作、爱好与困境。他们会为找不到合适的软件而愤怒,会为某个繁琐流程而抱怨,会主动请求推荐能解决特定问题的产品。这个地方的讨论不是由营销人员精心策划的,而是源于最真实的生活体验。这听起来是不是像一个为创业者量身打造的天堂?这个地方,就是Reddit。对于许多人而言,Reddit只是一个由无数个名为“Subreddit”的细分兴趣小组组成的庞大网络。你可以在里看尽网络迷因,在里追踪前沿科普,或是在里参与千奇百怪的问答。但对于敏
2025-10-24 23:31:24
231
原创 AI 赋能下的内容创作
他可以深入探讨推文观点背后的逻辑、分享相关的个人故事、引用更多的数据和案例,将其从一个精彩的“断言”,升华为一篇充满深度和说服力的“檄文”。有时,这些标题会直接激发我的灵感,让我自己想出一个更好的。然后,通过一系列精巧的“转化器”——我们稍后会讲到的 AI 提示词和工作流——这根燃料棒的巨大能量被释放出来,转化为适合不同平台的、形式各异的“电力”,点亮他在整个互联网世界中的每一个角落。许多人学习了先进的理论,设计了完美的计划,却在“明天再开始”的拖延和“今天太忙了”的借口中,让一切付诸东流。
2025-10-24 15:23:48
884
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅