- 博客(9)
- 收藏
- 关注
原创 Llama 4 数据造假风波:基于数据与模型蒸馏的深度剖析
一旦混入,模型在训练时就如同 “作弊”,对测试数据产生过拟合,在测试集上表现出虚高的分数,但在真实应用场景中,面对全新的、未在测试集中出现过的数据时,就会因为缺乏真正的泛化能力而 “原形毕露”。数据分箱,作为数据预处理的关键技术,也叫离散分箱或数据分段 ,其核心是把连续数据按特定规则分组,实现数据离散化。它将引发人们对模型训练过程中数据使用规范和模型评估体系的深刻反思,促使行业进一步完善相关的标准和流程,确保模型的训练和评估过程公平、公正、透明,维护 AI 行业健康、可持续的发展环境。
2025-04-09 11:33:40
480
原创 仅对语言风格的AI鉴定就是一场荒诞的闹剧
以医学研究为例,当一篇新的论文提出一种新的治疗方法时,将其核心思想与传统治疗方法的核心思想进行对比,能够直观地展现出该新方法在治疗原理、治疗效果等方面的独特优势和创新之处,从而准确评估其对医学领域的贡献和价值。过度地关注是否有 AI 参与创作的蛛丝马迹,就如同在寻找宝藏时,只在意宝藏的包装,而忽略了宝藏本身的价值,这无疑使内容评价的航船偏离了正确的方向,陷入了迷茫的误区。一篇真正有价值的论文,其核心在于在实现开题目标的基础上,能够有所拓展和突破,形成新的发现、新的研究成果或新的思考心得。
2025-03-25 10:44:31
1245
原创 本地LLM 模型搭建知识库系统的经验
比如,如果数据显示在特定时间段内系统响应时间过长,可能是并发用户数超过了系统承载能力,进而可以采取优化服务器配置、调整并发管理策略等措施,提高知识库系统的准确性和实用性,更好地服务用户。比如,根据原材料与产品之间的生产关联,在知识库中建立相应的索引,当用户查询关于某产品的生产原料信息时,系统能够依据优化后的索引快速定位到相关内容。同时,参考数据模型中的数据分类方式,对知识库中的文档进行分类存储,提高检索效率,使 LLM 知识库系统在处理相关业务问题时更加高效、准确。
2025-03-12 16:15:19
919
原创 由Manus引发的一些个人思考
在 2025 年,AI 自动化浪潮正汹涌袭来,身边众多朋友都与我探讨起 Manus 这款产品,仿佛我们已全面踏入 AI 自动化的崭新时代。作为长期关注 AI 技术发展的IT行业老兵,我尝试从技术逻辑与行业视角,深入剖析这款现象级产品的本质 —— 它究竟是具有开创意义的颠覆性创新,还是对开源生态进行改良整合的成果?
2025-03-11 10:02:58
876
原创 做个自己小说的的推广
从本月开始我着手写了一步科技发展为主线的客户小说,也许小说中有我对未来技术的一些预期和反思吧。由于很硬核真的就只有理工男这个群体才看出其中的一些味道吧,所以我鼓起勇气发起邀请。最近我个人开始感觉卷技术对于一个念过40的人没有太大意义了。番茄《文明代价》,等你来品。
2025-03-09 20:02:27
154
原创 我对MCP的一些认知和大胆推断
在当今数字化时代,数据犹如一座蕴藏无尽价值的宝藏,然而,获取和整合这些数据却面临着诸多难题。不同类型的数据源,如数据库、API 等,就像来自不同国家的人,各自说着不同的语言。数据库可能采用特定的格式存储数据,API 则以独特的接口规范来提供数据服务。这种接口和格式上的差异,使得它们之间难以直接 “对话”。对于开发者而言,这种状况无疑带来了巨大的麻烦。他们不得不充当 “翻译官” 的角色,针对每一个数据源编写定制代码。每一个数据源都像是一个独特的 “语言环境”,开发者需要深入了解其特性,将其数据 “翻译” 成自
2025-03-01 23:15:20
1004
原创 AI 技术革命的结构化演进路径
在算力革命与算法创新的双轮驱动下,AI技术正经历从通用智能向垂直深化的关键转型。本文结合最新产业实践,系统解析技术突破路径与生态重构逻辑,并深度拆解DeepSeek的金融应用范式。
2025-02-24 09:02:20
957
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅