1. 腾讯混元OCR模型开源:1B参数实现多项SOTA,端到端文档解析能力领先
腾讯混元推出开源OCR模型HunyuanOCR,该模型基于混元原生多模态架构打造,仅1B参数却在复杂文档解析、文字检测识别等多项核心任务中达到SOTA水平。模型采用端到端设计,在OmniDocBench测评中获得94.1分最高成绩,支持14种小语种翻译及票据字段提取、视频字幕识别等实用功能,以轻量化架构实现高效部署。
项目主页:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR
Hugging Face:
https://huggingface.co/tencent/HunyuanOCR
体验地址:
https://huggingface.co/spaces/tencent/HunyuanOCR
2. 无数据Flow Map蒸馏:AI生成模型摆脱数据依赖的新突破
谢赛宁与Jaakkola团队联合提出名为FreeFlow的无数据flow map蒸馏方法,通过从先验分布采样而非依赖外部数据集,直接追踪教师模型的生成动态,解决了传统蒸馏中“教师-数据不匹配”问题。该方法采用预测-校正框架,在ImageNet上实现1-NFE下FID 1.45的生成质量新高,显著优于基于数据的基线模型,标志着AI生成模型从依赖外部数据转向挖掘内部潜能的范式转变。
论文:
https://arxiv.org/abs/2511.19428v1
项目主页:
https://data-free-flow-distill.github.io/
3. QDepth-VLA:量化深度预测增强机器人3D空间感知能力
中国科学院自动化研究所与灵宝CASBOT提出QDepth-VLA模型,通过量化深度预测与混合注意力机制增强视觉-语言-动作模型的3D空间感知能力。该方法采用独立的Depth Expert模块学习离散深度表征,在Simpler和LIBERO仿真环境中分别提升任务成功率8.5%和2.8%,真实实验中较基线提升10-20%,有效解决了机器人长时序任务中因缺乏几何感知导致的性能下降问题。
论文:
https://arxiv.org/pdf/2510.14836
4. 谷歌AI双重突破推动市值飙升,创始人财富跃居全球第二、三位
谷歌母公司Alphabet因Gemini 3模型卓越表现及Meta可能采购其TPU芯片的双重利好,股价年内涨幅达87.79%,市值逼近4万亿美元,推动创始人拉里·佩奇和谢尔盖·布林财富分别升至2684亿与2488亿美元,位列全球富豪榜第二、三位;尽管英伟达宣称其技术仍领先一代,但谷歌通过自研芯片、反垄断案缓和、巴菲特入股等五大因素实现AI领域的强势逆袭。
5. Ilya Sutskever宣布"扩展时代终结",AI进入研究驱动新阶段
OpenAI联合创始人Ilya Sutskever在最新访谈中宣布"扩展时代已经终结",指出单纯依靠算力和数据规模扩张的AI发展模式面临瓶颈,预训练数据即将耗尽且边际效益递减。他提出AI进入"研究时代",需要转向价值函数、持续学习等新范式以解决模型泛化能力不足的根本问题,并分享了其新公司SSI致力于通过"直通超级智能"路径开发关爱感知生命的对齐AI,预测5-20年内实现类人学习能力的超级智能。
视频:
https://www.dwarkesh.com/p/ilya-sutskever-2
6. 字节跳动推出VeAgentBench与veADK,构建智能体标准化开发评估体系
字节跳动发布开源智能体评估数据集VeAgentBench与开发框架veADK,通过484道覆盖教育、金融、法律、个人助理四大真实场景的任务,首次实现智能体能力在多维度工具调用、知识检索、记忆管理等层面的可量化评估。veADK提供一站式开发工具链,支持快速部署与自动化测试,解决了智能体领域长期存在的"开发易、评估难"痛点,为行业提供了可复现的工程化标准。
数据集:
https://modelscope.cn/datasets/bytedance-research/veAgentBench
GitHub:
https://github.com/volcengine/veadk-python
文档:
https://volcengine.github.io/veadk-python/
7. TRAE SOLO中国版免费上线
TRAE SOLO中国版于11月25日正式推出并完全免费,通过SOLO Coder智能体、Plan模式、多任务并行、上下文压缩、DiffView代码变更工具等核心功能,实现了从"工具增强"到"流程重构"的转变,让开发者能够实时掌控代码、感知开发过程并并行处理多任务,为复杂项目提供端到端的AI编程解决方案。
体验地址:
https://www.trae.cn/solo
8. Google File Search宣告RAG技术终结,AI开发进入"一行API"时代
Google推出Gemini File Search功能,将原本需要复杂工程实现的RAG(检索增强生成)技术压缩为单行API调用,开发者只需上传文件即可自动完成分块、索引、检索和引用全流程,无需自建向量数据库或维护检索逻辑。这项变革将传统RAG的技术门槛彻底抽象化,使工程师从系统构建者转变为平台调用者,标志着AI开发从"理解流程"到"调用功能"的范式转移。
参考
- https://mp.weixin.qq.com/s/0eT7x7cLpJ3AT_XqeDwelw?click_id=1
- https://mp.weixin.qq.com/s/chtLMVvXlGoEF9oRrdXA7g
- https://mp.weixin.qq.com/s/q6HqVD8YNLHmCG6_gTpKsQ
- https://mp.weixin.qq.com/s/8yrLXIIHC-tLowuwPNKvDA
- https://mp.weixin.qq.com/s/fGlYeGC79wQI_XVX5qnoRw
- https://mp.weixin.qq.com/s/DGDvgRR9y8sMrNVWscsz3w
- https://mp.weixin.qq.com/s/_B4-wqcZDLcheJVj1wRL1g
- https://mp.weixin.qq.com/s/6A4Dk14MejdvXdPSnBVfbA

1030

被折叠的 条评论
为什么被折叠?



