小红书开源首个大模型，中文性能碾压DeepSeek

原创于 2025-12-04 22:58:39 发布 · 623 阅读

CC 4.0 BY-SA版权

文章标签：

#人工智能 #产品经理 #langchain #编程 #大模型 #deepseek #小红书

小红书发布开源大模型dots.llm1，采用混合专家架构，总参数1420亿但仅需激活140亿。使用11.2万亿非合成高质量数据，在中文任务评测中超越DeepSeek-V3和Qwen2.5。激活参数仅为同行1/4，但性能持平72B模型，在中文理解、创意写作和知识问答方面表现出色，尤其擅长小红书风格内容创作。

在无人问津的角落，小红书悄悄震惊世界。
‍‍

小红书突然发布——小而精的“黑马”开源大模型

在当今人工智能领域，大模型的竞争已经白热化。

从谷歌的Bard到百度的文心一言，再到阿里和华为的Qwen与PanGu，各大科技巨擘纷纷亮出自己的“杀手锏”。

然而，就在大家的目光都聚焦在这些“巨头”时，小红书突然发布了一款名为dots.llm1的开源大模型，以“小而精”的姿态，一举成为了行业中的“黑马”。

图源：小红书

小红书的dots.llm1是由其内部的人文智能实验室（Hi Lab）团队研发的。这款模型虽然在参数量上并不是最大的，但它却凭借独特的架构设计和高质量的训练数据，展现出了强大的性能。

具体而言dots.llm1采用了混合专家模型（MoE）架构，总参数量达到1420亿，但在推理过程中****仅需激活140亿参数。

这种设计使得模型在保持高性能的同时，大幅降低了训练和推理成本。相比之下，同级别的Qwen2.5-72B模型，其训练成本是dots.llm1的四倍。

图源：微博

在训练数据方面，dots.llm1更是业内极其罕见地使用了11.2万亿token的非合成高质量数据。这些数据全部来源于自然场景，包括网页内容、社区分享等，没有使用任何人工合成的数据。

并且为了保证数据的高质量，dots.llm1还采用了三级清洗流水线——先通过URL过滤技术屏蔽成人、赌博等有害域名，再利用trafilatura库精准提取正文内容；接着，利用MinHash-LSH技术进行模糊去重，剔除约30%的低质内容；最后，通过200类分类器平衡数据分布，将百科、科普等知识性内容占比提升至60%，大幅减少小说和产品描述至15%。

这种对数据质量的严格把控，确保了模型在语言生成时的自然性和真实性。相信大家以往在使用大模型的过程中，往往会被其引用错误的数据而误导，小红书此举就是在最大程度避免这种情况的发生。

图源：小红书

至于dots.llm1的性能表现，则更加让人有些惊讶。作为一款2025年才刚上线的开源大模型，dots.llm1在中文任务上的表现格外亮眼。

其在CLUEWSC语义理解测试中得分92.6，C-Eval综合知识评测得分92.2，均超越了DeepSeek-V3和Qwen2.5全系。

图源：微博

在数学推理能力上，它在MATH500测试中得分84.8，接近当前第一梯队水平。综合来看，dots.llm1在中英任务中的平均得分达到了91.3分，意味着即使它的激活参数仅为同行的1/4，却仍然能够与72B的模型打平，真正意义上的“短小精悍”。

而据一些网友深扒，dots.llm1的如此表现与其优秀的架构设计有很大的关系。

它配备了128个路由专家，每次处理任务时，会动态选择其中表现最佳的6个专家参与工作，另外还有2个共享专家负责通用任务。

这种设计不仅实现了任务的精准分工，还通过无辅助负载均衡策略，避免了专家资源的浪费。

此外，dots.llm1还支持32K的上下文长度，能够处理更长的文本内容。支持中英双语，并具备Function Call功能，这使得它在多语言和多任务场景中具有更广泛的应用潜力。

可以说，小红书的dots.llm1不仅在性能上超越了许多同级别对手，更在数据质量和训练成本上展现了独特的优势。

随着dots.llm1的发布，小红书不仅在人工智能领域迈出了重要一步，也为其所在的整个行业提供了一个全新的发展方向。

实战表现

在了解了dots.llm1的技术架构和性能优势之后，我们不妨深入到实际应用层面，看看这款“黑马”大模型在实战中究竟表现如何。

毕竟，对于普通用户和开发者来说，模型的实际应用效果才是最值得关注的。

从各大博主和部分动手能力强的网友反馈来看，在实际运用中，dots.llm1展现出了一些独特的特点，尤其是在与同级别其他大模型的对比中，这些特点更加明显。

比如，他具有强大的中文理解能力：当博主问了一个极其中文化的脑筋急转弯时——大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借给十舅发给十一舅工资的 1000 元，请问谁才是小偷？

图源：微信

尽管整个过程有些曲折，dots.llm1最终还是成功给出了正确答案**【小偷是四舅】**。

相比之下，DeepSeek的虽然最终也得出了四舅是小偷的结论，但整个生成过程长达近5分钟，效率实在是令人堪忧。

不过DeepSeek独树一帜的推理过程还是挺有意思的，这里给大家截取一些看看，感兴趣的朋友可以复制关键词自己去生成试一试。

图源：DeepSeek

其次，在创意写作方面，dots.llm1也展现出了独特的优势，特别是要求其写一篇小红书文案或者按照小红书的风格创作时。

图源：微信

dots.llm1生成的内容自带兼容小红书格式的各种表情和符号，甚至在最后还贴心的帮你选取了合适的tag（标签），只能说喜欢发小红书的朋友或者那些小红书电商们有福了。

最后，在硬核知识方面，dots.llm1同样表现出色。以高考数学为例，不管是2024年年高考全国甲卷数学（文）试题还是上周刚考的新课标I卷数学试卷，dots.llm1都轻松拿捏。

图源：微信

当然，经历多轮实测后，有的博主提出了自己的意见，认为dots.llm1生成的东西还是“小红书”味儿太重，或者说摆脱不了小红书的影子。

比如当要求dots.llm1**“用贴吧嘴臭老哥的风格点评大模型套壳现象”**，dots.llm1和DeepSeek生成的内容从风格到细节都有很大的差异，相比之下，还是DeepSeek更有贴吧老哥的味道。

图源：微信

图源：DeepSeek

这也说明，dots.llm1目前展现出来的优势还是主要依靠小红书上积累的海量用户生成内容（UGC），对应着，如果大家在生活场景对话、小红书模板创意、生活经验答疑等方面有AI需求，dots.llm1绝对会是一个不错的选择。

小红书估值2500亿的“新引擎”

小红书大模型的一鸣惊人并不是那么突如其来，在dots.llm1的背后，是整个小红书的高速发展。

据近期多方媒体爆料，如今仍未上市的小红书，估值已经突破至2500亿人民币。

此番估值大幅增长，涵盖了小红书从早期的购物攻略分享平台，到如今涵盖时尚、美妆、旅行、美食等多元生活领域社交巨头的发展思想。

小红书凭借其独特的社区氛围和海量的用户生成内容（UGC），吸引了数亿用户的关注。而如今，随着AI技术的飞速发展，小红书敏锐地捕捉到了AI与电商结合的巨大潜力，开启了**“电商+AI”**的双轮驱动模式。

电商作为小红书的近几年的核心业务之一，一直是其收入的主要来源。AI技术的引入，更为小红书的电商业务带来了新的增长点。

如今的dots.llm1可以说仅仅只是个开始，用户对小红书AI也有着更多的期待。例如，AI帮忙人性化回复评论、AI自动抓取关键信息等。

未来，小红书在AI领域的进一步发展方向也备受关注。

首先，持续优化现有的AI模型是小红书的当务之急。dots.llm1虽然已经展现出了强大的性能，但在实际应用中仍有许多可以改进的地方。

其次，开发更多基于AI的新功能和服务也是小红书的重要发展方向之一。此外还有在垂直领域通过AI技术构建更加专业的生活垂类模型等等。

最后总结成为一句话——开源dots.llm1只是起点。

当阿里腾讯争夺通用大模型王座时，小红书正用11万亿真实生活语料训练出一个更懂“人”的AI——它知道如何描写雪山晨光，也清楚布达拉宫排队的最佳时段。

那么，如何系统的去学习大模型LLM？

如果你也想系统学习AI大模型技术，想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习*_，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。
为了帮助大家打破壁垒，快速了解大模型核心技术原理，学习相关大模型技术。从原理出发真正入局大模型。在这里我和MoPaaS魔泊云联合梳理打造了系统大模型学习脉络，这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️

在这里插入图片描述

【大模型全套视频教程】

教程从当下的市场现状和趋势出发，分析各个岗位人才需求，带你充分了解自身情况，get 到适合自己的 AI 大模型入门学习路线。

从基础的 prompt 工程入手，逐步深入到 Agents，其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。

同时课程详细介绍了AI大模型技能图谱知识树，规划属于你自己的大模型学习路线，并且专门提前收集了大家对大模型常见的疑问，集中解答所有疑惑！

在这里插入图片描述

深耕 AI 领域技术专家带你快速入门大模型

跟着行业技术专家免费学习的机会非常难得，相信跟着学习下来能够对大模型有更加深刻的认知和理解，也能真正利用起大模型，从而“弯道超车”，实现职业跃迁！

在这里插入图片描述

【精选AI大模型权威PDF书籍/教程】

精心筛选的经典与前沿并重的电子书和教程合集，包含《深度学习》等一百多本书籍和讲义精要等材料。绝对是深入理解理论、夯实基础的不二之选。

在这里插入图片描述

【AI 大模型面试题】

除了 AI 入门课程，我还给大家准备了非常全面的**「AI 大模型面试题」，**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等，帮你在面试大模型工作中更快一步。

【大厂 AI 岗位面经分享（92份）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

【640套 AI 大模型行业研究报告】

在这里插入图片描述

【AI大模型完整版学习路线图（2025版）】

明确学习方向，2025年 AI 要学什么，这一张图就够了！

👇👇点击下方卡片链接免费领取全部内容👇👇

在这里插入图片描述

抓住AI浪潮，重塑职业未来！

科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整，缩减部分传统岗位，同时AI相关技术岗位（尤其是大模型方向）需求激增，已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。

行业趋势洞察：

转型加速： 传统IT岗位面临转型压力，拥抱AI技术成为关键。
人才争夺战： 拥有3-5年经验、扎实AI技术功底和真实项目经验的工程师，在头部大厂及明星AI企业中的薪资竞争力显著提升（部分核心岗位可达较高水平）。
门槛提高： “具备AI项目实操经验”正迅速成为简历筛选的重要标准，预计未来1-2年将成为普遍门槛。

与其观望，不如行动！

面对变革，主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验，是抓住时代机遇、实现职业跃迁的关键一步。

在这里插入图片描述

01 为什么分享这份学习资料？

当前，我国在AI大模型领域的高质量人才供给仍显不足，行业亟需更多有志于此的专业力量加入。

因此，我们决定将这份精心整理的AI大模型学习资料，无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴！

我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题，也欢迎交流探讨，我们乐于分享所知。

*02 这份资料的价值在哪里？*

专业背书，系统构建：

本资料由我与MoPaaS魔泊云的鲁为民博士共同整理。鲁博士拥有清华大学学士和美国加州理工学院博士学位，在人工智能领域造诣深厚：
- 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇。
- 拥有多项中美发明专利。
- 荣获吴文俊人工智能科学技术奖（中国人工智能领域重要奖项）。
目前，我有幸与鲁博士共同进行人工智能相关研究。

在这里插入图片描述

内容实用，循序渐进：

资料体系化覆盖了从基础概念入门到核心技术进阶的知识点。
包含丰富的视频教程与实战项目案例，强调动手实践能力。
无论你是初探AI领域的新手，还是已有一定技术基础希望深入大模型的学习者，这份资料都能为你提供系统性的学习路径和宝贵的实践参考，助力你提升技术能力，向大模型相关岗位转型发展。