当大家都在热衷于接入 DeepSeek 时。。。
最近一家叫易鑫的金融科技公司,开源了 YiXin-Distill-Qwen-72B 推理模型。
我看了下,它以 Qwen2.5-72B 为基座,自研迭代式蒸馏和强化学习做训练,
整体感受是对数学、推理任务做了深度优化,一句话总结:小体积,高精度。
看官方的评测结果,综合性能媲美 DeepSeek-R1,除了自用,简直是企业级AI落地的福音。
1. 强在哪
YiXin-Distill-Qwen-72B是一个侧重于数学和推理的大模型,参数规模仅72B就达到了开源王者 DeepSeek-R1 的能力。
数学和推理方面代表性的基准评测集有:AIME2024/2025、GPQA Diamond、MATH-500、MMLU-PRO。
不多说了,一图胜千言:
接下来我们本地部署并实测一番。
2. 本地部署
硬件要求:推荐8卡 RTX 3090/4090(24G),可处理8k上下文。显存越大,上下文越长。
部署流程:
1、环境配置:安装 Python 3.10、PyTorch 2.1.0 及 CUDA 12.1
2、下载模型:
export HF_ENDPOINT=https://hf-mirror.com # 引入镜像地址
huggingface-cli download --resume-download YiXin-AILab/YiXin-Distill-Qwen-72B --local-dir ./ckpts/qwen-72b
3、安装sglang推理框架:
pip install uv
uv pip install "sglang[all]>=0.4.4.post1" -i https://flashinfer.ai/whl/cu124/torch2.5/flashinfer-python
4、模型加载,并启动服务:
python3 -m sglang.launch_server --model YiXin-AILab/YiXin-Distill-Qwen-72B --trust-remote-code --tp 4 --port 8000
5、测试请求:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "YiXin-AILab/YiXin-Distill-Qwen-72B",
"messages": [
{"role": "system", "content": "You are a helpful and harmless assistant.You should think step-by-step."},
{"role": "user", "content": "8+8=?"}
]
}
6、为了方便测试和使用,可以用Gradio搭建前端,让交互更友好,首先安装Gradio:
pip install gradio
7、创建一个python文件,命名为run.py,用来启动前端服务:
import gradio as gr
import openai
client = openai.Client(base_url=f"http://127.0.0.1:8000/v1", api_key="None")
def predict(message, history):
history.append({"role": "user", "content": message})
stream = client.chat.completions.create(messages=history, model="YiXin-AILab/YiXin-Distill-Qwen-72B", stream=True)
chunks = []
for chunk in stream:
chunks.append(chunk.choices[0].delta.content or "")
yield "".join(chunks)
chatbot = gr.Chatbot(type="messages",label='YiXin-Distill-Qwen-72B')
demo = gr.ChatInterface(predict, chatbot=chatbot)
if __name__ == "__main__":
demo.launch()
8、启动服务
python run.py
9、打开浏览器,输入 127.0.0.1:7860
即可看到前端页面:
3. 效果实测
3.1、逻辑推理题
• 只有在下雨天,我才会带伞。今天我带了伞。今天下雨了吗?
• 一个农夫需要运两只鸡过河,一次可以运一人+两只动物,最少需要过几次河?
这道农夫过河的题目曾让很多大模型打脸,YiXin 毫无压力。
• 有一个小偷费劲力气进入到了银行的金库里。在金库里他找到了一百个箱子,每一个箱子里都装满了金币。不过,只有一个箱子里装的是真的金币,剩下的 99 个箱子里都是假的。真假金币的外形和质感完全一样,任何人都无法通过肉眼分辨出来。它们只有一个区别:真金币每一个重量为 101 克,而假金币的重量是 100 克。在金库里有一个电子秤,它可以准确地测量出任何物品的重量,精确到克。但很不幸的是,这个电子秤和银行的报警系统相连接,只要被使用一次就会立刻失效。请问,小偷怎么做才能只使用一次电子秤就找到装着真金币的箱子呢?
这道题非常考验数学和推理能力,就问问你花了多久?
3.2、物理题
• 假设我从月球发射一道激光到地球,那么地球上的人大概多久能接收到?
• 以下物理常识题目,哪一个是错误的?
A.在自然环境下,声音在固体中传播速度最快。
B.牛顿第一定律:一个物体如果不受力作用,将保持静止或匀速直线运动的状态。
C.牛顿第三定律:对于每个作用力,都有一个相等而反向的反作用力。
D.声音在空气中的传播速度为1000m/s
上点难度:清华大学的物理期末考试计算题👇
反正我是不会,YiXin 成功搞定!
3.3、数学题
2024年考研数学:已知函数f(x,y)=x3+y3-(x+y)^2+3,设T是曲面z=f(x,y)在点(1,1,1)处的切平面,D为T与坐标平面所围成的有界区域在xOy平面上的投影. 求T的方程:
考研真题,推理过程有点长,不过回答完全正确。
• 在三棱锥 P−ABC 中,若 PA⊥ 底面 ABC,且棱 AB, BP, BC, CP 的长分别为1, 2, 3, 4,则该三棱锥的体积为?
几何问题,依然干的漂亮!
总席位为奇数的三个不结盟的派别在会议中实行半数通过方案,任意一派席位不过半数。 尝试用数学证明:三派分别占有的席位和他们在表决中的权重是什么关系?
A. 正比
B. 反比
C. 无关
这道题几乎国内外大模型都会翻车,但 YiXin 搞定了,尽管推理过程较长,有点出乎我意料。
3.4 语文题
• 你是一个小学数学科老师,要教小学生异分母分数加减的单元,提出跟这个单元的概念有关的同理性问题、推论性问题、评论性问题、价值性问题,各5个,请以小学生能懂得且有兴趣的语言来说。
• 仿《过秦论》的风格写一篇《过美利坚论》
思考不长,但精彩绝伦,连注释都贴心给你了。
不过,我发现代码能力还差点意思:
有以下数据:[{“table_name”:“sy_cd_me_buss_std_gjbzjh”,“param_info”:[{“param_name”:“#{issueDate}”,“value”:[2009,2010,2011,2012]},{“param_name”:“#{projectStat}”,“value”:[“正在征求意见”,“已发布”,“正在审查”]}],“explanation”:“输出标准名称projectCnName、计划号、项目状态”}] ,请写sql查询年份为#{issueDate}年项目状态为#{projectStat}状态计划发布的国家标准有哪些?
像模像样地错了,正确答案应该是:
SELECT DISTINCT planNum, projectCnName, projectStat
FROM sy_cd_me_buss_std_gjbzjh
WHERE
`planNum` IS NOT NULL
AND `dataStatus` != 3
AND `isValid` = 1
AND projectStat=#{projectStat}
AND DATE_FORMAT(`issueDate`, '%Y')=#{issueDate}
写在最后
本文带大家本地部署并实测了 YiXin 最新开源的推理模型 YiXin-Distill-Qwen-72B
。
体感非常棒,强烈推荐有需求的朋友去试下~
效果媲美主流大厂模型,推理方面甚有超越。
此外,72B 的尺寸很好平衡了通用能力和推理能力,作为垂直领域应用的基座模型,基于私有数据进行微调,香的很!
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。