
系统架构与解决方案
文章平均质量分 81
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
微信视频号:毛毛AIGC,欢迎关注进一步交流!
展开
-
问题修复记录:Xinference部署 Embedding Model 服务偶发超时
用 Xinference 部署Embedding Model,正常来说一次调用在 0.0x s 就能返回了,但是总会调着调着突然有超时的情况(超时设置为 0.2s)。这里模型我是部署了2个实例,每次的2次超时是在不同实例上的。可以看到偶发的超时是有规律性的,每隔20次调用都会超时2次。原创 2025-01-26 13:46:37 · 216 阅读 · 0 评论 -
问题修复记录:Linux docker 部署 dify,无法调用宿主机本地服务
使用docker compose启动Dify后,在其中配置本地xinference中的模型,报错:get xinference model extra parameter failed, url: http://127.0.0.1:9997/v1/models/bge-m3, error: HTTPConnectionPool(host=‘127.0.0.1’, port=9997): Max retries exceeded with url: /v1/models/bge-m3 (Caused by N原创 2025-01-23 12:41:33 · 1363 阅读 · 0 评论 -
构建高效大模型技术栈:从算力资源到算法应用的实践与思考
自加入新的团队以来,我有幸领导了大模型团队的技术框架建设工作。在这段时间里,我们构建了一个三层架构(L0-L2),旨在为复杂的产品和业务需求提供强有力的支持。本文将分享我们在这一过程中的经验、遇到的挑战以及未来的展望。原创 2025-01-20 13:18:41 · 959 阅读 · 0 评论 -
【vLLM】使用PagedAttention 进行大型语言模型的高效显存管理
大型语言模型(LLM, Large Language Models)是人工智能领域的一种深度学习模型,它们通过处理大量的文本数据来学习语言的模式,并能完成诸如文本生成、翻译、问答等多种任务。这些模型通常包含数十亿个参数,需要相当大的计算资源来进行训练和服务(即推理或预测)。在服务阶段,模型的参数、中间计算结果(激活值)、以及键值缓存(KV cache)都需要占用显存空间。如上图所示,当在一个 NVIDIA A100 GPU 上部署一个拥有130亿参数的大型语言模型时的显存布局情况。原创 2025-01-05 17:05:35 · 1126 阅读 · 0 评论 -
构建高效可靠的分布式推理系统:深入解析控制器与模型服务的协同工作
控制器作为整个系统的中枢神经,负责管理和调度多个分布式的模型服务节点(workers)。它不仅需要为客户端提供可用的工作节点地址,还要确保任务能够被高效地分配到最合适的节点上。此外,控制器还实现了多种流量分发策略,以适应不同应用场景下的需求。每个模型服务实例运行特定的机器学习模型,处理来自客户端的推理请求并返回结果。它们与控制器协作,通过HTTP请求向控制器报告自身状态,接收任务分配指令。原创 2024-12-09 16:04:21 · 1224 阅读 · 0 评论 -
解读:【小爱同学】智能问答系统
上述挖掘的都是比较简单的模型。如“世界之最”的问题。首先意图判断:query是否包含世界之最支持实体类型,以及是否包含最大、最小、第一、第二等触发词。作者基于结构化词条、问答论坛的数据,来进行模板挖掘的。当问答论坛数据中,问题包含实体,答案包含属性值,就可以以此构造解析模板。模型可能对于某些类的预测比较差,而这些类在随机负采样中未能覆盖到。“圆柱体的体积怎么算”- “圆柱体的面积怎么算”增强结果,得到正样本:Q1’、Q2’找到Q2’,与Q2相似度 < 0.3。增强结果,得到负样本:Q1’、Q2’原创 2022-01-20 14:33:54 · 4572 阅读 · 0 评论 -
解读:【美团】智能客服实践
客服结束一通咨询后,需进行背景、诉求、处理结果的填写。智能的会话摘要,可以提升客服坐席工作效率,改善其办公体验。作者的方案进行了如下的演进:效果如下:我理解,在这个业务场景下,其实用抽取式摘要是不太合理的。抽取式摘要适用于新闻摘要的场景,但是对话摘要的摘要和原文的文本表达方式是大相径庭的。还有相比单纯的文本摘要,对话摘要更加合适结合半结构化模板来做。因为客服咨询对话核心要点是固定的,如:背景、诉求、处理结果等。而且,这样的摘要更适用于客服后续跟进时进行查阅。原创 2022-02-05 14:27:28 · 2267 阅读 · 0 评论 -
如何用人机协同提高客服效率?阿里巴巴客服助手诞生了
去年参与的项目 : https://mp.weixin.qq.com/s/JG_Ajl4uO4kIS7cyUXqztw原创 2019-03-27 21:35:02 · 728 阅读 · 0 评论 -
轻量级文本搜索引擎的后台设计、实现与优化
转载请注明:转载 from http://blog.youkuaiyun.com/u011239443/article/details/51655480主框架图见:http://r.photo.store.qq.com/psb?/V12VvuOZ2vxbmG/M2gzPWfnBLS8buBT*16Y2xm9QkAAp8TmePOlIPC1MlM!/r/dFMAAAAAAAAA 1.1 生成库——词频库、词语索...原创 2016-06-13 10:05:56 · 5431 阅读 · 0 评论 -
奖学金评比系统(数据库系统设计版)
文档目的在奖学金评比过程中,学生综合测评是学校普遍采用的评比手段。对学生实施综合素质测评的目的在于正确评价学生的综合素质,为评奖学金提供依据,实现学生教育管理工作的标准化、制度化和科学化,引导和促进学生德、智、体、美全面发展。目前我国普遍高校学生奖学金评比还停留在纸质的阶段,许多工作需要传统的手工操作,这不仅浪费了大量的人力物力资源,而且由于人工管理存在着许多不可控因素,导致学生奖学金评比操作不规范,测评结果不全面,不能客观准确地反应学生的综合素质。原创 2016-06-13 09:55:53 · 18445 阅读 · 1 评论 -
移动电影售票系统案例分析
面向对象的分析(Object Oriented Analysis,OOA)强调的是在问题域内发现和描述对象(或概念)。如,在图书馆信息系统中,包含书籍、书库、借阅者等概念。面向对象的设计( Object Oriented Design ,OOD)强调的是定义软件对象以它们是如何协作以实现需求。在图书馆信息系统中,“书”这个软件对象,可以有“title”属性和“getChapter”方法。LSP:Liskov替换原则OCP:开放-封闭原则SRP:单一职责原则ISP:接口隔离原则。原创 2016-11-14 18:41:27 · 13038 阅读 · 3 评论 -
APM(应用性能管理)留存分析使用
留存分析1. 什么是“留存分析”?留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考查进行初始行为后的用户中,有多少人会进行后续行为。这是衡量产品对用户价值高低的重要指标。留存分析可以帮助回答以下问题: 一个新客户在未来的一段时间内是否完成了您期许用户完成的行为?如支付订单 某个社交产品改进了新注册用户的引导流程,期待改善用户注册后的参与程度,如何验证? 想判断某项产品改动原创 2016-10-14 20:23:56 · 1487 阅读 · 0 评论 -
APM(应用性能管理)漏斗分析使用
漏斗分析1. 什么是“漏斗模型”漏斗模型帮助你分析一个多步骤过程中每一步的转化与流失情况。举例来说,用户购买商品的完整流程可能包含以下步骤:浏览商品将商品添加进购物车结算购物车中的商品选择送货地址、支付方式点击付款完成付款你可以将如上流程设置为一个漏斗,分析整体的转化情况,以及每一步具体的转化率和转化中位时间。同时也可以借助强大的筛选和分组功能进行深度分析。2. 漏斗界面功能简介A.原创 2016-10-14 20:19:38 · 1571 阅读 · 0 评论 -
面向对象分析与设计示例:骰子游戏
【代码】面向对象分析与设计示例:骰子游戏。原创 2016-09-19 16:16:37 · 5499 阅读 · 1 评论 -
奖学金评分系统(系统分析与设计版与Delphi实现代码)
一、系统规划1.1 项目背景介绍在奖学金评比过程中,学生综合测评是学校普遍采用的评比手段。对学生实施综合素质测评的目的在于正确评价学生的综合素质,为评奖学金提供依据,实现学生教育管理工作的标准化、制度化和科学化,引导和促进学生德、智、体、美全面发展。 1.2 现存问题及系统目标目前我国普遍高校学生奖学金评比还停留在纸质的阶段,许多工作需要传统的手工操作,这不仅浪费了大量的人力原创 2016-06-13 09:55:56 · 4700 阅读 · 0 评论 -
《世界杯彩票竞猜系统》设计报告
目录1 文档介绍4 1.1 文档目的41.2 文档范围41.3 读者对象41.4 参考文献51.5 术语与缩写解释52 系统环境说明63 需求分析73.1 功能需求分析73.2 非功能需求分析74 数据库的命名规则85 概念结构设计96 逻辑结构设计原创 2016-06-13 10:00:46 · 5505 阅读 · 0 评论