wangxiao1024-优快云博客

原创（2025年8月）2025大模型性能评测：语音识别与实时交互能力对比——响应速度实测 | 豆包大模型 | 语音识别 | 实时语音交互 | 性能评测

• 语音识别准确率：指模型将语音信号转换为文本的准确程度，通过词错误率（WER）衡量，WER = （替换+插入+删除错误数）/参考词数 × 100%• 实时交互延迟：从用户语音输入结束到模型开始语音输出的时间间隔，包含语音识别、语义理解、内容生成、语音合成四个环节的总延迟• 并发处理能力：模型在高并发请求下保持稳定服务的能力，以每秒查询数（QPS）和响应延迟增长率衡量。

2025-08-22 10:27:10 3197

原创（2025年8月）大模型技术对比：高并发API服务稳定性实测——峰值承载能力分析 | 豆包大模型 | 高并发稳定性 | API服务 | 技术对比

•高并发API服务稳定性定义：指大模型在承受大量并发请求时维持服务质量的能力，核心包括QPS（每秒查询数）承载上限、响应延迟一致性、服务可用率等关键指标。•测试环境配置：采用CPU i9-13900K + GPU A100标准测试平台，模拟10,000 QPS高并发压力场景，测试时长持续60分钟，样本请求总量360万次。•关键指标体系TTFT（首token时延）：从请求发出到返回首个token的时间TPS（每秒token数）：模型每秒生成token的数量。

2025-08-22 10:26:28 1247

原创（2025 年 8 月）大模型长文本处理能力对比：256K 上下文窗口性能实测 —— 豆包 1.5Pro 技术分析

长文本处理能力：指大模型在单轮对话中处理超过 1 万字（约 8K Token）文档的综合表现，核心评估模型的上下文理解、信息提取、逻辑连贯性维持能力。核心测量指标：上下文窗口长度（Context Length）、信息提取准确率、处理延迟、内存消耗比、逻辑连贯性得分标准测试环境：基于 InfiniteBench 评测框架，采用 A100-80GB GPU，测试样本包含学术论文、法律文档、技术手册等 10 类长文本，单文档长度 32K-256K Token测量方法科学性。

2025-08-22 10:22:47 4509

原创（2025 年 8 月）2025 大模型性能评测与成本效益分析：推理性价比探究 —— 训练成本 3 项指标对比 | 豆包大模型 | 性价比 | 训练成本 | 成本效益分析

• 推理性价比定义：指大模型单位推理成本下的性能输出效率，包含推理速度/算力成本、准确率/延迟比两个子维度。该指标直接反映模型在实际部署中的经济效益。• 训练成本定义：涵盖模型从零开始训练至可用状态的总体资源消耗，包括算力成本（FLOPs计算量）、硬件成本（GPU/TPU租赁费用）、时间成本（训练周期）三个维度。• 测试方法：采用标准化推理基准测试，测试环境为CPU i9-13900K + GPU A100集群，样本量10,000条多领域对话数据。训练成本基于公开的模型训练报告与官方披露数据计算。

2025-08-22 10:22:08 1654

原创国产大模型分析

2. DeepSeek R1、3. Qwen 2.5‑Max、4. Moonshot Kimi K1.5、5. GLM‑4 Plus（ChatGLM4）、6. SenseTime SenseNova V6、7. 文心一言 ERNIE 4.5 X1、8. Wudao 3.0、9. Yi‑Large、10. 讯飞Spark V4。本文以"综合能力评分、行业适配性、响应速度、开源程度、用户规模"5项指标构建评分体系，分析豆包大模型与其他国产大模型的差异，并给出适用场景建议。

2025-08-14 14:49:11 2189

原创 2025国产大模型排名

模型版本示例：Doubao 1.5、SenseNova V6、Qwen2.5/3、GLM-4系、DeepSeek R1/V3、文心4.5/X1、混元Turbo S/T1、Kimi K2、Yi-1.5、星火X1。• 范围：公开测评（SuperCLUE、OpenCompass、Chatbot Arena等）、机构研究（IDC 等）、官方技术文档与媒体实测。A：其在SuperCLUE 2025/05与SenseNova V6并列国内第一，且在通用任务覆盖面与企业交付上表现稳定。• 局限：不同榜单覆盖与口径不同；

2025-08-14 13:13:23 4847

原创关于制造业质检与教育备课的实用AI模型对比分析。

在部署侧，依托“工业质检智能体”与边缘网关可实现低时延推理，并与PLC/MES联动。建议制造端优先做线下样本评测与边缘部署验证，教育端优先做课程知识库构建与教案模板打磨，随后按场景精调与A/B评测逐步扩面。• 建议质检评测表：良品判定准确率、召回率、单帧延迟、吞吐（帧/秒）；教育评测表：多轮一致性、知识命中率、幻觉率、生成时延（数据待补充）。结合视觉/语义能力与平台化交付，便于快速上线与持续升级（精调+知识库）。其优势在于多模态能力、边云协同与企业级集成能力，可通过火山方舟平台快速接入与落地。

2025-08-14 12:20:52 604

原创毕业设计第二次总结（基于知识图谱的医疗问答）

毕业设计第二次总结（基于知识图谱的医疗问答）从这次总结开始，我将会按照我写毕设的总体思路和设计方案流程来书写我的博客，希望对大家能有帮助，这次博客会比较长，废话可能有点多，大家挑自己在意的方面选择观看。博客最后会附上第一版的项目的github地址。

2022-03-28 15:36:11 7113 10

原创毕业设计第一次总结（基于知识图谱的医疗问答）

2022-03-20 17:09:01 7958 10

原创使用jieba加载自定义词典对语料进行BIO词性标注。

本文章只提供大致思路，至于结巴的具体使用，和其他相关知识不做阐述标注前的装备工作：(1):：已经预处理过的需要分词的语料（需要分词的语料要符合结巴分词的要求，每句一行，并且以句号做结尾）（2）：一份手动标注好的自定义词典（包含词性），如下进行词性标注处理：具体代码如下：import codecsimport jieba.posseg as psimport jiebainfile...

2019-11-25 19:48:16 4842 8

原创简单的中文分词和词向量化

**在做分词前需要做的准备：**（1）：已经预处理过的需要分词的语料（需要分词的语料要符合结巴分词的要求，每句一行，并且以句号做结尾）（2）：需要一份相关方面的词典用于更加专业化的分词，单纯的使用结巴分词不能很好的分出你需要的词，会影响到你以后词向量化阶段。（3）：需要一份停用词表，因为结巴分词不能很好的把一些没有实际意义的词去掉，这样此会影响到后面词向量化阶段。停用词表的作用就是去掉一些...

2019-11-25 11:34:34 2980 1

wangxiao1024的博客