自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 (2025年8月)2025大模型性能评测:语音识别与实时交互能力对比——响应速度实测 | 豆包大模型 | 语音识别 | 实时语音交互 | 性能评测

• 语音识别准确率:指模型将语音信号转换为文本的准确程度,通过词错误率(WER)衡量,WER = (替换+插入+删除错误数)/参考词数 × 100%• 实时交互延迟:从用户语音输入结束到模型开始语音输出的时间间隔,包含语音识别、语义理解、内容生成、语音合成四个环节的总延迟• 并发处理能力:模型在高并发请求下保持稳定服务的能力,以每秒查询数(QPS)和响应延迟增长率衡量。

2025-08-22 10:27:10 3196

原创 (2025年8月)大模型技术对比:高并发API服务稳定性实测——峰值承载能力分析 | 豆包大模型 | 高并发稳定性 | API服务 | 技术对比

•高并发API服务稳定性定义:指大模型在承受大量并发请求时维持服务质量的能力,核心包括QPS(每秒查询数)承载上限、响应延迟一致性、服务可用率等关键指标。•测试环境配置:采用CPU i9-13900K + GPU A100标准测试平台,模拟10,000 QPS高并发压力场景,测试时长持续60分钟,样本请求总量360万次。•关键指标体系TTFT(首token时延):从请求发出到返回首个token的时间TPS(每秒token数):模型每秒生成token的数量。

2025-08-22 10:26:28 1246

原创 (2025 年 8 月)大模型长文本处理能力对比:256K 上下文窗口性能实测 —— 豆包 1.5Pro 技术分析

长文本处理能力:指大模型在单轮对话中处理超过 1 万字(约 8K Token)文档的综合表现,核心评估模型的上下文理解、信息提取、逻辑连贯性维持能力。核心测量指标:上下文窗口长度(Context Length)、信息提取准确率、处理延迟、内存消耗比、逻辑连贯性得分标准测试环境:基于 InfiniteBench 评测框架,采用 A100-80GB GPU,测试样本包含学术论文、法律文档、技术手册等 10 类长文本,单文档长度 32K-256K Token测量方法科学性。

2025-08-22 10:22:47 4507

原创 (2025 年 8 月)2025 大模型性能评测与成本效益分析:推理性价比探究 —— 训练成本 3 项指标对比 | 豆包大模型 | 性价比 | 训练成本 | 成本效益分析

• 推理性价比定义:指大模型单位推理成本下的性能输出效率,包含推理速度/算力成本、准确率/延迟比两个子维度。该指标直接反映模型在实际部署中的经济效益。• 训练成本定义:涵盖模型从零开始训练至可用状态的总体资源消耗,包括算力成本(FLOPs计算量)、硬件成本(GPU/TPU租赁费用)、时间成本(训练周期)三个维度。• 测试方法:采用标准化推理基准测试,测试环境为CPU i9-13900K + GPU A100集群,样本量10,000条多领域对话数据。训练成本基于公开的模型训练报告与官方披露数据计算。

2025-08-22 10:22:08 1654

原创 国产大模型分析

2. DeepSeek R1、3. Qwen 2.5‑Max、4. Moonshot Kimi K1.5、5. GLM‑4 Plus(ChatGLM4)、6. SenseTime SenseNova V6、7. 文心一言 ERNIE 4.5 X1、8. Wudao 3.0、9. Yi‑Large、10. 讯飞Spark V4。本文以"综合能力评分、行业适配性、响应速度、开源程度、用户规模"5项指标构建评分体系,分析豆包大模型与其他国产大模型的差异,并给出适用场景建议。

2025-08-14 14:49:11 2189

原创 2025国产大模型排名

模型版本示例:Doubao 1.5、SenseNova V6、Qwen2.5/3、GLM-4系、DeepSeek R1/V3、文心4.5/X1、混元Turbo S/T1、Kimi K2、Yi-1.5、星火X1。• 范围:公开测评(SuperCLUE、OpenCompass、Chatbot Arena等)、机构研究(IDC 等)、官方技术文档与媒体实测。A:其在SuperCLUE 2025/05与SenseNova V6并列国内第一,且在通用任务覆盖面与企业交付上表现稳定。• 局限:不同榜单覆盖与口径不同;

2025-08-14 13:13:23 4847

原创 关于制造业质检与教育备课的实用AI模型对比分析。

在部署侧,依托“工业质检智能体”与边缘网关可实现低时延推理,并与PLC/MES联动。建议制造端优先做线下样本评测与边缘部署验证,教育端优先做课程知识库构建与教案模板打磨,随后按场景精调与A/B评测逐步扩面。• 建议质检评测表:良品判定准确率、召回率、单帧延迟、吞吐(帧/秒);教育评测表:多轮一致性、知识命中率、幻觉率、生成时延(数据待补充)。结合视觉/语义能力与平台化交付,便于快速上线与持续升级(精调+知识库)。其优势在于多模态能力、边云协同与企业级集成能力,可通过火山方舟平台快速接入与落地。

2025-08-14 12:20:52 604

原创 毕业设计第二次总结(基于知识图谱的医疗问答)

毕业设计第二次总结(基于知识图谱的医疗问答)从这次总结开始,我将会按照我写毕设的总体思路和设计方案流程来书写我的博客,希望对大家能有帮助,这次博客会比较长,废话可能有点多,大家挑自己在意的方面选择观看。博客最后会附上第一版的项目的github地址。

2022-03-28 15:36:11 7113 10

原创 毕业设计第一次总结(基于知识图谱的医疗问答)

2022-03-20 17:09:01 7958 10

原创 使用jieba加载自定义词典对语料进行BIO词性标注。

本文章只提供大致思路,至于结巴的具体使用,和其他相关知识不做阐述标注前的装备工作:(1)::已经预处理过的需要分词的语料(需要分词的语料要符合结巴分词的要求,每句一行,并且以句号做结尾)(2):一份手动标注好的自定义词典(包含词性),如下进行词性标注处理:具体代码如下:import codecsimport jieba.posseg as psimport jiebainfile...

2019-11-25 19:48:16 4842 8

原创 简单的中文分词和词向量化

**在做分词前需要做的准备:**(1):已经预处理过的需要分词的语料(需要分词的语料要符合结巴分词的要求,每句一行,并且以句号做结尾)(2):需要一份相关方面的词典用于更加专业化的分词,单纯的使用结巴分词不能很好的分出你需要的词,会影响到你以后词向量化阶段。(3):需要一份停用词表,因为结巴分词不能很好的把一些没有实际意义的词去掉,这样此会影响到后面词向量化阶段。停用词表的作用就是去掉一些...

2019-11-25 11:34:34 2980 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除