王哥儿聊AI-优快云博客

原创 Texo：20M参数搞定公式识别！这款轻量开源工具让理工科笔记党狂喜

Texo：2000万参数的轻量级公式识别神器 GitHub开源项目Texo近日走红，这款仅含2000万参数的轻量级模型能将公式图片精准转换为LaTeX代码，支持浏览器端运行。相比同类工具参数更小但精度不减，在UniMERNet测试集上BLEU评分达0.9左右。采用知识蒸馏技术精简模型，适用于课堂笔记、论文转录等场景，但暂不支持复杂手写体识别。项目完全开源，普通电脑即可运行，为STEM领域学习者提供了高效免费的公式识别方案。（字数：149）

2025-11-22 15:59:03 762

原创告别冗长文本输入！MLLM 新操作：转成图片就能省一半 Token

摘要：本文提出一种新颖的文本压缩方法，通过将长文本渲染为图像输入多模态大语言模型（如GPT-4V），显著减少token使用量而不损失性能。实验表明，在RULER长文本检索和CNN/DailyMail摘要任务中，这种"文本即图像"的方法能节省约50%的token，同时保持准确率。该方法无需模型微调，利用视觉编码器将图像转换为高效视觉token，为长文本处理提供了实用解决方案。核心优势在于简单高效、即插即用，为降低LLM计算成本开辟了新思路。

2025-11-22 15:39:30 1100

原创 DocuTranslate：打工人狂喜！这款开源神器一键翻译PDF/Word/Excel，格式不乱还免费

摘要：DocuTranslate是一款基于大模型的开源翻译工具，突破传统翻译格式错乱的局限，支持PDF、Word、Excel等10+文件格式，完美保留原文表格、公式和代码结构。工具具有术语表自动生成、OCR扫描识别、局域网共享等特色功能，支持本地离线部署和API调用。提供40M轻量安装包，3步即可完成配置，适用于科研文献、商务合同、视频字幕等多种场景，实测翻译效率提升300%。项目持续更新，已在GitHub开源，助力用户高效打破语言壁垒。

2025-11-09 19:16:29 1426

原创清华 & 智谱 AI 新框架 Glyph，用视觉压缩让大模型高效处理超长文本

本文提出Glyph框架，创新性地采用视觉文本压缩方法解决长上下文建模问题。不同于传统基于token的扩展方式，Glyph将长文本渲染为图像并由视觉语言模型处理，实现了3-4倍的token压缩率。通过LLM驱动的遗传搜索算法优化视觉渲染配置，在LongBench等基准测试中保持与Qwen3-8B等模型相当的准确率，同时显著提升推理速度（约4倍）和训练效率（约2倍）。该方法使128K窗口的视觉语言模型能够处理百万级token任务，并为多模态文档理解提供了新思路。实验结果验证了Glyph在性能与效率上的优势，为长

2025-11-09 15:23:34 834

原创 Local-NotebookLM：把PDF变成变成播客？这个开源工具让学术文献开口“说话”

GitHub开源项目Local-NotebookLM可将PDF文献转换为播客音频，支持多角色对话和多种风格选择。用户可通过网页界面、命令行或编程接口快速将文档转为有声内容，适合学生、研究人员等场景使用。项目完全开源免费，支持本地部署保障隐私，并持续更新迭代。

2025-10-25 10:11:14 627

原创告别上下文瓶颈！字节 AHN 架构让 3B 模型干翻全注意力模型，内存占用大减 74%

摘要：本文提出人工海马体网络（AHN）框架，通过模拟人脑记忆机制解决长序列建模的效率与性能矛盾。该框架结合Transformer的精确短期记忆（滑动窗口KV缓存）和RNN类模型的压缩长期记忆（AHN模块），在Qwen2.5等主流LLM上实现线性复杂度（O(WL)）和恒定内存占用（O(W)）。实验表明，128k序列下AHN使Qwen2.5-3B的FLOPs降低40.5%，内存减少74.0%，同时在LV-Eval等基准测试中性能超越滑动窗口基线15.7%，部分任务接近全注意力模型。AHN支持Mamba2等多种

2025-10-25 10:02:13 1123

原创 LibreTranslate：无需翻墙、免费商用！这个开源翻译工具让谷歌翻译都慌了

开源翻译工具LibreTranslate横空出世，提供30+种语言免费互译，无需联网即可运行。该项目基于Argos Translate引擎，支持本地部署、无调用限制，特别适合教育机构、企业等隐私敏感场景。用户可通过官网体验、自建服务器或Docker部署，开发者也可参与模型训练、界面优化等开源贡献。这一工具挑战了商业API收费模式，展现了技术普惠的可能性，尤其适合预算有限又需要稳定翻译服务的场景。

2025-10-20 20:42:47 1241

原创无需人工标注！Meta 新框架 PDO 让 LLM 自动优化提示词，性能碾压传统方法

大型语言模型（LLMs）对输入提示非常敏感，这使得提示设计成为一个核心挑战。尽管自动提示优化（APO）减少了手动工程的需要，但大多数方法都假设可以访问真实参考，例如标记过的验证数据。然而，在实践中，收集高质量的标签既昂贵又耗时。

2025-10-20 15:30:00 1132

原创打破 web agent 性能天花板！腾讯 Exp2Evo 范式助力模型攻克复杂信息合成难题

**摘要：本研究提出"Explore to Evolve"范式，构建了首个同时支持信息检索(IS)和聚合(IA)的WebAggregatorQA数据集，并开发了WebAggregator系列模型。关键发现：1)现有AI模型在信息聚合任务上表现薄弱，Claude-3.7-sonnet在WebAggregatorQA上仅达28%准确率；2)基于SmolAgents框架训练的WebAggregator-32B模型在GAIA-text上超越GPT-4.1达10%，接近Claude-3.7-son

2025-10-19 10:45:00 889

原创 Paper2Video：惊了！学术论文秒变专业演讲视频，这个开源工具太香了！

新加坡国立大学Show Lab团队推出Paper2Video开源项目，实现学术论文到演讲视频的全自动生成。核心亮点包括：1）PaperTalker模块整合幻灯片制作、字幕生成等功能，支持一键生成演示视频；2）定制化评估基准，从观众理解度和作者需求维度量化视频质量。项目近期更新无虚拟人版本提升生成速度，已入选NeurIPS 2025研讨会。用户只需三步：配置环境、设置API密钥、运行生成命令，即可快速产出学术演讲视频，为科研人员提供高效的内容传播工具。

2025-10-18 11:07:43 953

原创 DeepMiner 刷新多轮搜索 Agent 上限！让 AI 连续搜索超百轮不中断

DeepMiner框架突破长程智能问答瓶颈本研究针对当前AI模型在长程交互任务中的性能瓶颈，提出DeepMiner创新解决方案。通过"复杂问题构建+动态上下文管理"的双轮驱动策略，在保持32k上下文窗口的前提下，实现了三大突破：支持100轮连续交互、不增加参数量的性能提升、在四大基准测试中取得显著优势（BrowseComp-en准确率达33.5%，超越此前最佳20个百分点）。技术亮点包括：采用"反向构造"方法生成高难度训练数据，确保问题需多源交叉验证；设计滑动

2025-10-18 10:58:46 933

原创 Crawlee：超好用的Python爬虫神器来了！自动绕过反爬，一行代码搞定动态网页

Crawlee：新一代Python爬虫神器，轻松绕过反爬机制摘要：Crawlee是一款开源的Python爬虫库，集成了BeautifulSoup和Playwright的优点，能模拟人类浏览行为绕过反爬机制。它具备智能资源管理、自动数据存储和断点续爬功能，支持快速HTTP爬取和无头浏览器模式。安装简单，3分钟即可上手，相比Scrapy拥有更好的异步性能和开发体验。由Apify团队开发，适合各种规模的爬虫项目，是解决反爬问题的利器。（99字）

2025-10-15 14:15:00 1363

原创谷歌 DeepMind 新研究：PoT 让 LLM 探索多思考路径，个性化问答人类偏好率达 66%！

PoT方法在个性化问答中展现出显著优势。通过构建多路径思维空间和动态聚合机制，其性能最高提升13.1%，66%的人工评估结果更青睐PoT输出。这一无需微调的方法，通过模拟人类发散思维过程，为大语言模型的个性化应用提供了新思路。

2025-10-15 10:30:00 2110

原创 Flowise：无需一行代码，拖拽鼠标就能搭建 AI 智能体！这个开源神器让大模型应用开发降维打击

摘要：开源项目Flowise通过可视化拖拽界面大幅降低AI应用开发门槛，零基础用户也能快速搭建复杂AI系统。该项目支持多模型接入、知识库挂载、工具链集成等功能，提供三种便捷部署方式（快速启动/Docker/源码开发），让开发者像搭积木一样构建AI助手。目前已应用于客服机器人、数据分析、学术研究等场景，其MIT协议和活跃社区为商业落地提供全链路支持。无论是教育答疑系统还是企业知识库，Flowise都让AI应用的开发变得简单高效。

2025-10-14 13:00:00 690

原创无需手动搭建！MetaAgent 实现多智能体系统自动化生成，支持工具集成与状态回溯

MetaAgent：基于有限状态机的多智能体系统自动构建框架摘要：本文提出了MetaAgent，一个创新的多智能体系统自动构建框架。该框架采用有限状态机(FSM)模型，通过大语言模型(LLM)驱动智能体设计、状态机生成和系统优化三大核心流程，实现了多智能体系统的自动化构建与部署。实验表明，MetaAgent在文本处理（GPQA问答准确率提升9.1%）、机器学习（NPS达0.83）和软件开发（任务通过率0.85）等任务中均表现优异，其动态状态回溯机制和工具链集成显著提升了系统鲁棒性。相比传统框架，MetaA

2025-10-14 12:45:00 1951

原创 LLMc：大模型无损压缩文本神器，压缩率碾压传统算法

华盛顿大学SyFI实验室开源LLMc项目，创新性地利用大语言模型进行数据压缩。该技术通过记录每个词在模型预测列表中的排名编码，将《战争与和平》压缩至原大小30%，效果远超ZIP等传统工具。项目支持多种开源模型，提供命令行和可视化界面，5分钟即可完成文本压缩和解压。在长文本归档、低带宽传输等场景表现优异，压缩率可达25-40%。未来计划支持多模型联合压缩和移动端工具，为大模型应用开辟新方向。（149字）

2025-10-13 12:45:00 906

原创 Search-R3: 让大语言模型同时拥有推理和嵌入生成能力的新框架

尽管大型语言模型（LLMs）在自然语言理解方面表现出色，但它们在检索任务中的应用一直未被充分利用。我们提出了Search-R3，这是一个新颖的框架，通过使LLMs将其推理过程的直接输出生成为搜索嵌入向量，从而解决了这一限制。

2025-10-13 10:30:00 1392

原创告别 “上下文崩塌”！ACE 框架用 “生成 - 反思 - 整理” 三步法显著提升模型推理能力

摘要：本文提出ACE（Agentic Context Engineering）框架，通过动态优化上下文适应机制，解决大语言模型（LLM）应用中的简洁性偏见和上下文崩溃问题。ACE采用生成、反思、策划的模块化设计，实现结构化增量更新，在智能体和金融领域任务中分别提升性能10.6%和8.6%，显著降低延迟与成本。实验表明，ACE无需监督数据即可通过执行反馈自我优化，在AppWorld测试中与生产级智能体性能相当，验证了动态上下文对高效LLM系统的重要性。关键词：上下文适应、动态优化、大语言模型、无监督学习

2025-10-12 11:00:00 2141

原创 Index-anisora：B站开源「动漫版Sora」！一键生成鬼畜、PV、VTuber视频，代码权重全开放，附保姆级上手教程

B站开源动漫视频生成模型Index-AniSora，支持动画、国创、漫画等多种内容生成。该模型经过三次迭代，V1版本实现局部区域控制和时间轴引导，V2提升稳定性并支持国产芯片，V3预览版将增强画面细节。项目提供完整生态工具链，包含数据pipeline和标注好的动漫视频片段。开发者可通过三步快速上手：环境搭建、下载模型权重和配置参数运行推理。模型在角色一致性和视觉流畅度等指标上表现优异，未来还将开放高质量训练数据集。

2025-10-12 02:15:00 1752

原创 [特殊字符]开源界炸了！NeuTTS Air：手机就能跑的超写实TTS，3秒克隆任意声音

摘要：NeuTTS Air开源语音合成模型爆火，仅0.5B参数即可实现媲美商业API的写实语音效果，支持3秒极速声音克隆和本地部署。该模型采用NeuCodec音频编解码器，能模拟人类语气变化，支持全设备运行并内置水印技术。可广泛应用于内容创作、无障碍服务等场景，开发者现可免费使用。项目明确禁止非法用途，多语言适配正在进行中。

2025-10-11 13:45:00 1554 1

原创从 “短视执行” 到 “全局掌控”：EAGLET 让 LLM 智能体学会提前规划，三大复杂任务性能刷新纪录

摘要本文提出EAGLET，一种面向长周期任务的智能体全局规划框架，通过两阶段训练（监督微调+规则化强化学习）构建高效规划器。核心创新包括：1）同源共识过滤策略实现零人工标注的高质量计划合成；2）执行器能力增益奖励机制优化多级任务适应性。实验表明，在ALFWorld等任务中，EAGLET将规划效率提升8倍，成功率提高28.6%，同时显著降低幻觉决策率（-60.9%）。该框架采用标准化接口设计，支持不同执行器的即插即用部署。关键词：智能体规划、长周期任务、强化学习、EAGLET、零样本学习

2025-10-11 10:00:00 2040

原创 StreamCap：40+直播平台一键录屏，这个开源神器让你不错过任何精彩瞬间【无标题】

摘要：StreamCap是一款支持40+国内外直播平台的开源录制工具，可自动监控并录制抖音、B站、Twitch等平台的直播内容。该工具操作简单，支持多格式输出、定时录制、消息推送等功能，还能通过Docker部署实现24小时云录制。完全开源免费的特性使其成为留存直播内容的理想解决方案，未来还将加入AI剪辑等进阶功能。（150字）

2025-10-10 14:45:00 2510

原创从数据源头拯救 LLM 对齐！PrefCleanBench 横评 13 种清洗策略，找到最优数据清洗路径

对齐的本质是数据质量的竞争。在大模型参数规模趋同的今天，谁能更好地"净化"偏好数据，谁就能在对齐性能上领先一步。VoteMaj-R等方法的成功，也印证了"集体智慧"（多模型投票）在对抗噪声上的优势。对于开发者，建议优先尝试VoteMaj-R（开源代码可直接用），尤其在安全对齐场景（如PKU-SafeRLHF数据集）；对于研究者，PrefCleanBench提供了标准化"赛道"，未来可探索多模态数据清洗、跨语言数据清洗等新方向。

2025-10-10 10:30:00 2375

原创 Opik：从调试黑洞到透明可控：这款开源工具让 LLM 应用开发效率提升 300%

做LLM应用就像在黑屋子里修灯，Opik不是直接给你换灯泡，而是先打开手电筒照亮整个房间。它不替代开发者的判断，却能提供前所未有的清晰度。聊聊看：你开发LLM应用时，最头疼的评估难题是什么？

2025-10-09 11:30:00 709

原创腾讯 & 港科大将 “推理思考” 直接砍掉！新方法 TFPI 让大模型推理训练更高效，还降低 token 消耗！

本文提出无思考策略初始化（TFPI），通过思维自由操作（附加</think>标记）改进RLVR训练效率，在保持性能的同时显著降低token消耗。实验表明，TFPI训练的模型在数学推理等任务上准确率提升3.6%-4.2%，计算量仅为传统RLVR的20%，且验证行为可跨模式迁移。该方法实现了推理效率与性能的双重突破，为大型语言模型的高效训练提供了新思路。

2025-10-09 10:30:00 878

原创 Paper2Agent：论文秒变AI助手？这个开源工具让科研效率直接翻倍

摘要：斯坦福团队推出开源工具Paper2Agent，可将论文代码仓库自动转化为可交互AI助手。该工具能自动搭建环境、提取核心功能并生成即用型服务，支持单细胞分析、基因组解读等领域。用户只需输入代码库链接，即可通过自然语言指令调用工具处理数据，显著降低科研代码复用门槛。项目采用多智能体协作系统，严格保持算法原貌，目前已开源并支持自定义适配。这一创新有望解决科研代码复用难题，加速学术成果转化应用。

2025-10-08 09:21:26 760

原创 LongCodeZip：面向代码大模型的长上下文压缩框架，实现 5.6 倍压缩比且保持任务性能

论文标题: LongCodeZip: Compress Long Context for Code Language Models 作者: Yuling Shi, Yichun Qian, Hongyu Zhang 发表年份: 2025 摘要: LongCodeZip提出了一种专为代码大模型设计的双阶段压缩框架，有效解决长代码上下文处理中的计算成本高、关键信息淹没和窗口限制问题。通过粗粒度压缩（函数级筛选）和细粒度压缩（块级剪枝），在代码补全、模块总结和RepoQA任务中实现高达5.6倍的压缩比，性能接近无

2025-10-08 09:09:26 1007

原创 diff-excel：打工人狂喜！这款开源工具让Excel对比效率提升10倍，再也不用瞪瞎眼找差异了

一款名为Diff Excel的开源工具可自动对比两份Excel表格的差异，高亮标注不同单元格并保留原始格式。支持多Sheet组合对比、差异可视化、格式保留等功能，适用于财务、运营、HR等场景。基于Go语言开发，跨平台运行，3秒可处理5000行数据。提供dmg/exe安装包，3步即可使用，大幅提升表格核对效率。项目完全免费开源，持续更新中。

2025-10-07 19:57:13 1604

原创告别 LLM 幻觉难题：Meta 提出 TruthRL框架，基于RL显著降低幻觉！

TruthRL：用强化学习打造"知之为知之"的诚实AI 斯坦福团队提出TruthRL框架，通过三元奖励机制革新大型语言模型的真实性优化。该研究突破性地将模型回答分为正确、不确定和错误三类，给予差异化奖励（+1/0/-1），激励模型在知识边界内准确回答，超出范围时诚实弃权。实验表明，该方法在四大知识基准测试中平均降低28.9%的幻觉率，提升21.1%的真实性，且在不同规模模型和检索设置下表现稳健。特别在困难问题上，TruthRL的幻觉率仅为15.5%，而基线方法高达100%。这项研究为构建

2025-10-07 19:51:35 1335

原创开源界炸了！蚂蚁开源 Ming-UniAudio「全能音频模型」，ASR + TTS + 用文字编辑语音！

摘要：开源项目Ming-UniAudio突破AI音频技术壁垒，实现语音识别、合成与自然语言编辑的统一。其核心创新包括：1）首个兼顾理解与生成的Tokenizer（MingTok-Audio），语音质量评分达4.21；2）单一模型支持ASR/TTS任务，方言识别错误率低至9.8%；3）首创自然语言指令编辑功能，可精准修改语音内容。项目提供全流程Demo，支持5分钟快速部署，开发者可通过Hugging Face/ModelScope获取模型。这一技术为语音翻译、智能编辑等应用开辟新可能，代码已完全开源。（字

2025-10-06 19:13:21 1347

原创浙大新框架 KnowRL 火了！给大模型加 “事实奖惩”，慢思考不瞎编，推理能力还不丢！

KnowRL框架通过知识增强的强化学习有效降低大模型幻觉率摘要：本文提出的KnowRL框架创新性地将事实性知识融入强化学习（RL）训练过程，通过设计知识验证奖励机制（K-Reward）、逻辑一致性奖励（L-Reward）和格式规范奖励（F-Reward）的三维奖励信号，引导大模型在推理过程中遵循事实边界。实验表明，该方法在TruthfulQA等评估集上使模型幻觉率降低38.7%，同时保持原有推理能力（GPQA准确率37.37%）。KnowRL首次实现了事实性增强与推理能力的协同优化，其构建的KnowDat

2025-10-06 18:53:17 1375

原创 DeepResearch开源平替！用AI拆解复杂任务，ROMA让多智能体协作协作像搭积木一样简单

当你还在为AI无法处理复杂任务而头疼时，一群开发者已经用"递归思维"造出了新工具——ROMA，一个能让智能体像搭积木一样分层拆解问题的开源框架。它刚一露面就冲上GitHub热榜，被称作"多智能体系统的乐高套装"。欢迎大家关注我的公众号：大模型论文研习社往期回顾：大模型也会 “脑补” 了！Mirage 框架解锁多模态推理新范式，无需生成像素图性能还暴涨传统AI面对"写一份行业报告"或"规划跨部门项目"这类复杂任务时，常常陷入"一锅烩"的混乱。而ROMA用了个巧妙思路：让智能体像人类解决问题那样，把大任务

2025-10-05 20:32:57 848

原创阿里 & 小红书提出 MVP-RAG：融合双级检索与 LLM 生成，攻克电商商品属性识别三大核心难题

本文提出MVP-RAG框架，创新性地融合多级检索与生成技术，显著提升电商属性识别的准确率与泛化能力。实验表明，该方法在工业级数据集上F1值达92.1%，较基线模型提升15.8%，尤其对OOD属性识别率提升20%。该技术已成功部署于闲鱼平台，每日处理千万级商品属性提取任务，为电商AI领域提供了可复用的技术范式。

2025-10-05 20:19:59 1186

原创 PandaWiki：用AI搭一个专属知识库？这个开源工具让小白也能5分钟上手

PandaWiki是一款开源AI知识库系统，5分钟即可搭建专属智能问答平台。支持文档自动解析、AI内容生成和多平台集成，适用于企业、教育、科研等场景。通过Docker快速部署，提供自然语言问答、精准搜索和微信/钉钉对接功能。采用AGPL-3.0开源协议，免费商用且支持二次开发，近期新增文档版本管理和多语言支持，社区响应迅速。无论是团队知识管理还是个人资料整理，都能显著提升工作效率。

2025-10-04 17:26:16 611

原创告别 “数据焦虑”！微软新方法 TPT：给文本加推理步骤，大模型训练数据效率提升 3 倍，多任务性能暴涨

本文介绍了一种简单且可扩展的方法，通过添加思维轨迹来增强现有的文本数据，从而提高大型语言模型（LLM）训练的数据效率。预训练LLM的计算需求正在以空前的速度增长，而高质量数据的可用性仍然有限。因此，最大化利用现有数据成为一个重要的研究挑战。主要障碍是，在固定的模型容量下，某些高质量的标记很难被学习，因为单个标记背后的推理可能异常复杂且深入。

2025-10-04 16:56:53 874

原创 FireRedTTS-2来了！开源界首款长对话TTS系统，多语种+实时切换声线，播客/聊天机器人直接封神

FireRedTTS-2开源项目突破AI语音合成局限，实现真人般自然的多语言对话。该系统支持7种语言无缝切换和跨语种声线克隆，能稳定处理3分钟4人对话，延迟仅140ms。用户可通过简单代码或Web界面快速生成多角色语音，还能自定义声线特征。项目特别适合播客制作、虚拟主播等场景，未来将增强多语种支持并推出端到端播客生成工具。开发者现可通过GitHub体验这一领先的TTS技术。

2025-10-03 19:10:30 786

原创告别人工出题！PromptCoT 2.0 让大模型自己造训练难题，7B 模型仅用合成数据碾压人工数据集效果！

摘要：PromptCoT 2.0——突破推理能力的数据瓶颈大型语言模型(LLMs)在复杂推理任务上的表现受限于高质量训练数据的稀缺性。本文提出PromptCoT 2.0框架，通过冷启动初始化+EM优化循环的双轮驱动机制，实现了小模型在推理任务上的突破性表现。该方法包含：冷启动模块：从开源问题库自动构建初始"问题-概念-推理路径"三元组，实现零人工标注的数据自启动 EM优化循环：通过"生成-筛选-强化"的迭代过程，使4B参数的小模型在代码生成任务上达到GPT-3.5

2025-10-03 09:20:52 1544

原创文档解析界杀疯了！阿里新开源模型横扫复杂格式，公式表格一键结构化

阿里开源Logics-Parsing文档解析模型，能理解文档逻辑结构并精准提取内容。该模型在复杂文档处理上表现优异，支持嵌套表格、手写公式、化学结构式等专业内容识别，输出结构化HTML结果。性能碾压同类工具，在中文表格识别准确率达86.6%，化学结构式错误率仅51.9%。三步即可完成安装使用，适用科研、数据分析等多个场景。目前完全开源，支持商业化应用，为专业文档处理提供了高效解决方案。

2025-10-02 19:36:29 1194

原创 CompLLM 来了：长文本 Q&A 效率革命，线性复杂度 + 缓存复用，推理速度与效果双丰收

CompLLM：突破长上下文处理瓶颈的智能压缩技术斯坦福大学与Meta研究团队提出的CompLLM创新性地解决了LLM处理长文本的效率难题。通过将上下文分割为独立片段并压缩为Concept Embeddings（CEs），该技术实现了三大突破：线性复杂度：压缩时间与上下文长度呈线性关系（传统方法为二次方）动态扩展性：在1000 token上训练的模型可直接处理100000 token 片段级缓存：压缩结果可跨查询复用，减少重复计算实验数据显示，CompLLM在128k token场景下使4B小模型的

2025-10-02 11:44:19 1412

原创刚开源的VoxCPM火了！零样本克隆声音、上下文感知说话，一行代码就能用

VoxCPM开源语音合成模型引发热议，仅需几秒音频即可高精度克隆人声，完美复刻音色、语气和发音细节。该模型采用端到端扩散自回归架构，支持中英双语零样本克隆和语境感知合成，能自动调整新闻播报、诗歌朗诵等不同场景的语音风格。实测显示其错误率低于1.93%，相似度超72%，在普通显卡上即可速度是实时5倍。项目提供Python库、命令行和网页交互三种使用方式，适合各类用户。目前已在社区引发AI voices克隆、播客配音等向应用，但需注意合理使用避免侵权。团队计划后续提升音质并支持更多语言参数控制。

2025-10-01 08:58:39 1696

情感文本数据分类数据集，包含28个情感类别

空空如也