- 博客(142)
- 收藏
- 关注
原创 Texo:20M参数搞定公式识别!这款轻量开源工具让理工科笔记党狂喜
Texo:2000万参数的轻量级公式识别神器 GitHub开源项目Texo近日走红,这款仅含2000万参数的轻量级模型能将公式图片精准转换为LaTeX代码,支持浏览器端运行。相比同类工具参数更小但精度不减,在UniMERNet测试集上BLEU评分达0.9左右。采用知识蒸馏技术精简模型,适用于课堂笔记、论文转录等场景,但暂不支持复杂手写体识别。项目完全开源,普通电脑即可运行,为STEM领域学习者提供了高效免费的公式识别方案。 (字数:149)
2025-11-22 15:59:03
760
原创 告别冗长文本输入!MLLM 新操作:转成图片就能省一半 Token
摘要:本文提出一种新颖的文本压缩方法,通过将长文本渲染为图像输入多模态大语言模型(如GPT-4V),显著减少token使用量而不损失性能。实验表明,在RULER长文本检索和CNN/DailyMail摘要任务中,这种"文本即图像"的方法能节省约50%的token,同时保持准确率。该方法无需模型微调,利用视觉编码器将图像转换为高效视觉token,为长文本处理提供了实用解决方案。核心优势在于简单高效、即插即用,为降低LLM计算成本开辟了新思路。
2025-11-22 15:39:30
1100
原创 DocuTranslate:打工人狂喜!这款开源神器一键翻译PDF/Word/Excel,格式不乱还免费
摘要:DocuTranslate是一款基于大模型的开源翻译工具,突破传统翻译格式错乱的局限,支持PDF、Word、Excel等10+文件格式,完美保留原文表格、公式和代码结构。工具具有术语表自动生成、OCR扫描识别、局域网共享等特色功能,支持本地离线部署和API调用。提供40M轻量安装包,3步即可完成配置,适用于科研文献、商务合同、视频字幕等多种场景,实测翻译效率提升300%。项目持续更新,已在GitHub开源,助力用户高效打破语言壁垒。
2025-11-09 19:16:29
1419
原创 清华 & 智谱 AI 新框架 Glyph,用视觉压缩让大模型高效处理超长文本
本文提出Glyph框架,创新性地采用视觉文本压缩方法解决长上下文建模问题。不同于传统基于token的扩展方式,Glyph将长文本渲染为图像并由视觉语言模型处理,实现了3-4倍的token压缩率。通过LLM驱动的遗传搜索算法优化视觉渲染配置,在LongBench等基准测试中保持与Qwen3-8B等模型相当的准确率,同时显著提升推理速度(约4倍)和训练效率(约2倍)。该方法使128K窗口的视觉语言模型能够处理百万级token任务,并为多模态文档理解提供了新思路。实验结果验证了Glyph在性能与效率上的优势,为长
2025-11-09 15:23:34
828
原创 Local-NotebookLM:把PDF变成变成播客?这个开源工具让学术文献开口“说话”
GitHub开源项目Local-NotebookLM可将PDF文献转换为播客音频,支持多角色对话和多种风格选择。用户可通过网页界面、命令行或编程接口快速将文档转为有声内容,适合学生、研究人员等场景使用。项目完全开源免费,支持本地部署保障隐私,并持续更新迭代。
2025-10-25 10:11:14
624
原创 告别上下文瓶颈!字节 AHN 架构让 3B 模型干翻全注意力模型,内存占用大减 74%
摘要: 本文提出人工海马体网络(AHN)框架,通过模拟人脑记忆机制解决长序列建模的效率与性能矛盾。该框架结合Transformer的精确短期记忆(滑动窗口KV缓存)和RNN类模型的压缩长期记忆(AHN模块),在Qwen2.5等主流LLM上实现线性复杂度(O(WL))和恒定内存占用(O(W))。实验表明,128k序列下AHN使Qwen2.5-3B的FLOPs降低40.5%,内存减少74.0%,同时在LV-Eval等基准测试中性能超越滑动窗口基线15.7%,部分任务接近全注意力模型。AHN支持Mamba2等多种
2025-10-25 10:02:13
1122
原创 LibreTranslate:无需翻墙、免费商用!这个开源翻译工具让谷歌翻译都慌了
开源翻译工具LibreTranslate横空出世,提供30+种语言免费互译,无需联网即可运行。该项目基于Argos Translate引擎,支持本地部署、无调用限制,特别适合教育机构、企业等隐私敏感场景。用户可通过官网体验、自建服务器或Docker部署,开发者也可参与模型训练、界面优化等开源贡献。这一工具挑战了商业API收费模式,展现了技术普惠的可能性,尤其适合预算有限又需要稳定翻译服务的场景。
2025-10-20 20:42:47
1235
原创 无需人工标注!Meta 新框架 PDO 让 LLM 自动优化提示词,性能碾压传统方法
大型语言模型(LLMs)对输入提示非常敏感,这使得提示设计成为一个核心挑战。尽管自动提示优化(APO)减少了手动工程的需要,但大多数方法都假设可以访问真实参考,例如标记过的验证数据。然而,在实践中,收集高质量的标签既昂贵又耗时。
2025-10-20 15:30:00
1131
原创 打破 web agent 性能天花板!腾讯 Exp2Evo 范式助力模型攻克复杂信息合成难题
**摘要:本研究提出"Explore to Evolve"范式,构建了首个同时支持信息检索(IS)和聚合(IA)的WebAggregatorQA数据集,并开发了WebAggregator系列模型。关键发现:1)现有AI模型在信息聚合任务上表现薄弱,Claude-3.7-sonnet在WebAggregatorQA上仅达28%准确率;2)基于SmolAgents框架训练的WebAggregator-32B模型在GAIA-text上超越GPT-4.1达10%,接近Claude-3.7-son
2025-10-19 10:45:00
889
原创 Paper2Video:惊了!学术论文秒变专业演讲视频,这个开源工具太香了!
新加坡国立大学Show Lab团队推出Paper2Video开源项目,实现学术论文到演讲视频的全自动生成。核心亮点包括:1)PaperTalker模块整合幻灯片制作、字幕生成等功能,支持一键生成演示视频;2)定制化评估基准,从观众理解度和作者需求维度量化视频质量。项目近期更新无虚拟人版本提升生成速度,已入选NeurIPS 2025研讨会。用户只需三步:配置环境、设置API密钥、运行生成命令,即可快速产出学术演讲视频,为科研人员提供高效的内容传播工具。
2025-10-18 11:07:43
951
原创 DeepMiner 刷新多轮搜索 Agent 上限!让 AI 连续搜索超百轮不中断
DeepMiner框架突破长程智能问答瓶颈 本研究针对当前AI模型在长程交互任务中的性能瓶颈,提出DeepMiner创新解决方案。通过"复杂问题构建+动态上下文管理"的双轮驱动策略,在保持32k上下文窗口的前提下,实现了三大突破:支持100轮连续交互、不增加参数量的性能提升、在四大基准测试中取得显著优势(BrowseComp-en准确率达33.5%,超越此前最佳20个百分点)。 技术亮点包括: 采用"反向构造"方法生成高难度训练数据,确保问题需多源交叉验证; 设计滑动
2025-10-18 10:58:46
931
原创 Crawlee:超好用的Python爬虫神器来了!自动绕过反爬,一行代码搞定动态网页
Crawlee:新一代Python爬虫神器,轻松绕过反爬机制 摘要:Crawlee是一款开源的Python爬虫库,集成了BeautifulSoup和Playwright的优点,能模拟人类浏览行为绕过反爬机制。它具备智能资源管理、自动数据存储和断点续爬功能,支持快速HTTP爬取和无头浏览器模式。安装简单,3分钟即可上手,相比Scrapy拥有更好的异步性能和开发体验。由Apify团队开发,适合各种规模的爬虫项目,是解决反爬问题的利器。 (99字)
2025-10-15 14:15:00
1363
原创 谷歌 DeepMind 新研究:PoT 让 LLM 探索多思考路径,个性化问答人类偏好率达 66%!
PoT方法在个性化问答中展现出显著优势。通过构建多路径思维空间和动态聚合机制,其性能最高提升13.1%,66%的人工评估结果更青睐PoT输出。这一无需微调的方法,通过模拟人类发散思维过程,为大语言模型的个性化应用提供了新思路。
2025-10-15 10:30:00
2107
原创 Flowise:无需一行代码,拖拽鼠标就能搭建 AI 智能体!这个开源神器让大模型应用开发降维打击
摘要:开源项目Flowise通过可视化拖拽界面大幅降低AI应用开发门槛,零基础用户也能快速搭建复杂AI系统。该项目支持多模型接入、知识库挂载、工具链集成等功能,提供三种便捷部署方式(快速启动/Docker/源码开发),让开发者像搭积木一样构建AI助手。目前已应用于客服机器人、数据分析、学术研究等场景,其MIT协议和活跃社区为商业落地提供全链路支持。无论是教育答疑系统还是企业知识库,Flowise都让AI应用的开发变得简单高效。
2025-10-14 13:00:00
688
原创 无需手动搭建!MetaAgent 实现多智能体系统自动化生成,支持工具集成与状态回溯
MetaAgent:基于有限状态机的多智能体系统自动构建框架 摘要:本文提出了MetaAgent,一个创新的多智能体系统自动构建框架。该框架采用有限状态机(FSM)模型,通过大语言模型(LLM)驱动智能体设计、状态机生成和系统优化三大核心流程,实现了多智能体系统的自动化构建与部署。实验表明,MetaAgent在文本处理(GPQA问答准确率提升9.1%)、机器学习(NPS达0.83)和软件开发(任务通过率0.85)等任务中均表现优异,其动态状态回溯机制和工具链集成显著提升了系统鲁棒性。相比传统框架,MetaA
2025-10-14 12:45:00
1951
原创 LLMc:大模型无损压缩文本神器,压缩率碾压传统算法
华盛顿大学SyFI实验室开源LLMc项目,创新性地利用大语言模型进行数据压缩。该技术通过记录每个词在模型预测列表中的排名编码,将《战争与和平》压缩至原大小30%,效果远超ZIP等传统工具。项目支持多种开源模型,提供命令行和可视化界面,5分钟即可完成文本压缩和解压。在长文本归档、低带宽传输等场景表现优异,压缩率可达25-40%。未来计划支持多模型联合压缩和移动端工具,为大模型应用开辟新方向。(149字)
2025-10-13 12:45:00
906
原创 Search-R3: 让大语言模型同时拥有推理和嵌入生成能力的新框架
尽管大型语言模型(LLMs)在自然语言理解方面表现出色,但它们在检索任务中的应用一直未被充分利用。我们提出了Search-R3,这是一个新颖的框架,通过使LLMs将其推理过程的直接输出生成为搜索嵌入向量,从而解决了这一限制。
2025-10-13 10:30:00
1389
原创 告别 “上下文崩塌”!ACE 框架用 “生成 - 反思 - 整理” 三步法显著提升模型推理能力
摘要: 本文提出ACE(Agentic Context Engineering)框架,通过动态优化上下文适应机制,解决大语言模型(LLM)应用中的简洁性偏见和上下文崩溃问题。ACE采用生成、反思、策划的模块化设计,实现结构化增量更新,在智能体和金融领域任务中分别提升性能10.6%和8.6%,显著降低延迟与成本。实验表明,ACE无需监督数据即可通过执行反馈自我优化,在AppWorld测试中与生产级智能体性能相当,验证了动态上下文对高效LLM系统的重要性。 关键词: 上下文适应、动态优化、大语言模型、无监督学习
2025-10-12 11:00:00
2141
原创 Index-anisora:B站开源「动漫版Sora」!一键生成鬼畜、PV、VTuber视频,代码权重全开放,附保姆级上手教程
B站开源动漫视频生成模型Index-AniSora,支持动画、国创、漫画等多种内容生成。该模型经过三次迭代,V1版本实现局部区域控制和时间轴引导,V2提升稳定性并支持国产芯片,V3预览版将增强画面细节。项目提供完整生态工具链,包含数据pipeline和标注好的动漫视频片段。开发者可通过三步快速上手:环境搭建、下载模型权重和配置参数运行推理。模型在角色一致性和视觉流畅度等指标上表现优异,未来还将开放高质量训练数据集。
2025-10-12 02:15:00
1745
原创 [特殊字符]开源界炸了!NeuTTS Air:手机就能跑的超写实TTS,3秒克隆任意声音
摘要:NeuTTS Air开源语音合成模型爆火,仅0.5B参数即可实现媲美商业API的写实语音效果,支持3秒极速声音克隆和本地部署。该模型采用NeuCodec音频编解码器,能模拟人类语气变化,支持全设备运行并内置水印技术。可广泛应用于内容创作、无障碍服务等场景,开发者现可免费使用。项目明确禁止非法用途,多语言适配正在进行中。
2025-10-11 13:45:00
1551
1
原创 从 “短视执行” 到 “全局掌控”:EAGLET 让 LLM 智能体学会提前规划,三大复杂任务性能刷新纪录
摘要 本文提出EAGLET,一种面向长周期任务的智能体全局规划框架,通过两阶段训练(监督微调+规则化强化学习)构建高效规划器。核心创新包括:1)同源共识过滤策略实现零人工标注的高质量计划合成;2)执行器能力增益奖励机制优化多级任务适应性。实验表明,在ALFWorld等任务中,EAGLET将规划效率提升8倍,成功率提高28.6%,同时显著降低幻觉决策率(-60.9%)。该框架采用标准化接口设计,支持不同执行器的即插即用部署。 关键词:智能体规划、长周期任务、强化学习、EAGLET、零样本学习
2025-10-11 10:00:00
2039
原创 StreamCap:40+直播平台一键录屏,这个开源神器让你不错过任何精彩瞬间【无标题】
摘要:StreamCap是一款支持40+国内外直播平台的开源录制工具,可自动监控并录制抖音、B站、Twitch等平台的直播内容。该工具操作简单,支持多格式输出、定时录制、消息推送等功能,还能通过Docker部署实现24小时云录制。完全开源免费的特性使其成为留存直播内容的理想解决方案,未来还将加入AI剪辑等进阶功能。 (150字)
2025-10-10 14:45:00
2505
原创 从数据源头拯救 LLM 对齐!PrefCleanBench 横评 13 种清洗策略,找到最优数据清洗路径
对齐的本质是数据质量的竞争。在大模型参数规模趋同的今天,谁能更好地"净化"偏好数据,谁就能在对齐性能上领先一步。VoteMaj-R等方法的成功,也印证了"集体智慧"(多模型投票)在对抗噪声上的优势。对于开发者,建议优先尝试VoteMaj-R(开源代码可直接用),尤其在安全对齐场景(如PKU-SafeRLHF数据集);对于研究者,PrefCleanBench提供了标准化"赛道",未来可探索多模态数据清洗、跨语言数据清洗等新方向。
2025-10-10 10:30:00
2375
原创 Opik:从调试黑洞到透明可控:这款开源工具让 LLM 应用开发效率提升 300%
做LLM应用就像在黑屋子里修灯,Opik不是直接给你换灯泡,而是先打开手电筒照亮整个房间。它不替代开发者的判断,却能提供前所未有的清晰度。聊聊看:你开发LLM应用时,最头疼的评估难题是什么?
2025-10-09 11:30:00
707
原创 腾讯 & 港科大将 “推理思考” 直接砍掉!新方法 TFPI 让大模型推理训练更高效,还降低 token 消耗!
本文提出无思考策略初始化(TFPI),通过思维自由操作(附加</think>标记)改进RLVR训练效率,在保持性能的同时显著降低token消耗。实验表明,TFPI训练的模型在数学推理等任务上准确率提升3.6%-4.2%,计算量仅为传统RLVR的20%,且验证行为可跨模式迁移。该方法实现了推理效率与性能的双重突破,为大型语言模型的高效训练提供了新思路。
2025-10-09 10:30:00
876
原创 Paper2Agent:论文秒变AI助手?这个开源工具让科研效率直接翻倍
摘要:斯坦福团队推出开源工具Paper2Agent,可将论文代码仓库自动转化为可交互AI助手。该工具能自动搭建环境、提取核心功能并生成即用型服务,支持单细胞分析、基因组解读等领域。用户只需输入代码库链接,即可通过自然语言指令调用工具处理数据,显著降低科研代码复用门槛。项目采用多智能体协作系统,严格保持算法原貌,目前已开源并支持自定义适配。这一创新有望解决科研代码复用难题,加速学术成果转化应用。
2025-10-08 09:21:26
752
原创 LongCodeZip:面向代码大模型的长上下文压缩框架,实现 5.6 倍压缩比且保持任务性能
论文标题: LongCodeZip: Compress Long Context for Code Language Models 作者: Yuling Shi, Yichun Qian, Hongyu Zhang 发表年份: 2025 摘要: LongCodeZip提出了一种专为代码大模型设计的双阶段压缩框架,有效解决长代码上下文处理中的计算成本高、关键信息淹没和窗口限制问题。通过粗粒度压缩(函数级筛选)和细粒度压缩(块级剪枝),在代码补全、模块总结和RepoQA任务中实现高达5.6倍的压缩比,性能接近无
2025-10-08 09:09:26
1005
原创 diff-excel:打工人狂喜!这款开源工具让Excel对比效率提升10倍,再也不用瞪瞎眼找差异了
一款名为Diff Excel的开源工具可自动对比两份Excel表格的差异,高亮标注不同单元格并保留原始格式。支持多Sheet组合对比、差异可视化、格式保留等功能,适用于财务、运营、HR等场景。基于Go语言开发,跨平台运行,3秒可处理5000行数据。提供dmg/exe安装包,3步即可使用,大幅提升表格核对效率。项目完全免费开源,持续更新中。
2025-10-07 19:57:13
1591
原创 告别 LLM 幻觉难题:Meta 提出 TruthRL框架,基于RL显著降低幻觉!
TruthRL:用强化学习打造"知之为知之"的诚实AI 斯坦福团队提出TruthRL框架,通过三元奖励机制革新大型语言模型的真实性优化。该研究突破性地将模型回答分为正确、不确定和错误三类,给予差异化奖励(+1/0/-1),激励模型在知识边界内准确回答,超出范围时诚实弃权。实验表明,该方法在四大知识基准测试中平均降低28.9%的幻觉率,提升21.1%的真实性,且在不同规模模型和检索设置下表现稳健。特别在困难问题上,TruthRL的幻觉率仅为15.5%,而基线方法高达100%。这项研究为构建
2025-10-07 19:51:35
1333
原创 开源界炸了!蚂蚁开源 Ming-UniAudio「全能音频模型」,ASR + TTS + 用文字编辑语音!
摘要: 开源项目Ming-UniAudio突破AI音频技术壁垒,实现语音识别、合成与自然语言编辑的统一。其核心创新包括:1)首个兼顾理解与生成的Tokenizer(MingTok-Audio),语音质量评分达4.21;2)单一模型支持ASR/TTS任务,方言识别错误率低至9.8%;3)首创自然语言指令编辑功能,可精准修改语音内容。项目提供全流程Demo,支持5分钟快速部署,开发者可通过Hugging Face/ModelScope获取模型。这一技术为语音翻译、智能编辑等应用开辟新可能,代码已完全开源。 (字
2025-10-06 19:13:21
1340
原创 浙大新框架 KnowRL 火了!给大模型加 “事实奖惩”,慢思考不瞎编,推理能力还不丢!
KnowRL框架通过知识增强的强化学习有效降低大模型幻觉率 摘要:本文提出的KnowRL框架创新性地将事实性知识融入强化学习(RL)训练过程,通过设计知识验证奖励机制(K-Reward)、逻辑一致性奖励(L-Reward)和格式规范奖励(F-Reward)的三维奖励信号,引导大模型在推理过程中遵循事实边界。实验表明,该方法在TruthfulQA等评估集上使模型幻觉率降低38.7%,同时保持原有推理能力(GPQA准确率37.37%)。KnowRL首次实现了事实性增强与推理能力的协同优化,其构建的KnowDat
2025-10-06 18:53:17
1374
原创 DeepResearch开源平替!用AI拆解复杂任务,ROMA让多智能体协作协作像搭积木一样简单
当你还在为AI无法处理复杂任务而头疼时,一群开发者已经用"递归思维"造出了新工具——ROMA,一个能让智能体像搭积木一样分层拆解问题的开源框架。它刚一露面就冲上GitHub热榜,被称作"多智能体系统的乐高套装"。欢迎大家关注我的公众号:大模型论文研习社往期回顾:大模型也会 “脑补” 了!Mirage 框架解锁多模态推理新范式,无需生成像素图性能还暴涨传统AI面对"写一份行业报告"或"规划跨部门项目"这类复杂任务时,常常陷入"一锅烩"的混乱。而ROMA用了个巧妙思路:让智能体像人类解决问题那样,把大任务
2025-10-05 20:32:57
848
原创 阿里 & 小红书提出 MVP-RAG:融合双级检索与 LLM 生成,攻克电商商品属性识别三大核心难题
本文提出MVP-RAG框架,创新性地融合多级检索与生成技术,显著提升电商属性识别的准确率与泛化能力。实验表明,该方法在工业级数据集上F1值达92.1%,较基线模型提升15.8%,尤其对OOD属性识别率提升20%。该技术已成功部署于闲鱼平台,每日处理千万级商品属性提取任务,为电商AI领域提供了可复用的技术范式。
2025-10-05 20:19:59
1185
原创 PandaWiki:用AI搭一个专属知识库?这个开源工具让小白也能5分钟上手
PandaWiki是一款开源AI知识库系统,5分钟即可搭建专属智能问答平台。支持文档自动解析、AI内容生成和多平台集成,适用于企业、教育、科研等场景。通过Docker快速部署,提供自然语言问答、精准搜索和微信/钉钉对接功能。采用AGPL-3.0开源协议,免费商用且支持二次开发,近期新增文档版本管理和多语言支持,社区响应迅速。无论是团队知识管理还是个人资料整理,都能显著提升工作效率。
2025-10-04 17:26:16
609
原创 告别 “数据焦虑”!微软新方法 TPT:给文本加推理步骤,大模型训练数据效率提升 3 倍,多任务性能暴涨
本文介绍了一种简单且可扩展的方法,通过添加思维轨迹来增强现有的文本数据,从而提高大型语言模型(LLM)训练的数据效率。预训练LLM的计算需求正在以空前的速度增长,而高质量数据的可用性仍然有限。因此,最大化利用现有数据成为一个重要的研究挑战。主要障碍是,在固定的模型容量下,某些高质量的标记很难被学习,因为单个标记背后的推理可能异常复杂且深入。
2025-10-04 16:56:53
870
原创 FireRedTTS-2来了!开源界首款长对话TTS系统,多语种+实时切换声线,播客/聊天机器人直接封神
FireRedTTS-2开源项目突破AI语音合成局限,实现真人般自然的多语言对话。该系统支持7种语言无缝切换和跨语种声线克隆,能稳定处理3分钟4人对话,延迟仅140ms。用户可通过简单代码或Web界面快速生成多角色语音,还能自定义声线特征。项目特别适合播客制作、虚拟主播等场景,未来将增强多语种支持并推出端到端播客生成工具。开发者现可通过GitHub体验这一领先的TTS技术。
2025-10-03 19:10:30
786
原创 告别人工出题!PromptCoT 2.0 让大模型自己造训练难题,7B 模型仅用合成数据碾压人工数据集效果!
摘要:PromptCoT 2.0——突破推理能力的数据瓶颈 大型语言模型(LLMs)在复杂推理任务上的表现受限于高质量训练数据的稀缺性。本文提出PromptCoT 2.0框架,通过冷启动初始化+EM优化循环的双轮驱动机制,实现了小模型在推理任务上的突破性表现。该方法包含: 冷启动模块:从开源问题库自动构建初始"问题-概念-推理路径"三元组,实现零人工标注的数据自启动 EM优化循环:通过"生成-筛选-强化"的迭代过程,使4B参数的小模型在代码生成任务上达到GPT-3.5
2025-10-03 09:20:52
1540
原创 文档解析界杀疯了!阿里新开源模型横扫复杂格式,公式表格一键结构化
阿里开源Logics-Parsing文档解析模型,能理解文档逻辑结构并精准提取内容。该模型在复杂文档处理上表现优异,支持嵌套表格、手写公式、化学结构式等专业内容识别,输出结构化HTML结果。性能碾压同类工具,在中文表格识别准确率达86.6%,化学结构式错误率仅51.9%。三步即可完成安装使用,适用科研、数据分析等多个场景。目前完全开源,支持商业化应用,为专业文档处理提供了高效解决方案。
2025-10-02 19:36:29
1193
原创 CompLLM 来了:长文本 Q&A 效率革命,线性复杂度 + 缓存复用,推理速度与效果双丰收
CompLLM:突破长上下文处理瓶颈的智能压缩技术 斯坦福大学与Meta研究团队提出的CompLLM创新性地解决了LLM处理长文本的效率难题。通过将上下文分割为独立片段并压缩为Concept Embeddings(CEs),该技术实现了三大突破: 线性复杂度:压缩时间与上下文长度呈线性关系(传统方法为二次方) 动态扩展性:在1000 token上训练的模型可直接处理100000 token 片段级缓存:压缩结果可跨查询复用,减少重复计算 实验数据显示,CompLLM在128k token场景下使4B小模型的
2025-10-02 11:44:19
1411
原创 刚开源的VoxCPM火了!零样本克隆声音、上下文感知说话,一行代码就能用
VoxCPM开源语音合成模型引发热议,仅需几秒音频即可高精度克隆人声,完美复刻音色、语气和发音细节。该模型采用端到端扩散自回归架构,支持中英双语零样本克隆和语境感知合成,能自动调整新闻播报、诗歌朗诵等不同场景的语音风格。实测显示其错误率低于1.93%,相似度超72%,在普通显卡上即可速度是实时5倍。项目提供Python库、命令行和网页交互三种使用方式,适合各类用户。目前已在社区引发AI voices克隆、播客配音等向应用,但需注意合理使用避免侵权。团队计划后续提升音质并支持更多语言参数控制。
2025-10-01 08:58:39
1696
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅