自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 FLOAT:一种基于流匹配生成模型的音频驱动肖像说话视频生成的方法

本文提出的FLOAT方法通过流匹配生成模型实现了高效的音频驱动说话人像视频生成。通过引入基于Transformer的向量场预测器和语音驱动的情感标签,FLOAT在视觉质量、运动保真度和效率方面达到了最先进的水平。未来的工作将进一步探索更复杂的情感表达和实时视频生成。

2024-12-04 21:58:56 690

原创 学习Kimi官方8大提示词,使用大模型快速提升学习能力和工作效率

本文介绍了 8 种基于人工智能技术的提示词模版,旨在帮助学生、白领等提升职业发展能力。包括`职业导航顾问、面试模拟助手、会议精要整理、PPT精炼助手、爆款文案大师、美文排版工具、要点凝练助手以及短剧脚本专家

2024-12-03 21:33:14 672

原创 TTS小模型OuteTTS v0.2发布:声音克隆+多语种,开始制作你的第一个作品吧~

OuteTTS v0.2-500M 是基于 Qwen-2.5-0.5B 的改进版,显著提升提示跟踪、输出一致性和自然度,支持中、日、韩等多语言。通过 WavTokenizer 实现文字与语音 Token 对应,提供语音克隆和自定义读音功能。模型在更大、多样化数据集上训练,扩展词汇量至超 50 亿音频提示标记。

2024-11-29 11:56:10 1250

原创 nano-GraphRAG:一种轻量级且可定制的GraphRAG实现【简洁易用,适合项目集成】

nano-GraphRAG在保持GraphRAG核心功能的同时,通过降低资源消耗提高查询效率,以及提供更简洁的代码实现,实现了性能上的提升。作为一个轻量级、异步和完全类型化的实现,nano-GraphRAG在处理简单查询和大规模数据查询时表现更好,尤其是在资源受限的环境中。而GraphRAG由于其复杂的图结构和多跳推理需要深入分析和复杂逻辑的查询时可能更有优势。

2024-11-29 11:55:07 1981

原创 微软LazyGraphRAG框架:索引成本约GraphRAG的0.1%

微软近日发布了GraphRAG的迭代版本LazyGraphRAG,解决了原版在处理全局数据查询时高成本和延迟的问题。LazyGraphRAG在数据索引阶段不进行预先总结,采用NLP名词短语提取和图统计优化概念图,显著降低了索引成本(仅为原版的0.1%)。查询处理方面,LazyGraphRAG结合最佳优先搜索和广度优先搜索,动态选择相关社区,提升查询效率和准确性。适用于中小企业和个人开发者,适合内容推荐系统和项目管理工具等场景。实验表明,LazyGraphRAG在不同预算下均表现出色,兼具低成本和高性能优势。

2024-11-29 11:53:54 824

原创 阿里震撼发布Qwen2.5“全能套装”——打造史上最大规模开源盛宴

在 Qwen2 发布后的过去三个月里,许多开发者基于 Qwen2 语言模型构建了新的模型。Qwen2.5。

2024-09-20 11:37:09 1980

原创 GraphRAG可视化方案

通过 GraphRAG 构建索引数据后,把图数据存储在Parquet文件,在 GraphRAG 执行query时,是使用Python的Pandas库从Parquet文件中读取数据,并将结果存储在一个Pandas DataFrame对象中,然后进行一些数据处理查询。疑问:GraphRAG构建的图谱是什么样子的?质量如何?检索效果不好时,该从哪个角度分析数据进而完善图数据?那么可视化是最直观、最简便的方案了,今天我们一起看一下GraphRAG可视化方案的最佳实践。

2024-09-20 11:35:01 1660

原创 认识GraphRAG

总之,Graph RAG是一种基于知识图谱的检索增强技术,它通过结合大语言模型LLM,实现了对用户输入的query进行实体提取、子图构造和上下文学习,从而提高了信息检索的完整性和准确性。Graph RAG的应用将极大地推动智能问答、自然语言处理等领域的发展,为人类的生活和工作带来更加便捷、智能的体验。

2024-09-20 11:31:08 997

原创 MemoRAG|下一代 RAG 框架

与传统的 RAG 不同,MemoRAG 利用其内存模型来实现对整个数据集的全局理解记忆,通过从记忆中生成查询特定线索来增强证据检索,还会从数据集的“记忆”中提取信息,从而生成更准确和上下文丰富的答案。进入MemoRAG,这是一个突破性的框架,它通过集成长期记忆功能将 RAG 推向新领域,实现更深入的上下文理解和更准确的信息检索。该模型生成线索或部分答案,指导相关信息的检索。:一个更强大、更具表现力的语言模型,它根据记忆模型生成的线索,从数据库中检索必要的证据,并生成最终的高质量答案。

2024-09-20 11:28:15 1166

原创 LLM RAG|攻克切片难题

今日AI资讯今天主要针对Langchain的文档切分中4个难点进行展开。

2024-03-26 22:18:20 5266

原创 本地部署|马斯克旗下xAI开源的Grok-1

今日AI资讯今天主要了解一下Grok-1模型规格、本地部署需要有哪些储备、本地部署的步骤以及部署过程中FAQ。

2024-03-26 22:13:11 6885 2

原创 TTS文本合成语音|Sambert微调

语音合成(Text-to-Speech, TTS)是指将输入文字合成为对应语音信号的功能,即赋予计算机“说”的能力,是人机交互中重要的一环。现代语音合成在2016年随着WaveNet的出现步入了深度学习合成时代,此时语音合成的效果已经表现出了比拟真人的水准。一个语音合成系统通常由两部分组成,分别是语言分析部分和声学系统部分,也被称为前端部分和后端部分。语言分析:根据输入的文字信息进行分析,生成对应的语言学特征(梅尔频谱),想好该怎么读;声学系统:根据语音分析部分提供的语音学特征,生成对应的音频,实现。

2024-03-26 22:09:12 2182

原创 开源大模型训练及推理所需显卡成本必读:也看大模型参数与显卡大小的大致映射策略

随着各厂商相继发布大型模型,排行榜变化频繁,新旧交替,呈现出一片繁荣景象。有些技术爱好者也开始心痒难耐,萌生了构建一个庞大模型并进行训练的想法。每天都能看到各个厂家推出内测版本,这让人不禁思考:为何不在本地环境尝试一番呢?然而,当前手头仅有一块性能有限的老破小GPU显卡,这就引发了一个问题:如何在这样的条件下成功运行模型?

2023-09-01 18:23:06 26942 5

原创 FFmpeg处理音频视频

FFmpeg是一个开源的跨平台音视频处理工具和多媒体框架。它可以用于处理音频、视频、字幕等多媒体数据,支持多种音视频格式的转码、编辑、解码、编码和流媒体传输等操作。FFmpeg是由Fabrice Bellard在2000年创建的,并由全球社区持续维护和改进。视频转码:将视频从一种格式转换为另一种格式,例如将MP4转换为MKV或WebM。音频转码:将音频从一种格式转换为另一种格式,例如将WAV转换为MP3或AAC。视频剪辑和合并:对视频进行剪辑、裁剪和合并,实现视频编辑功能。

2023-08-21 21:26:01 1041 1

原创 GrammarGPT:基于监督微调的中文语法纠错开源LLMs探索

语法错误纠正(grammar Error Correction, GEC)旨在不改变句子的意思,自动纠正不符合语法的句子。在此之前研究汉语语法纠错(CGEC)主要是来自国外汉语学习者的错误,很明显这是不对的。因此,本次研究转向了母语人士的语法错误,这更加微妙和具有挑战性。以往对GEC的研究主要采用Seq2edit和Seq2seq两种方法,并在各种GEC上取得了令人印象深刻的性能基准。随着LLMs的出现,有人对闭源LLMs(如ChatGPT)的性能进行了评估,并透露了其出色的错误检测和纠正能力。

2023-08-21 21:21:19 1675 1

原创 Ubuntu20.04安装nvidia显卡驱动/CUDA/CUDNN

一、NVIDIA显卡驱动安装方式有哪些?二、安装NVIDIA三、安装CUDA四、安装CUDNN

2023-08-15 17:08:20 19096 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除