- 博客(195)
- 资源 (2)
- 收藏
- 关注
原创 ChatTTS:对话场景语音合成的开源新星
ChatTTS的出现标志着对话式TTS技术进入新阶段,其开源性为开发者提供了宝贵的实验平台。随着模型的持续迭代,期待看到更多创新应用在智能硬件、元宇宙等场景落地。建议开发者结合自身业务需求,探索其与LLM结合的语音交互新范式。想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。
2025-03-20 14:06:42
1035
原创 手把手教你在win10上下载安装miniconda3【图文详情】
Python初学者、数据科学/机器学习学习者:Miniconda是轻量版Anaconda,可快速创建Python虚拟环境并管理第三方库。
2025-03-20 12:19:41
414
原创 Spark-TTS:基于单流解耦语音标记的高效大语言模型文本转语音系统
在人工智能和语音合成技术的飞速发展中,文本转语音(TTS)系统正变得越来越智能和高效。然而,传统的TTS模型往往面临着计算复杂度高、生成速度慢以及语音质量不稳定的挑战。近日,一项名为Spark-TTS的创新研究引起了广泛关注。该研究提出了一种基于大语言模型(LLM)的高效TTS框架,通过引入单流解耦语音标记(Single-Stream Decoupled Speech Tokens),成功实现了高质量语音的快速生成。
2025-03-13 17:18:25
1045
1
原创 论文调研 | 一些开源的AI代码生成模型调研及总结【更新于250313】
大型语言模型 (LLM) 最近在测试时提供了一些示例(“小样本提示”),展示了执行算术和符号推理任务的令人印象深刻的能力。这种成功很大程度上可以归因于诸如“思维链”之类的提示方法,这些方法使用LLM来理解问题描述,将其分解为步骤,以及解决问题的每个步骤。虽然 LLM 似乎擅长这种逐步分解,但 LLM 经常在解决方案部分犯逻辑和算术错误,即使问题被正确分解。
2025-03-13 17:10:52
1015
原创 LeetCode | 从树到图:深度剖析数据结构与算法的核心精髓
在 LeetCode 的算法题中,树与图是两类不可或缺的重要数据结构。无论是探索二叉树的深度,还是解决复杂的最短路径问题,树与图的应用无处不在。它们不仅是计算机科学的基石,也是提升算法能力的关键。
2025-01-16 18:52:41
996
原创 LeetCode | 图文详细描述动态规划DP算法及经典题型
F(0)=0F(1)=1F(n)=F(n−1)+F(n−2)(当 n≥2)例:n = 211 是斐波那契数列的第 2 个数字。n = 555 是斐波那契数列的第 5 个数字。
2025-01-14 17:14:21
1992
原创 论文解析 | 基于语言模型的自主代理调查
论文 《A Survey on Large Language Model-based Autonomous Agents》 对基于大型语言模型(LLM)的自主智能体(Autonomous Agents)进行了全面调查。随着大型语言模型(如 GPT 系列、BERT、T5 等)的快速发展,研究者们开始探索如何将这些模型应用于自主智能体的构建,进而提升其在多种任务中的表现。本论文的核心内容包括 LLM 在自主智能体中的应用、挑战、未来研究方向等。
2025-01-11 23:49:37
1061
原创 AI代理 | 火热来袭:不可错过的10篇顶尖论文
它通常是从单代理的角度出发的,但越来越多地涉及多代理环境,其中智能代理根据反馈和经验调整他们的策略,有点类似于进化过程,但在他们的自我学习能力上有所不同。鉴于解决现实世界问题所需的关键组成部分,包括 (i) 学习和适应,(ii) 合作和竞争,(iii) 稳健性和稳定性,以及 (iv) 策略不断发展的个体主体的人口动态,这两个领域之间的思想交叉融合将有助于多主体学习系统的数学发展,特别是进入“集体合作智能”桥接的新兴领域进化动力学和多智能体强化学习。最后,我们讨论了我们的措施对隐私和权力集中的影响。
2025-01-11 23:46:49
1099
原创 论文解读 | GIM:互联网视频训练下的图像匹配新范式
ICLR 2024 Spotlight中厦门大学、Intel、大疆联合出品,从网络视频中学习零样本图像匹配大模型:这篇论文提出了一个名为GIM(Generalizable Image Matcher)的训练框架,它可以让匹配模型从互联网视频中学习到强泛化能力。GIM是第一个可以让匹配模型从互联网视频中学习的训练框架,以提高模型对zero-shot场景的泛化能力。论文主页:https://xuelunshen.com/gim论文地址:https://arxiv.org/abs/2402.11095。
2025-01-03 15:48:03
855
原创 论文Idea | 人工智能与建筑的交叉领域探索
人工智能与建筑领域的交叉研究正在快速发展,为建筑行业带来了诸多创新和改进机会。通过深入了解相关研究方向和最新成果,可以在这一领域找到丰富的研究资源和灵感,推动自身的学术或实践工作向前发展。想要了解更多内容,可在vx小程序搜索🔍AI Pulse,获取更多最新内容。
2024-10-13 21:02:31
1559
2
原创 Leetcode | 以二叉树,多叉树为主题的理论,真题以及图解【更新中】
前序(preorder traversal):从根节点开始,先访问当前节点,然后递归地遍历左子树,最后递归地遍历右子树。即“根-左-右”的顺序。中序遍历(inorder traversal):从根节点开始,先递归地遍历左子树,然后访问当前节点,最后递归地遍历右子树。即“左-根-右”的顺序。后序遍历(postorder traversal):从根节点开始,先递归地遍历左子树,然后递归地遍历右子树,最后访问当前节点。即“左-右-根”的顺序。
2024-04-26 16:59:18
876
1
原创 CV | 360BEV: Panoramic Semantic Mapping for Indoor Bird‘s-Eye View理解
这篇论文提出了一种名为360BEV的专用解决方案,用于从鸟瞰图像对室内场景进行全景语义映射。提出了一种从全景图像生成整体鸟瞰视图语义映射的方法,不依赖于窄视野图像或运动线索。提出模型360Mapper,可以从全景图像预测语义标签和非模态语义映射。所提出的方法在室内语义映射基准测试中取得了最佳性能,优于现有方法。
2024-04-26 14:00:20
1349
1
原创 LLM | GPT-NEOX论文详解
GPT-NEOX使用旋转位置编码。模型权重使用float16表示。最大序列长度为2048。论文题目:2022.04.14_GPT-NeoX-20B: An Open-Source Autoregressive Language Model。
2024-03-06 13:39:48
2134
原创 问题解决 | RuntimeError: CUDA error: invalid device ordinalCUDA kernel errors
RuntimeError(运行时错误): CUDA 错误:设备序号无效CUDA 内核错误可能会在其他 API 调用中异步报告,因此下面的堆栈跟踪可能不正确。为便于调试,可考虑通过 CUDA_LAUNCH_BLOCKING=1。使用 `TORCH_USE_CUDA_DSA` 进行编译,以启用设备端断言。
2024-03-04 13:41:36
5477
原创 CV | 医学影像上的图像分割模型调研【更新于20240417】
mamba相关的图像分割:VM-Unet,ManbaUnet,BRAUUnet,EGE。
2024-03-04 13:02:04
2142
原创 环境配置 |Jupyter lab/Jupyter Notebook 安装与设置
ipynb使用Jupyterlab/Jupyter Notebook 来编写程序时的文件,在使用时,可以现转换为标准的.py的python文件。
2024-02-29 07:35:57
4572
原创 CV | SAM在医学影像上的模型调研【20240223更新版】
本文主要是SAM(Segment Anything)在医学影像上的数据集,模型及评估方法调研【持续更新】~
2024-02-07 12:14:16
2271
原创 实用篇 | postman在AI模型中输入speech,text,image使用详解
postman在AI模型中输入speech,text,image使用详解
2024-01-30 15:48:35
1749
2
原创 LLM | 一些开源的AI代码生成模型调研及总结【20240130更新】
本文主要介绍主流代码生成模型,总结了基于代码生成的开源大语言模型,按照时间顺序排列。
2024-01-30 09:35:20
4653
原创 RL | 强化学习算法DDPG的理论理解及代码
深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是一种强化学习算法,主要用于解决连续动作空间的问题。
2024-01-24 16:16:25
1333
原创 生成模型 | 2024年新年新论文:audio2photoreal[正在更新中]
本博客主要包含了20240103新出的论文From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations论文解释及项目实现~
2024-01-09 14:49:45
1440
1
原创 模型量化 | Pytorch的模型量化基础
量化简介量化是指执行计算和存储的技术 位宽低于浮点精度的张量。量化模型 在张量上执行部分或全部操作,精度降低,而不是 全精度(浮点)值。这允许更紧凑的模型表示和 在许多硬件平台上使用高性能矢量化操作。与典型的 FP32 模型相比,PyTorch 支持 INT8 量化,模型大小减少 4 倍内存带宽减少 4 倍INT8 计算的硬件支持通常为 2 到 4 个 与 FP32 计算相比,速度快几倍量化主要是一种技术 加速推理,量化仅支持前向传递 运营商。PyTorch 支持多种量化深度学习模型的方法。
2023-12-27 09:45:22
2771
语音特征提取详解PPT
2023-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人