夏天｜여름이다-优快云博客

原创 ChatTTS：对话场景语音合成的开源新星

ChatTTS的出现标志着对话式TTS技术进入新阶段，其开源性为开发者提供了宝贵的实验平台。随着模型的持续迭代，期待看到更多创新应用在智能硬件、元宇宙等场景落地。建议开发者结合自身业务需求，探索其与LLM结合的语音交互新范式。想要了解更多内容，可在小程序搜索🔍AI Pulse,获取更多最新内容。

2025-03-20 14:06:42 1035

原创手把手教你在win10上下载安装miniconda3【图文详情】

Python初学者、数据科学/机器学习学习者：Miniconda是轻量版Anaconda，可快速创建Python虚拟环境并管理第三方库。

2025-03-20 12:19:41 414

原创 Spark-TTS：基于单流解耦语音标记的高效大语言模型文本转语音系统

在人工智能和语音合成技术的飞速发展中，文本转语音（TTS）系统正变得越来越智能和高效。然而，传统的TTS模型往往面临着计算复杂度高、生成速度慢以及语音质量不稳定的挑战。近日，一项名为Spark-TTS的创新研究引起了广泛关注。该研究提出了一种基于大语言模型（LLM）的高效TTS框架，通过引入单流解耦语音标记（Single-Stream Decoupled Speech Tokens），成功实现了高质量语音的快速生成。

2025-03-13 17:18:25 1045 1

原创论文调研 | 一些开源的AI代码生成模型调研及总结【更新于250313】

大型语言模型（LLM）最近在测试时提供了一些示例（“小样本提示”），展示了执行算术和符号推理任务的令人印象深刻的能力。这种成功很大程度上可以归因于诸如“思维链”之类的提示方法，这些方法使用LLM来理解问题描述，将其分解为步骤，以及解决问题的每个步骤。虽然 LLM 似乎擅长这种逐步分解，但 LLM 经常在解决方案部分犯逻辑和算术错误，即使问题被正确分解。

2025-03-13 17:10:52 1015

原创环境配置 | 5分钟极简Git入门：从零上手版本控制

从0开始掌握Git！后续可深入学习。

2025-03-12 20:01:10 397

原创从0开始，手把手教你制作一个微信小程序（图文详情）

本文从0开始，手把手教你制作一个微信小程序（图文详情），欢迎大家关注！！！

2025-03-11 12:38:40 1095

原创 LeetCode | 从树到图：深度剖析数据结构与算法的核心精髓

在 LeetCode 的算法题中，树与图是两类不可或缺的重要数据结构。无论是探索二叉树的深度，还是解决复杂的最短路径问题，树与图的应用无处不在。它们不仅是计算机科学的基石，也是提升算法能力的关键。

2025-01-16 18:52:41 996

原创 LeetCode | 栈与队列：算法入门到进阶的全解析

栈和队列作为最基础的数据结构，不仅简单直观，还在算法世界中扮演着举足轻重的角色。

2025-01-16 17:34:20 1087

原创 LeetCode | 解锁数组与字符串的秘密：经典题型详解与高效解法

存储相同数据类型的元素的线性集合。

2025-01-15 17:59:15 737

原创 LeetCode | 图文详细描述动态规划DP算法及经典题型

F(0)=0F(1)=1F(n)=F(n−1)+F(n−2)（当 n≥2）例：n = 211 是斐波那契数列的第 2 个数字。n = 555 是斐波那契数列的第 5 个数字。

2025-01-14 17:14:21 1992

原创论文解析 | 基于语言模型的自主代理调查

论文《A Survey on Large Language Model-based Autonomous Agents》对基于大型语言模型（LLM）的自主智能体（Autonomous Agents）进行了全面调查。随着大型语言模型（如 GPT 系列、BERT、T5 等）的快速发展，研究者们开始探索如何将这些模型应用于自主智能体的构建，进而提升其在多种任务中的表现。本论文的核心内容包括 LLM 在自主智能体中的应用、挑战、未来研究方向等。

2025-01-11 23:49:37 1061

原创 AI代理 | 火热来袭：不可错过的10篇顶尖论文

它通常是从单代理的角度出发的，但越来越多地涉及多代理环境，其中智能代理根据反馈和经验调整他们的策略，有点类似于进化过程，但在他们的自我学习能力上有所不同。鉴于解决现实世界问题所需的关键组成部分，包括（i）学习和适应，（ii）合作和竞争，（iii）稳健性和稳定性，以及（iv）策略不断发展的个体主体的人口动态，这两个领域之间的思想交叉融合将有助于多主体学习系统的数学发展，特别是进入“集体合作智能”桥接的新兴领域进化动力学和多智能体强化学习。最后，我们讨论了我们的措施对隐私和权力集中的影响。

2025-01-11 23:46:49 1099

原创论文解读 | GIM：互联网视频训练下的图像匹配新范式

ICLR 2024 Spotlight中厦门大学、Intel、大疆联合出品，从网络视频中学习零样本图像匹配大模型：这篇论文提出了一个名为GIM（Generalizable Image Matcher）的训练框架，它可以让匹配模型从互联网视频中学习到强泛化能力。GIM是第一个可以让匹配模型从互联网视频中学习的训练框架，以提高模型对zero-shot场景的泛化能力。论文主页：https://xuelunshen.com/gim论文地址：https://arxiv.org/abs/2402.11095。

2025-01-03 15:48:03 855

原创论文Idea | 人工智能与建筑的交叉领域探索

人工智能与建筑领域的交叉研究正在快速发展，为建筑行业带来了诸多创新和改进机会。通过深入了解相关研究方向和最新成果，可以在这一领域找到丰富的研究资源和灵感，推动自身的学术或实践工作向前发展。想要了解更多内容，可在vx小程序搜索🔍AI Pulse,获取更多最新内容。

2024-10-13 21:02:31 1559 2

原创从银幕到现实：擎天柱机器人即将改变我们的生活

擎天柱（Optimus）是《变形金刚》系列电影中的主角，如今也成为特斯拉正在开发的通用机器人。

2024-10-13 20:27:10 559

原创数据集 | 人脸公开数据集的介绍及下载地址

本文介绍了人脸相关算法的数据集。

2024-07-06 15:20:11 7531

原创 Leetcode | 以二叉树,多叉树为主题的理论,真题以及图解【更新中】

前序(preorder traversal)：从根节点开始，先访问当前节点，然后递归地遍历左子树，最后递归地遍历右子树。即“根-左-右”的顺序。中序遍历(inorder traversal)：从根节点开始，先递归地遍历左子树，然后访问当前节点，最后递归地遍历右子树。即“左-根-右”的顺序。后序遍历(postorder traversal)：从根节点开始，先递归地遍历左子树，然后递归地遍历右子树，最后访问当前节点。即“左-右-根”的顺序。

2024-04-26 16:59:18 876 1

原创 CV | 360BEV: Panoramic Semantic Mapping for Indoor Bird‘s-Eye View理解

这篇论文提出了一种名为360BEV的专用解决方案,用于从鸟瞰图像对室内场景进行全景语义映射。提出了一种从全景图像生成整体鸟瞰视图语义映射的方法,不依赖于窄视野图像或运动线索。提出模型360Mapper,可以从全景图像预测语义标签和非模态语义映射。所提出的方法在室内语义映射基准测试中取得了最佳性能,优于现有方法。

2024-04-26 14:00:20 1349 1

原创 Mamba：使用选择性状态空间的线性时间序列建模

Mamba可以代替transformer吗？

2024-04-19 17:15:52 1619

原创 CV | 室内语义建图(Semantic Image Segmentation)的调研

室内语义分割论文调研~

2024-04-19 14:27:30 834

原创 CV | FSGS使用高斯喷溅的实时少样本视图合成论文详解与项目实现

本文是对论文通过多角度照片3D建模：FSGS模型的详解与项目实现。

2024-04-18 17:07:40 1421 1

原创 LLM | Gemma的初体验

一起来体验一下吧~此型号卡对应于 Gemma 型号的 7B 指令版本。

2024-03-06 16:56:08 1652

原创 LLM | GPT-NEOX论文详解

GPT-NEOX使用旋转位置编码。模型权重使用float16表示。最大序列长度为2048。论文题目：2022.04.14_GPT-NeoX-20B: An Open-Source Autoregressive Language Model。

2024-03-06 13:39:48 2134

原创问题解决 | RuntimeError: CUDA error: invalid device ordinalCUDA kernel errors

RuntimeError（运行时错误）： CUDA 错误：设备序号无效CUDA 内核错误可能会在其他 API 调用中异步报告，因此下面的堆栈跟踪可能不正确。为便于调试，可考虑通过 CUDA_LAUNCH_BLOCKING=1。使用 `TORCH_USE_CUDA_DSA` 进行编译，以启用设备端断言。

2024-03-04 13:41:36 5477

原创 CV | 医学影像上的图像分割模型调研【更新于20240417】

mamba相关的图像分割：VM-Unet,ManbaUnet,BRAUUnet,EGE。

2024-03-04 13:02:04 2142

原创环境配置 |Jupyter lab/Jupyter Notebook 安装与设置

ipynb使用Jupyterlab/Jupyter Notebook 来编写程序时的文件,在使用时,可以现转换为标准的.py的python文件。

2024-02-29 07:35:57 4572

原创 CV | Segment Anything论文详解及代码实现

本文主要是详解解释了SAM的论文部分以及代码实现~

2024-02-16 14:27:30 2579 2

原创 YOLO | YOLO-World论文详解

腾讯出的热气腾腾的论文YOLO-World来啦~

2024-02-16 09:14:48 7205

原创 CV | Medical-SAM-Adapter论文详解及项目实现

本文主要讲解Medical-SAM-Adapter论文及项目实现~

2024-02-07 16:00:12 3763 5

原创 CV | SAM在医学影像上的模型调研【20240223更新版】

本文主要是SAM（Segment Anything）在医学影像上的数据集，模型及评估方法调研【持续更新】~

2024-02-07 12:14:16 2271

原创实用篇 | postman在AI模型中输入speech,text,image使用详解

postman在AI模型中输入speech,text,image使用详解

2024-01-30 15:48:35 1749 2

原创 LLM | 一些开源的AI代码生成模型调研及总结【20240130更新】

本文主要介绍主流代码生成模型，总结了基于代码生成的开源大语言模型，按照时间顺序排列。

2024-01-30 09:35:20 4653

原创 RL | 强化学习算法DDPG的理论理解及代码

深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）是一种强化学习算法，主要用于解决连续动作空间的问题。

2024-01-24 16:16:25 1333

原创 Speech | 人工智能中关于语音务必需要了解的基础知识(信号处理)及代码

语音信号知识点总结！

2024-01-24 14:39:40 1518

原创 Speech | 语音克隆Openvoice的论文解读及项目实现

本文主要介绍了语音克隆Openvoice的论文以及项目实现~

2024-01-10 08:19:05 2370 1

原创生成模型 | 2024年新年新论文：audio2photoreal[正在更新中]

本博客主要包含了20240103新出的论文From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations论文解释及项目实现~

2024-01-09 14:49:45 1440 1

原创 Speech | 人工智能中语音质量评估方法详解及代码

本文主要讲解人工智能中语音合成，语音转换，语音克隆等生成语音的一些质量评估方法~

2024-01-08 15:22:00 9030

原创生成模型 | GAN系列生成系列论文及代码调研总结

本文主要讲解生成模型中的GAN系列相关模型，模型之间的差异对比~

2024-01-02 17:24:23 1537

原创 TTS | NaturalSpeech语音合成论文详解及项目实现【正在更新中】

本文主要是讲解了NaturalSpeech论文及项目~

2024-01-02 16:07:44 2796 1

原创模型量化 | Pytorch的模型量化基础

量化简介量化是指执行计算和存储的技术位宽低于浮点精度的张量。量化模型在张量上执行部分或全部操作，精度降低，而不是全精度（浮点）值。这允许更紧凑的模型表示和在许多硬件平台上使用高性能矢量化操作。与典型的 FP32 模型相比，PyTorch 支持 INT8 量化，模型大小减少 4 倍内存带宽减少 4 倍INT8 计算的硬件支持通常为 2 到 4 个与 FP32 计算相比，速度快几倍量化主要是一种技术加速推理，量化仅支持前向传递运营商。PyTorch 支持多种量化深度学习模型的方法。

2023-12-27 09:45:22 2771

Emogen训练后的权重文件

语音特征提取详解PPT

netron.exe双击直接使用

目标检测yolov5.6版本的压缩版

空空如也