
人工智能(AI)
文章平均质量分 88
分享关于人工智能的内容
甄齐才
倚楼听风雨,淡看江湖路。qiucode.cn
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从零样本到跨场景:Seed-VC语音转换技术的革命性突破
(每位说话人仅需1条语音)让个性化声音克隆门槛大幅降低。据预测,到2030年,语音转换市场将突破10亿美元,而零样本技术将成为主流。Seed-VC不仅是一项技术突破,更是一场关于声音表达的革命。它让每个人都能低成本拥有“声音分身”,重新定义了创作、沟通与身份表达的边界。正如开发者所言:“我们的目标是让任何声音都能被自由塑造,就像文字一样。原创 2025-04-18 23:08:09 · 1569 阅读 · 0 评论 -
大语音模型轻量化革命:MegaTTS3 如何重新定义文本生成语音的技术边界(windows篇)
传统语音合成技术受限于高昂的数据需求和庞大的模型参数规模,难以实现个性化语音的实时生成。而字节跳动与浙江大学联合推出的,以其和能力,打破了这一僵局。作为首个完全开源的高效语音生成模型,MegaTTS3 不仅支持中英双语无缝切换,还能通过短短几秒的音频样本克隆音色,甚至灵活调整口音强度,堪称语音合成领域的“瑞士军刀”MegaTTS3的核心架构融合了与的优势,通过模块化设计实现语音属性的精准解耦与控制。原创 2025-04-10 22:42:03 · 786 阅读 · 0 评论 -
阿里开源了端到端全模态大模型Qwen-2.5-Omni-7B之本地部署(windows篇)
阿里千问团队开源了到端全模态大模型,一时之间,炸燃了AI界。而这次千问团队开源的,可谓是将看、听、读及写集于一身的全能型的大模型。原创 2025-03-29 21:44:21 · 2419 阅读 · 0 评论 -
语音识别之whisper本地部署(实时语音之开篇)
Whisper是由OpenAI开发的开源语音识别模型,以其著称。它通过68万小时的多语言、多任务数据训练,覆盖100+语言,支持语音转录、翻译和语言检测,成为目前最通用的语音识别工具之一。原创 2025-03-25 22:26:41 · 1580 阅读 · 0 评论 -
甭管是个人还是企业都能部署的Mistral-Small3.1,远超同级别的模型
这不Gemma3刚开源出来,立马炸裂了整个“科技界”,还没等它把“热度”持续火下去,却再次掀起了“科技界”的热度。是Mistral AI推出的240亿参数开源多模态模型,基于。原创 2025-03-19 22:23:26 · 860 阅读 · 1 评论 -
文生音乐开源项目DiffRhythm,8G显存本地部署之Windows篇
DiffRhythm是由西北工业大学音频语音与语言处理实验室(ASLP@NPU)与香港中文大学(深圳)联合开发的开源音乐生成模型,其采用**全扩散架构**,能够在**10秒内生成4分45秒**的高质量双轨立体声音乐(包含人声与伴奏) 。该模型以**非自回归结构**实现极速推理,支持纯文字风格描述生成音乐(如"Jazzy Nightclub Vibe"或"Arctic research station, theremin auroras"等创意场景) ,且最低仅需**8GB显存**即可本地部署。原创 2025-03-15 23:00:23 · 1957 阅读 · 0 评论 -
阿里QwQ-32B本地部署指南:用Ollama轻松运行320亿参数大模型
在本地电脑硬件条件有限情况下,只能部署些参数小点的模型,虽然很多平台也提供了免登录,可以在线把玩满血版的DeepSeek。可我们总是寄望于国内外的这些大厂,能够训练出一个参数小点,且又能比肩。这不,阿里推出了一款可以媲美(671B)的小参数模型——QwQ-32B。QwQ-32BQwQ-32B小钢炮撼动了的“江湖地位”。甭管是QwQ团队的测评结果,还是来自“民间”的吹捧。最终,我们总得自己亲身部署了,方知这款小钢炮是否真的能比肩呢?原创 2025-03-13 21:15:01 · 814 阅读 · 0 评论 -
基于Qwen2.5大模型的Spark-TTS,零样本语音克隆,CPU可运行之本地部署(Windows篇)
在人工智能时代,语音合成()技术已成为人机交互的核心组件之一。然而,传统系统长期受限于多阶段架构复杂、语音控制能力弱、跨语言表现差等问题。原创 2025-03-10 22:38:56 · 3633 阅读 · 0 评论 -
智谱开源了文生图CogView4-6B模型,支持中文提示词之本地部署(Windows篇)
在文生图这个领域里,甭管是开源的,还是闭源的在线绘图平台Midjourney,一度都是不支持中文提示词。连prompt都不支持中文,就别提想要在图中写入中文。虽然SD3.5Midjourney等优秀绘画模型不支持中文提示词,但国内各大厂商一直致力于中文提示词。是智谱AI(Zhipu AI)推出的文生图模型,通过结合文本与图像的跨模态生成技术,在中文场景下展现出显著优势。原创 2025-03-07 22:23:31 · 1454 阅读 · 0 评论 -
基于歌词生成整首歌的开源AI音乐模型,支持中、英、日、韩等多种语言,本地化部署YuE(windows篇)
YuE。YuE需要大量GPU来生成长序列。以下是推荐的配置:对于具有24GB或更少的GPU:运行最多 2 个会话以避免内存不足 (OOM) 错误。对于完整的歌曲生成(许多会话,例如 4 个或更多):使用具有至少80GB的GPU。即H800A100或具有张量并行的多个RTX4090。要自定义会话数,界面允许您指定所需的会话数。默认情况下,模型运行 2 个会话(1 节 + 1 合唱)以避免OOM问题。在H800 GPU上,生成 30 秒的音频需要 150 秒。在。原创 2025-03-05 22:18:38 · 1487 阅读 · 0 评论 -
阿里云开源的文生视频万相 Wan2.1之本地部署Wan2.1-T2V-1.3B模型
阿里云开源了其视频生成大模型Wan2.1(万相),采用了较为宽松的Apache2.0协议。而这次对外了1.3B(极速版)和14B(专业版)两个参数规格的权重,及推理的全部代码。这两种模型均支持文生视频(T2V)和图生视频(I2V)任务。14B版本在权威评测集VBench中以86.22%总分超越SoraLuma等国内外模型;1.3B版本可在消费级显卡运行(仅需8.2GB显存生成480P视频),适合二次开发和研究。复杂运动生成:精准模拟人物旋转、跳跃、翻滚等动作,支持高级运镜控制物理规律建模。原创 2025-03-01 22:51:46 · 1935 阅读 · 1 评论 -
互动式开源AI图像编辑神器,Windows11本地部署MagicQuill
曾几何时,我们想要对图片进行PS,那可是难为了我们这般PS门外汉。然而,MagicQuill这款开源的图像元素修改,可算是解救了我们这些PS小白啊。那么,现在我们就可以在自己电脑部署这款开源的图像编辑神器。但想要在本地电脑部署这款开源的AI图像编辑神器,你的电脑显存要大于12G(虽然官方说是8G),预留硬盘空间在40G(模型就有30G),CUDA版本得在12.1或更高。原创 2025-02-25 23:10:33 · 1127 阅读 · 0 评论 -
本地部署Qwen2.5-VL-7B-Instruct多模态视觉大模型(Windows篇)
Qwen2.5-VL是阿里云推出的开源多模态大模型,支持等功能。较上一个版本Qwen2-VL有质的飞越,Qwen2.5-VL通过动态分辨率适配和窗口注意力机制,显著降低显存占用并提升推理速度,72B模型在单卡A100上推理速度提升30%。身在AI这股浪潮中,只要本地电脑硬件条件允许的话,我都会尝试着去部署优秀的开源大模型。说到开源大模型,相对而言的就是闭源大模型,我们在脑海中很自然地浮现出国外的OPENAI,以及国内的百度,也就是李彦宏。原创 2025-02-23 23:09:32 · 10023 阅读 · 13 评论 -
本地部署 Stable Diffusion 3.5(最新 ComfyUI记录篇)
当你在看到文章标题,以及发布时间时,想必你是不会继续浏览下去的,这一点,是可以理解的,换做是我,也会做出同样的抉择。既然如此,而又为什么又要写这篇文章呢?其一,之所以没能在发布时,在本地电脑部署它,那是因为彼时的老破电脑是不足以安装它的。其二,赤巨资购买了可以把玩的高配电脑,这才想要在新电脑中部署这个文生图大模型,故此,将本地部署过程记录下。原创 2025-02-03 19:36:00 · 1928 阅读 · 0 评论 -
错误分析 (Machine Learning研习十九)
模型在处理 5 的图像时最常见的错误是将其误判为 8:在所有 5 的图像中,有 10%的图像被误判为 8。我们可能很难理解分类器为什么会犯这样的错误,但请记住,人脑是一个神奇的模式识别系统,我们的视觉系统会在任何信息到达我们的意识之前进行大量复杂的预处理。例如,你可以尝试收集更多看起来像 8 但不是 8 的数字的训练数据,这样分类器就能学会将它们与真正的 8 区分开来。或者,你也可以设计新的特征来帮助分类器–例如,编写一种算法来计算闭合循环的数量(例如,8 有两个,6 有一个,5 没有)。原创 2024-04-10 14:11:48 · 1174 阅读 · 0 评论 -
多类别分类器(Machine Learning研习十八)
OvO 的主要优势在于,每个分类器只需在训练集中包含其必须区分的两个类别的部分进行训练。可以看出,分类器对自己的预测不是很有信心:几乎所有的分数都非常负面,而第 3 类的分数为 +1,824 分,第 5 类也不差,为 -1,386 分。要创建一个能将数字图像分为 10 类(从 0 到 9)的系统,一种方法是训练 10 个二进制分类器,每个数字一个(0-检测器、1-检测器、2-检测器,以此类推)。然后,当您想对一幅图像进行分类时,您可以从每个分类器中得到该图像的判定分数,然后选择分类器输出分数最高的类别。原创 2024-04-03 15:44:40 · 1733 阅读 · 0 评论 -
绘制特征曲线-ROC(Machine Learning 研习十七)
它与精确度/召回率曲线非常相似,但 ROC 曲线不是绘制精确度与召回率的关系曲线,而是绘制真阳性率(召回率的另一个名称)与假阳性率(FPR)的关系曲线。例如,如果您查看所有被模型归类为阳性的图像,估计概率在 50%-60%之间,那么其中大约 94% 的图像实际上是阳性的。因此,在这种情况下,模型的估计概率太低了,但模型也可能过于自信。现在,您已经知道如何训练二元分类器、为任务选择合适的指标、使用交叉验证评估分类器、选择适合您需要的精确度/召回率权衡,以及使用多种指标和曲线来比较各种模型。原创 2024-03-29 11:42:40 · 1364 阅读 · 0 评论 -
精确率(召回率)的权衡(Machine Learning研习十六)
因此,使用该阈值,精度为 80%(5 分之 4)。但在 6 个实际的 5 中,分类器仅检测到 4 个,因此召回率为 67%(6 中的 4)。如果提高阈值(将其移动到右侧的箭头),假阳性(6)会变成真阴性,从而提高精度(在本例中高达 100%),但一个真阳性会变成假阴性 ,将召回率降低至 50%。正如您所看到的,创建具有几乎任何您想要的精度的分类器相当容易:只需设置足够高的阈值,就可以了。该图像实际上代表的是 5,当阈值为 0 时分类器会检测到它,但当阈值增加到 3,000 时分类器会错过它。原创 2024-03-21 19:43:49 · 1045 阅读 · 0 评论 -
对模型性能进行评估(Machine Learning 研习十五)
在上一篇我们已然训练了一个用于对数字图像识别的模型,但我们目前还不知道该模型在识别数字图像效率如何?所以,本文将对该模型进行评估。原创 2024-03-15 18:26:43 · 1025 阅读 · 0 评论 -
图像识别之入门案例之数字识别(Machine Learning 研习十四)
在前面的文章中,我们曾提到最为常见的监督学习任务是回归(预测价值)和分类(预测类别)。我们使用线性回归决策树和随机森林等各种算法探讨了回归任务,即预测房屋价值。现在,我们将把注意力转向分类系统。原创 2024-03-15 17:48:03 · 1281 阅读 · 0 评论 -
微调模型——续(Machine Learning 研习之十三)
现在是项目预启动阶段:您需要展示您的解决方案(突出显示您所学到的内容、有效的内容和无效的内容、做出的假设以及系统的局限性),记录所有内容,并使用以下内容创建精美的演示文稿: 清晰的可视化和易于记忆的陈述(例如,“收入中位数是房价的第一预测指标”)。在这个加州住房示例中,系统的最终性能并不比专家的价格估计好多少,专家的价格估计通常会下降 30%,但启动它可能仍然是一个好主意,特别是如果这样可以释放更多资金 给专家一些时间,以便他们可以从事更有趣、更有成效的任务。如果您监控模型的输入,您可能会更早发现这一点。原创 2024-03-09 17:45:01 · 1099 阅读 · 0 评论 -
微调模型(Machine Learning 研习之十二)
现在正处于百模乱战的时期,对于模型微调,想必您是有所了解了,毕竟国外的大语言模型一开源,国内便纷纷基于该模型进行微调,从而开始宣称领先于某某、超越了谁。可到头来,却让人发现他们套壳了国外大语言模型对外开放的API。好了,我们不说国内各种大模型宣称超过了谁,毕竟,嘴巴长在别人脸上,我们管不了,也管不着,吹牛终将是会露馅的!当我们需要对开源大模型进行微调时,看看有几种方法可以做到这一点的!原创 2024-03-09 14:59:44 · 962 阅读 · 0 评论 -
选择和训练模型(Machine Learning 研习之十一)
当您看到本文标题时,不禁感叹,总算是到了训练模型这一节了。是啊,在之前的文章中,我们对数据进行了探索,以及对一个训练集和一个测试集进行了采样,也编写了一个预处理管道来自动清理,准备您的数据用于机器学习算法,然而现在,我们可以选择并训练模型了。原创 2024-01-14 14:56:25 · 1146 阅读 · 0 评论 -
端到端的机器学习项目之探索数据(Machine Learning 研习之七)
本篇其实是承接上一篇内容,之所以没在上一篇将它写完,那是有原因的,毕竟,本着学习的态度,篇幅不应过长,方能使你有学习的欲望!原创 2023-10-24 19:30:00 · 217 阅读 · 0 评论 -
机器学习中的 Transformation Pipelines(Machine Learning 研习之十)
由于列出所有的列名不是很方便,Scikit-Learn提供了一个make_column_selector()函数,该函数返回一个选择器函数,您可以使用它来自动选择给定类型的所有特性,例如数值型或类别型。最后,我们构造了一个列变换器。它的构造函数需要一个三元组(3-tuple)列表,每个三元组包含一个名称(必须是唯一的且不包含双下划线)、一个转换器和一个应该应用转换器的列的名称(或索引)列表。例如,管道[1]返回管道中的第二个估计值,管道[:-1]返回一个包含除最后一个估计值以外的所有估计值的管道对象。原创 2023-12-11 20:15:00 · 1422 阅读 · 0 评论 -
特征缩放和转换以及自定义Transformers(Machine Learning 研习之九)
虽然Scikit-Learn提供了许多有用的转换器,但您需要编写自己的任务,如自定义转换、清理操作或组合特定属性。对于不需要任何训练的转换,您可以只编写一个函数,该函数接受NumPy数组作为输入,并输出转换后的数组。例如,如前一节所述,通过将具有重尾分布的特征替换为它们的对数(假设特征为正数且尾部位于右侧),通常是一个好主意。inverse_func参数是可选的。它允许您指定一个逆变换函数,例如,如果您计划在TransformedTargetRegressor中使用您的转换器。原创 2023-11-18 20:53:29 · 1094 阅读 · 2 评论 -
为机器学习算法准备数据(Machine Learning 研习之八)
在为机器学习算法准备数据之前,您可能需要做的最后一件事是尝试各种属性组合。例如,如果你不知道一个地区有多少住户,那么这个地区的房间总数就不是很有用。你真正想要的是每个家庭的房间数量。同样,卧室总数本身也不是很有用:你可能想对比一下房间的数量。原创 2023-11-05 11:30:06 · 462 阅读 · 0 评论 -
端到端的机器学习项目(Machine Learning 研习之六)
最后,没有连续的数据流进入系统,没有特别的需要来适应快速变化的数据,数据足够小,可以放入内存中,所以普通的批处理学习应该做得很好。这是事实,但你的大脑是一个令人惊奇的模式检测系统,这也意味着它很容易过度拟合:如果你查看测试集,你可能会在测试数据中偶然发现一些看似有趣的模式,从而引导你选择 一种特殊的机器学习模型。如您所见,使用分层抽样生成的测试集的收入类别比例几乎与完整数据集中的收入类别比例相同,而使用纯粹随机抽样生成的测试集是倾斜的。果这是不可能的,那么你可以尝试使用最稳定的功能来建立一个唯一的标识符。原创 2023-10-14 16:55:09 · 739 阅读 · 0 评论 -
机器学习的测试和验证(Machine Learning 研习之五)
在此保留验证过程之后,您可以在完整的训练集(包括验证集)上训练最佳模型,这将为您提供最终模型。在这种情况下,需要记住的最重要的规则是,验证集和测试集都必须尽可能具有生产中预期使用的数据的代表性,因此它们应该完全由有代表性的图片组成:您可以对它们进行洗牌,将一半放在验证集中,另一半放在测试集中(确保在这两个集合中都没有重复或接近重复的数据)。在网络图片上对模型进行培训之后,如果您观察到模型在验证集上的性能令人失望,您将不知道这是因为您的模型超出了培训集,还是仅仅是由于网络图片和移动应用程序图片之间的不匹配。原创 2023-08-26 14:39:38 · 648 阅读 · 0 评论 -
现实生活中机器学习的具体示例(Machine Learning 研习之二)
这些算法尝试保留尽可能多的结构(例如,尝试保持输入空间中的单独簇在可视化中不重叠),以便您可以了解数据的组织方式,并可能识别出意想不到的模式。它可能会注意到,40% 的访问者是喜欢漫画书并通常在放学后阅读您的博客的青少年,而 20% 是喜欢科幻小说并在周末访问的成年人。的一个分支,训练代理(例如机器人)来选择随着时间的推移最大化其奖励的操作(例如,机器人可能会获得奖励) 每当玩家在给定环境(例如游戏)内失去一些生命值时。当然咯,这些标准并不是固化不变的,您总是可以按您自己喜欢的任何方式随意的组合它们。原创 2023-07-22 16:48:18 · 1033 阅读 · 0 评论 -
让机器学习不再是过门不入,带您一起详解机器学习(机器学习 Machine Learning 研习之一)
让机器学习不再是过门不入,跟着【秋码】一起研习机器学习(Machine Learning),探究什么是机器学习?以及为何我们要去使用机器学习呢?毕竟未来是属于人工智能(Ai)的,引领潮流的往往是新事物,这一次,您可不要再错过了!抓住它,就等于握住了穿梭未来的时光机。原创 2023-07-15 16:59:02 · 237 阅读 · 0 评论 -
两个月前发布的文章,好端端地审核未通过了,不知优快云在搞什么鬼啊!
今天突然发现这篇两个月发布的文章,突然被”审核未通过“,这优快云抽风了,还是这么了,文中也只是教授大家如何注册很火的ChatGPT。原创 2023-02-15 19:49:48 · 430 阅读 · 1 评论