q_q王-优快云博客

原创脑洞大开，将文本存入视频中

发现一个脑洞大开的项目memvid，作者为pdf文件占用空间太大，突发奇想将10000个pdf文件中的文本存到了二维码中，再将二维码压缩成了视频帧存放到视频中，大大减少了空间的占用，同时也有效提升了检索的时间。这个是要从huggingface上面下载模型文件，连接超时了，没关系，咱们把huggingface的代理加到代码中。大家在体验的过程中有遇到什么问题，或者有什么想复现的项目欢迎私信、留言，大家一起讨论学习，共同成长。参考作者的视频是先跑examples/book-chat.py，先来试试这个。

2025-06-05 11:22:08 172

原创一键试衣，6G显存可跑

先来看下效果，使用动画人物也可换衣，但是运动装全身图像效果不是很好，我就不展示了，感兴趣的小伙伴可以亲自去尝试下。大家在搭建的过程中有什么问题，或者有什么想实现的功能欢迎留言讨论，大家一起学习、进步。模型文件已下载好，后台回复“CatVTON” 可拿到demo中的工作流和模型文件。1、首先去comfyui manager中下载该插件,comfyui可参考。衣服可以在购物网站上下载一张，人物可以是自己的照片。发现一个好玩的一键换衣的工作流，推荐给大家。作者参考的是开源项目，做成了工作流形式。

2025-06-04 15:40:13 229

原创 Fooocus 一款好用的文生图软件，4G显存可跑

Fooocus 是一款对标**Midjourney**的图像生成软件，并且可以本地部署，目前star数量已经来到了45.2k，说明非常受大家欢迎的。点击run.bat后如果没有模型文件，会默认下载模型文件，下载完成后自动打开网页。看下效果"a flying gril, Ghibli style"针对不同的显卡，要求的显存不同，20以上的显卡只需4G即可运行。软件还内置了几十种风格，默认勾选了三种风格，可根据自己需要勾选。win有一键安装包，下载后解压点击run.bat即可。看下软件对硬件的要求。

2025-06-03 16:02:52 133

原创字节开源BAGEL可文生图、图像理解、图像编辑

BAGEL是由字节跳动开源的通用多模态大模型，一个原生支持多模态输入输出 + 思维链推理 + MoE 架构优化的跨模态超级 AI。说没没有安装torch，好，那我先去官方安装torch。安装好torch后再去安装requirements.txt中的各个包，这次顺利安装。安装好后将上面下载好的模型文件复制到comfyui的models/bagel下面。又报错了，但是这次是显存不够，我的24G显存竟然带不起来，尴尬了。下载速度还是很快的，但是就是模型文件太大了。摸索了半天，直接降低版本就可以了。

2025-05-29 11:41:25 313

原创 PairDrop像苹果电脑一样的跨设备传输工具

我平时传输文件都是通过微信传输助手，看到什么好看的文章，发送文件都是通过微信传。有时候会在别人的电脑上面传输文件，那就通过网页版传输助手传输，感觉这样跨设备传输还比较方便，但是微信文件传输助手有大小限制，怎么办呢？PairDrop，一款跨设备文件传输工具，就像苹果设备一样，可以直接在不同设备之间传输文件，github上面已经7.3Kstar了。pairDrop在本地部署的话可以局域网内传输，当然若要在互联网上面传输将地址映射互联网就可以了，而且没有200M的限制。直接下载下来了，还不错。

2025-05-28 09:37:34 256

原创 minerU,PDF文件转markdown神器

minerU是由上海AI实验室OpenDataLab团队研发的智能数据提取工具，可以一键将pdf文档转换为josn或者markdown文档，效果不错，今天咱们来体验下。检查了一圈，哦...原来漏了一步，忘记装pytorch了。这就是我搭建测试的整个过程，大家在搭建的过程中有遇到什么问题，或者有什么想实现的功能欢迎公众号留言，大家一起讨论学习。4、下载模型文件，需要从modelscope上面下载，先安装modelscope。进入到demo/pdfs文件下面，里面有提供的demo，可以测试用。

2025-05-27 09:35:22 261

原创一键文本生成图像

FLUX 模型是由 Black Forest Labs 团队推出的一系列文本生成图像模型，lack Forest Labs（黑森林实验室）是一家由Stable Diffusion原班人马创立的AI研究机构，专注于开发图像与视频生成模型。如果大家在搭建的过程中有遇到什么问题，或者有什么想实现的功能，欢迎公众号留言，大家一起讨论学习。提示词很重要，提示词很重要，提示词很重要。2、点击工作流-->打开，打开刚刚保存的json文件。生成速度还是很快的，换个其他的试试。，也可以安装win版的，都可以。

2025-05-26 09:40:17 149

原创 BiliNote帮你总结视频内容的工具

BiliNote，可利用大模型自动总结视频内容，并且可以降内容以markdown形式导出，目前支持B站，Yutube，快手，抖音，本地视频。如果有本地部署的ollama，可以添加ollama，点击测试连通性，测试成功就可以在下方添加大模型了。大家在搭建的过程中有遇到什么问题，或者有什么好玩的项目想复现可以公众号留言，大家一起讨论学习。4、看到8000端口启动起来了就说明启动成功了，接着浏览器打开前端页面。2、支持docker部署，咱们就用docker试下。哈哈，效果不错，想体验的大家可以去试下。

2025-05-23 10:03:09 336

原创 DICE-Talk备情感表达的数字人工具

我的cuda版本为12.4，所以下载的如下版本。GitHub上面复现的是2.2.2版本的，不过没关系，2.4.1版本的我也复现成功了。由复旦大学与腾讯联合研发的DICE-Talk说话人视频生成工具于近日正式发布，生成数字人视频的时候可以带情感、表情。5、接着下载huggingface上面的模型文件了，如果连接不上huggingface可以先设置代理。大家在复现的过程中有遇到什么问题，或者有什么想复现的项目欢迎公众号留言。2、创建环境，后台回复“conda”可拿到我已经下载好的anaconda网盘链接。

2025-05-22 09:30:33 158

原创手搭一个自己的mcp服务

前面写了好几篇关于mcp的文章了，但是如果想利用mcp实现自己的业务需求怎么办呢？没关系，亲手搭建一个自己的mcp服务，今天咱们就来自己实践一下。上网搜了一下，自己搭建mcp服务有基于前端node.js的，有基于java的，有基于python的。修改自己启动的mcp服务，点击connect，连接成功后点击tools就可以查看自己的mcp服务了。如果大家在搭建的过程中有什么问题，或者有什么想实现的功能欢迎公众号留言，大家一起讨论学习。5、这些没问题了，咱们以高德的天气查询为例来自己写个天气查询的mcp服务。

2025-05-21 11:29:23 428

原创 sonic一张人物图片和音频生成面部表情和动作视频

Sonic是由腾讯和浙江大学联合开发的开源数字人技术框架。它能够通过音频驱动肖像图片生成生动的面部表情和口型动作，从而制作出高度逼真的数字人口播视频，广泛应用于虚拟主播、数字客服等场景，具有高效、低成本的特点。

2025-05-19 10:40:16 233

原创 MCP数据库服务接入dify，让你的智能体操作数据库

MCP数据库服务接入dify，让你的智能体操作数据库

2025-05-14 10:23:27 619

原创 LLaMA-Factory训练自己的大模型

LLaMA Factory 是一个简单易用且高效的大型语言模型（Large Language Model）训练与微调平台。通过 LLaMA Factory，可以在无需编写任何代码的前提下，在本地完成上百种预训练模型的微调。

2025-05-13 09:28:56 229

原创 Ubuntu源码版comfyui的安装

Comfyui也出桌面版了，但是想让大家多个人都使用怎么办呢？也有方法，安装Linux版，启动后会生成个网页地址，打开就能用了。

2025-05-12 11:13:48 288

原创 ‌FunASR‌阿里开源的语音识别工具

FunASR‌是一个由阿里云智能团队开源的语音识别工具。它旨在通过发布工业级语音识别模型的训练和微调，促进学术研究和工业应用之间的交流，推动语音识别生态的发展‌。

2025-05-09 10:06:17 387

原创实时语音翻译seamless-streaming，支持100多个国家语言

facebook也推出了实时语音翻译系统，支持一百多个国家语音，经实测效果很不错，使用了5G左右显存。

2025-05-08 11:06:59 353

原创 seamless_communication，facebook推出的开源语音翻译项目

Seamless Communication‌是由Facebook Research开发的一个开源项目，旨在提供先进的语音和文本翻译功能，支持多国语音。

2025-05-07 10:29:44 237

原创 Animate-X 让你的图像动起来

Animate-X是由阿里巴巴出的通用角色动画生成项目：上传一张静态图像跟动作视频，就能让静态图像模仿动作视频的动作动起来，不仅支持对人类角色，还适用于拟人角色。

2025-05-06 09:06:33 357 2

原创 EchoMimic 阿里开源数字人项目的复现过程

EchoMimic 是一个由阿里巴巴蚂蚁集团开发的开源AI 数字人项目，通过可编辑地标调节实现逼真的音频驱动肖像动画，它能够将静态图像转化为具有动态语音和表情的数字人像。

2025-04-30 12:18:28 510 2

原创本地知识库工具FASTGPT的安装与搭建

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，将智能对话与可视化编排完美结合，让 AI 应用开发变得简单自然。

2025-04-29 12:29:10 513 2

原创数字人Live_Talking的搭建和使用

Live_Talking是一个实时交互流式数字人，可以实现音视频同步对话。今天咱们来试着部署一下项目。

2025-04-28 11:29:51 561 2

原创实时数字人awesome-digital-human-live2d的搭建和对接dify

awesome-digital-human-live2d是一个轻量级开源实时数字人项目，对配置要求不高。搭建过程也比较简单。

2025-04-27 14:09:59 687

原创 dify对接飞书云文档，并且将图片传入飞书文档

dify对接飞书，将聊天内容展示到飞书，并且带图片

2025-04-25 08:59:02 516

原创实时数字人——DH_LIVE

DH_LIVE一个实时数字人解决方案，从输入文字到数字人对口型说话用时2-3秒。

2025-04-24 12:19:27 654

原创 MySQL_MCP_Server_pro接入cherry_studio实现大模型操作数据库

大模型直接与数据库交互，实现基本增删改查操作

2025-04-22 17:17:37 572

原创实时对话数字人VideoChat

实时对话数字人VideoChat是由阿里达摩院开源的一个实时数字人对话。经实测，效果还不错，每次对话数字人生成视频的时间大致在6-8秒钟，今天将环境搭建步骤及遇到的问题整理下

2025-04-21 17:41:01 651 2

原创 vscode、cherry studio接入高德mcp服务

总结：感觉mcp服务就是大模型将你的自然语言转换为api识别的参数，然后调取相关服务的api，不用自己写代码调用api了。先不管它，点击上面的mcp服务，选择install，点击下方按钮configure mcp servers，然后将配置文件填进去。选择聊天界面，选择需要使用的大模型。有本地的可以添加本地的，没有本地的可以添加各大平台在线的。最近mcp协议比较火，好多平台都已经开通了mcp协议，今天来接入下高德的mcp看看效果如何。哈哈，不用咱们自己调用高德api的接口了，大模型帮咱们调用了。

2025-04-18 17:19:48 750 4

原创 dify接入Ollama和Xinference

Xinference 和 Ollama 都是用于本地部署和运行大模型的开源工具，今天来讲下如何本地部署这两个工具。

2025-04-16 17:23:18 519

原创 dify的本地部署和遇到的问题

目前市面上建立本地知识库的系统、软件有很多，像dify、fastgpt、cherry_studio等等等等，今天来亲自实验下本地安装dify，和在安装过程中遇到的问题及解决方法。

2025-04-15 12:13:40 457

原创 Ubuntu上docker、docker-compose的安装

Ubuntu上docker、docker-compose的安装

2025-04-14 16:50:28 459

原创 Ubuntu 安装 deepspeed

Ubuntu 安装 deepspeed

2024-03-05 10:54:55 1973

原创 Ubuntu 安装cuda和遇到的问题

（1） cuda的驱动安装，我刚开始是直接默认的勾选，但是总是报错，去报错提示下面查看报错日志，提示的是版本不匹配，调整版本也不行，后来直接使用其他方法安装驱动成功，再安装nvidia的run文件的时候没有勾选驱动的安装。（2）安装成功后使用nvcc -V 查看安装的cuda版本，发现安装的版本为cuda 10，但是我明明安装的是cuda 11.7，我又重新安装了一半，还是cuda10，又把驱动卸载后重新安装，还是不行，最后重启了下服务，再次用nvcc 查看，发现显示的正确了。在文件最下方添加如下配置。

2024-02-27 11:30:00 697

原创记录一次后端报错：No space left on device

后端报错 No space left on device

2024-02-19 13:51:35 340 1

原创利用Nginx搭建自己的rtmp服务器

利用NGINX搭建自己的rtmp服务器

2024-01-26 14:52:50 6571 16

原创大疆机场开发五（直播功能和遇到的问题）

对接无人机，一个很重要的功能就是实时直播功能，demo也很贴心的为我们提供了对接方式，目前机场支持声网直播、rtmp直播、rtsp直播、28281对接方式，在此给大家介绍下各个直播的对接方式和在对接中遇到的问题。2.3 因为要对接第三方，第三方需要一个直播的视频流URL，对接的声网web没有这个URL，需要调用声网rdc直播（收费），或者使用28281或者rtmp直播生成一个播放的URL。1、GB28281是摄像头国标对接方式，若用此方式对接，首先需要一个能接入28281摄像头的平台。

2024-01-23 16:10:47 4062 19

原创大疆机场开发四（画航线）

大疆的demo中没有带画航线的功能，目前有两个方法，一是在遥控器或者司空2等平台画好航线后下载，将航线导入到自己平台里面。看完这些相信大家就有一定的思路了，只需要安装这些字段生成生成templete.kml，waylines.wpml文件，最后一起压缩成kmz文件即可。前端只需将文件必须元素值传给后端即可，后端zip生成文件，替换zip后缀为kmz，上传文件服务器。简单来说，kmz就是一个压缩包文件，里面包含了一个wpmz的文件夹，文件夹里面有两个文件，一个。

2024-01-21 16:09:53 4229 11

原创 git启动失败502问题排查和解决

git服务502问题排查与解决

2024-01-09 16:24:30 1252

原创大疆机场开发三（前后端demo的运行）

大疆机场跑通前后端demo

2024-01-06 15:21:32 3486 6

原创大疆机场开发二（emqx的安装与使用）

emqx 默认平台端口为18083，直接浏览器登陆即可，默认账号密码为admin,public，第一次登陆成功后会提示修改。检查配置文件格式是否正常，如果你修改了配置文件，推荐在启动前先执行此命令，来检查配置文件的格式是否符合要求。机场连接mqtt的地址为该服务器地址，默认端口为1883，当然默认端口也可修改。通讲了下机场的连接和需要注意的几个问题，这篇文章主要讲下emqx的安装与使用，以及实际项目中遇到的问题。win的安装比较简单，直接解压，打开终端，进入到主目录下面，运行下面代码即可。

2023-12-29 15:26:27 2140 1