自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 问答 (1)
  • 收藏
  • 关注

原创 脑洞大开,将文本存入视频中

发现一个脑洞大开的项目memvid,作者为pdf文件占用空间太大,突发奇想将10000个pdf文件中的文本存到了二维码中,再将二维码压缩成了视频帧存放到视频中,大大减少了空间的占用,同时也有效提升了检索的时间。这个是要从huggingface上面下载模型文件,连接超时了,没关系,咱们把huggingface的代理加到代码中。大家在体验的过程中有遇到什么问题,或者有什么想复现的项目欢迎私信、留言,大家一起讨论学习,共同成长。参考作者的视频是先跑examples/book-chat.py,先来试试这个。

2025-06-05 11:22:08 172

原创 一键试衣,6G显存可跑

先来看下效果,使用动画人物也可换衣,但是运动装全身图像效果不是很好,我就不展示了,感兴趣的小伙伴可以亲自去尝试下。大家在搭建的过程中有什么问题,或者有什么想实现的功能欢迎留言讨论,大家一起学习、进步。模型文件已下载好,后台回复“CatVTON” 可拿到demo中的工作流和模型文件。1、首先去comfyui manager中下载该插件,comfyui可参考。衣服可以在购物网站上下载一张,人物可以是自己的照片。发现一个好玩的一键换衣的工作流,推荐给大家。作者参考的是开源项目,做成了工作流形式。

2025-06-04 15:40:13 229

原创 Fooocus 一款好用的文生图软件,4G显存可跑

Fooocus 是一款对标**Midjourney**的图像生成软件,并且可以本地部署,目前star数量已经来到了45.2k,说明非常受大家欢迎的。点击run.bat后如果没有模型文件,会默认下载模型文件,下载完成后自动打开网页。看下效果"a flying gril, Ghibli style"针对不同的显卡,要求的显存不同,20以上的显卡只需4G即可运行。软件还内置了几十种风格,默认勾选了三种风格,可根据自己需要勾选。win有一键安装包,下载后解压点击run.bat即可。看下软件对硬件的要求。

2025-06-03 16:02:52 133

原创 字节开源BAGEL可文生图、图像理解、图像编辑

BAGEL是由字节跳动开源的通用多模态大模型,一个原生支持多模态输入输出 + 思维链推理 + MoE 架构优化的跨模态超级 AI。说没没有安装torch,好,那我先去官方安装torch。安装好torch后再去安装requirements.txt中的各个包,这次顺利安装。安装好后将上面下载好的模型文件复制到comfyui的models/bagel下面。又报错了,但是这次是显存不够,我的24G显存竟然带不起来,尴尬了。下载速度还是很快的,但是就是模型文件太大了。摸索了半天,直接降低版本就可以了。

2025-05-29 11:41:25 313

原创 PairDrop像苹果电脑一样的跨设备传输工具

我平时传输文件都是通过微信传输助手,看到什么好看的文章,发送文件都是通过微信传。有时候会在别人的电脑上面传输文件,那就通过网页版传输助手传输,感觉这样跨设备传输还比较方便,但是微信文件传输助手有大小限制,怎么办呢?PairDrop,一款跨设备文件传输工具,就像苹果设备一样,可以直接在不同设备之间传输文件,github上面已经7.3Kstar了。pairDrop在本地部署的话可以局域网内传输,当然若要在互联网上面传输将地址映射互联网就可以了,而且没有200M的限制。直接下载下来了,还不错。

2025-05-28 09:37:34 256

原创 minerU,PDF文件转markdown神器

minerU是由上海AI实验室OpenDataLab团队研发的智能数据提取工具,可以一键将pdf文档转换为josn或者markdown文档,效果不错,今天咱们来体验下。检查了一圈,哦...原来漏了一步,忘记装pytorch了。这就是我搭建测试的整个过程,大家在搭建的过程中有遇到什么问题,或者有什么想实现的功能欢迎公众号留言,大家一起讨论学习。4、下载模型文件,需要从modelscope上面下载,先安装modelscope。进入到demo/pdfs文件下面,里面有提供的demo,可以测试用。

2025-05-27 09:35:22 261

原创 一键文本生成图像

FLUX 模型是由 Black Forest Labs 团队推出的一系列文本生成图像模型,lack Forest Labs(黑森林实验室)是一家由Stable Diffusion原班人马创立的AI研究机构,专注于开发图像与视频生成模型。如果大家在搭建的过程中有遇到什么问题,或者有什么想实现的功能,欢迎公众号留言,大家一起讨论学习。提示词很重要,提示词很重要,提示词很重要。2、点击工作流-->打开,打开刚刚保存的json文件。生成速度还是很快的,换个其他的试试。,也可以安装win版的,都可以。

2025-05-26 09:40:17 149

原创 BiliNote帮你总结视频内容的工具

BiliNote,可利用大模型自动总结视频内容,并且可以降内容以markdown形式导出,目前支持B站,Yutube,快手,抖音,本地视频。如果有本地部署的ollama,可以添加ollama,点击测试连通性,测试成功就可以在下方添加大模型了。大家在搭建的过程中有遇到什么问题,或者有什么好玩的项目想复现可以公众号留言,大家一起讨论学习。4、看到8000端口启动起来了就说明启动成功了,接着浏览器打开前端页面。2、支持docker部署,咱们就用docker试下。哈哈,效果不错,想体验的大家可以去试下。

2025-05-23 10:03:09 336

原创 DICE-Talk备情感表达的数字人工具

我的cuda版本为12.4,所以下载的如下版本。GitHub上面复现的是2.2.2版本的,不过没关系,2.4.1版本的我也复现成功了。由复旦大学与腾讯联合研发的DICE-Talk说话人视频生成工具于近日正式发布,生成数字人视频的时候可以带情感、表情。5、接着下载huggingface上面的模型文件了,如果连接不上huggingface可以先设置代理。大家在复现的过程中有遇到什么问题,或者有什么想复现的项目欢迎公众号留言。2、创建环境,后台回复“conda”可拿到我已经下载好的anaconda网盘链接。

2025-05-22 09:30:33 158

原创 手搭一个自己的mcp服务

前面写了好几篇关于mcp的文章了,但是如果想利用mcp实现自己的业务需求怎么办呢?没关系,亲手搭建一个自己的mcp服务,今天咱们就来自己实践一下。上网搜了一下,自己搭建mcp服务有基于前端node.js的,有基于java的,有基于python的。修改自己启动的mcp服务,点击connect,连接成功后点击tools就可以查看自己的mcp服务了。如果大家在搭建的过程中有什么问题,或者有什么想实现的功能欢迎公众号留言,大家一起讨论学习。5、这些没问题了,咱们以高德的天气查询为例来自己写个天气查询的mcp服务。

2025-05-21 11:29:23 428

原创 sonic一张人物图片和音频生成面部表情和动作视频

Sonic是由腾讯和浙江大学联合开发的开源数字人技术框架。它能够通过音频驱动肖像图片生成生动的面部表情和口型动作,从而制作出高度逼真的数字人口播视频,广泛应用于虚拟主播、数字客服等场景,具有高效、低成本的特点。

2025-05-19 10:40:16 233

原创 MCP数据库服务接入dify,让你的智能体操作数据库

MCP数据库服务接入dify,让你的智能体操作数据库

2025-05-14 10:23:27 619

原创 LLaMA-Factory训练自己的大模型

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调。

2025-05-13 09:28:56 229

原创 Ubuntu源码版comfyui的安装

Comfyui也出桌面版了,但是想让大家多个人都使用怎么办呢?也有方法,安装Linux版,启动后会生成个网页地址,打开就能用了。

2025-05-12 11:13:48 288

原创 ‌FunASR‌阿里开源的语音识别工具

FunASR‌是一个由阿里云智能团队开源的语音识别工具。它旨在通过发布工业级语音识别模型的训练和微调,促进学术研究和工业应用之间的交流,推动语音识别生态的发展‌。

2025-05-09 10:06:17 387

原创 实时语音翻译seamless-streaming,支持100多个国家语言

facebook也推出了实时语音翻译系统,支持一百多个国家语音,经实测效果很不错,使用了5G左右显存。

2025-05-08 11:06:59 353

原创 seamless_communication,facebook推出的开源语音翻译项目

Seamless Communication‌是由Facebook Research开发的一个开源项目,旨在提供先进的语音和文本翻译功能,支持多国语音。

2025-05-07 10:29:44 237

原创 Animate-X 让你的图像动起来

Animate-X是由阿里巴巴出的通用角色动画生成项目:上传一张静态图像跟动作视频,就能让静态图像模仿动作视频的动作动起来,不仅支持对人类角色,还适用于拟人角色。

2025-05-06 09:06:33 357 2

原创 EchoMimic 阿里开源数字人项目的复现过程

EchoMimic 是一个由阿里巴巴蚂蚁集团开发的开源AI 数字人项目,通过可编辑地标调节实现逼真的音频驱动肖像动画,它能够将静态图像转化为具有动态语音和表情的数字人像。

2025-04-30 12:18:28 510 2

原创 本地知识库工具FASTGPT的安装与搭建

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,将智能对话与可视化编排完美结合,让 AI 应用开发变得简单自然。

2025-04-29 12:29:10 513 2

原创 数字人Live_Talking的搭建和使用

Live_Talking是一个实时交互流式数字人,可以实现音视频同步对话。今天咱们来试着部署一下项目。

2025-04-28 11:29:51 561 2

原创 实时数字人awesome-digital-human-live2d的搭建和对接dify

awesome-digital-human-live2d是一个轻量级开源实时数字人项目,对配置要求不高。搭建过程也比较简单。

2025-04-27 14:09:59 687

原创 dify对接飞书云文档,并且将图片传入飞书文档

dify对接飞书,将聊天内容展示到飞书,并且带图片

2025-04-25 08:59:02 516

原创 实时数字人——DH_LIVE

DH_LIVE一个实时数字人解决方案,从输入文字到数字人对口型说话用时2-3秒。

2025-04-24 12:19:27 654

原创 MySQL_MCP_Server_pro接入cherry_studio实现大模型操作数据库

大模型直接与数据库交互,实现基本增删改查操作

2025-04-22 17:17:37 572

原创 实时对话数字人VideoChat

实时对话数字人VideoChat是由阿里达摩院开源的一个实时数字人对话。经实测,效果还不错,每次对话数字人生成视频的时间大致在6-8秒钟,今天将环境搭建步骤及遇到的问题整理下

2025-04-21 17:41:01 651 2

原创 vscode、cherry studio接入高德mcp服务

总结:感觉mcp服务就是大模型将你的自然语言转换为api识别的参数,然后调取相关服务的api,不用自己写代码调用api了。先不管它,点击上面的mcp服务,选择install,点击下方按钮configure mcp servers,然后将配置文件填进去。选择聊天界面,选择需要使用的大模型。有本地的可以添加本地的,没有本地的可以添加各大平台在线的。最近mcp协议比较火,好多平台都已经开通了mcp协议,今天来接入下高德的mcp看看效果如何。哈哈,不用咱们自己调用高德api的接口了,大模型帮咱们调用了。

2025-04-18 17:19:48 750 4

原创 dify接入Ollama和Xinference

Xinference 和 Ollama 都是用于本地部署和运行大模型的开源工具,今天来讲下如何本地部署这两个工具。

2025-04-16 17:23:18 519

原创 dify的本地部署和遇到的问题

目前市面上建立本地知识库的系统、软件有很多,像dify、fastgpt、cherry_studio等等等等,今天来亲自实验下本地安装dify,和在安装过程中遇到的问题及解决方法。

2025-04-15 12:13:40 457

原创 Ubuntu上docker、docker-compose的安装

Ubuntu上docker、docker-compose的安装

2025-04-14 16:50:28 459

原创 Ubuntu 安装 deepspeed

Ubuntu 安装 deepspeed

2024-03-05 10:54:55 1973

原创 Ubuntu 安装cuda和遇到的问题

(1) cuda的驱动安装,我刚开始是直接默认的勾选,但是总是报错,去报错提示下面查看报错日志,提示的是版本不匹配,调整版本也不行,后来直接使用其他方法安装驱动成功,再安装nvidia的run文件的时候没有勾选驱动的安装。(2)安装成功后使用nvcc -V 查看安装的cuda版本,发现安装的版本为cuda 10,但是我明明安装的是cuda 11.7,我又重新安装了一半,还是cuda10,又把驱动卸载后重新安装,还是不行,最后重启了下服务,再次用nvcc 查看,发现显示的正确了。在文件最下方添加如下配置。

2024-02-27 11:30:00 697

原创 记录一次后端报错:No space left on device

后端报错 No space left on device

2024-02-19 13:51:35 340 1

原创 利用Nginx搭建自己的rtmp服务器

利用NGINX搭建自己的rtmp服务器

2024-01-26 14:52:50 6571 16

原创 大疆机场开发五(直播功能和遇到的问题)

对接无人机,一个很重要的功能就是实时直播功能,demo也很贴心的为我们提供了对接方式,目前机场支持声网直播、rtmp直播、rtsp直播、28281对接方式,在此给大家介绍下各个直播的对接方式和在对接中遇到的问题。2.3 因为要对接第三方,第三方需要一个直播的视频流URL,对接的声网web没有这个URL,需要调用声网rdc直播(收费),或者使用28281或者rtmp直播生成一个播放的URL。1、GB28281是摄像头国标对接方式,若用此方式对接,首先需要一个能接入28281摄像头的平台。

2024-01-23 16:10:47 4062 19

原创 大疆机场开发四(画航线)

大疆的demo中没有带画航线的功能,目前有两个方法,一是在遥控器或者司空2等平台画好航线后下载,将航线导入到自己平台里面。看完这些相信大家就有一定的思路了,只需要安装这些字段生成生成templete.kml,waylines.wpml文件,最后一起压缩成kmz文件即可。前端只需将文件必须元素值传给后端即可,后端zip生成文件,替换zip后缀为kmz,上传文件服务器。简单来说,kmz就是一个压缩包文件,里面包含了一个wpmz的文件夹,文件夹里面有两个文件,一个。

2024-01-21 16:09:53 4229 11

原创 git启动失败502问题排查和解决

git服务502问题排查与解决

2024-01-09 16:24:30 1252

原创 大疆机场开发三(前后端demo的运行)

大疆机场跑通前后端demo

2024-01-06 15:21:32 3486 6

原创 大疆机场开发二(emqx的安装与使用)

emqx 默认平台端口为18083,直接浏览器登陆即可,默认账号密码为admin,public,第一次登陆成功后会提示修改。检查配置文件格式是否正常,如果你修改了配置文件,推荐在启动前先执行此命令,来检查配置文件的格式是否符合要求。机场连接mqtt的地址为该服务器地址,默认端口为1883,当然默认端口也可修改。通讲了下机场的连接和需要注意的几个问题,这篇文章主要讲下emqx的安装与使用,以及实际项目中遇到的问题。win的安装比较简单,直接解压,打开终端,进入到主目录下面,运行下面代码即可。

2023-12-29 15:26:27 2140 1

原创 大疆机场开发和遇到的问题一

大疆机场开发和遇到的问题

2023-12-28 12:49:20 4215 26

樱花树 python 勾画

python樱花树

2024-02-19

玫瑰 勾画 python源码

python

2024-02-19

春晚 刘谦魔术 python算法版

春晚 刘谦魔术 python算法版

2024-02-11

情人节 表白代码 python

情人节 表白代码 python

2024-02-11

贪吃蛇 python小游戏

python

2024-02-05

数独 python小游戏

python

2024-02-05

像素鸟 python小游戏

python

2024-02-05

置换检验 python示例

置换检验

2024-02-04

python实现AHP算法的方法示例

层次分析法

2024-02-04

TOPSIS算法介绍及python示例

topsispython示例

2024-02-04

逻辑回归 python 示例

逻辑回归

2024-02-03

逻辑回归 python示例

逻辑回归

2024-02-03

随机森林特征选择 python

随机森林

2024-02-03

波形生成 python版

python 波形生成 并保存成TXT

2024-02-02

语音波形生成 python

python 波形生成

2024-02-02

语音波形生成 python

python 波形生成

2024-02-02

数字水印2 添加水印 python

数字水印

2024-02-01

数字水印 水印加密 python

数字水印

2024-02-01

数字水印 水印嵌入 python

数字水印

2024-02-01

navicat 连oracle oci环境 12.1.0.2.0 win x64版本

oracle navicat 连oracle oci环境 12.1.0.2.0 win x64版本

2024-01-31

liunx anaconda安装包

liunx anaconda安装包

2025-05-29

视频叠加源代码分享给大家

一个数字人视频,另一个背景视频,代码将数字人视频去背景后叠加到背景视频上面

2025-04-15

判断一个数是否为素数 python

判断一个数是否为素数

2024-03-14

定义一个时间类time python

定义一个时间类time

2024-03-14

python 操作http

python

2024-03-06

python 操作CSV

python

2024-03-06

python cocket 测试

python

2024-03-05

python 发送邮件源码

python

2024-03-05

python numpy学习

python

2024-03-05

python-metaclass.py

python-metaclass.py

2024-03-05

彩色螺旋 python 源码

python入门

2024-03-04

贪吃蛇 python 源码

python入门

2024-03-04

Anaconda3-Linux-x86-64.zip

anaconda安装 linux 版

2024-02-28

彩色的光球,python源码

python 彩色的光球,python源码

2024-02-27

弹簧隧道,python版源码

python 弹簧隧道,python版源码

2024-02-27

圣诞树 python版源码

python 圣诞树 python版源码

2024-02-27

小黄人 python 源码

python

2024-02-20

表白需要的源码 python

python

2024-02-20

画花朵 随机飘落 python源码

python

2024-02-20

蛋糕python 勾画 源码

python

2024-02-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除