- 博客(49)
- 问答 (1)
- 收藏
- 关注
原创 脑洞大开,将文本存入视频中
发现一个脑洞大开的项目memvid,作者为pdf文件占用空间太大,突发奇想将10000个pdf文件中的文本存到了二维码中,再将二维码压缩成了视频帧存放到视频中,大大减少了空间的占用,同时也有效提升了检索的时间。这个是要从huggingface上面下载模型文件,连接超时了,没关系,咱们把huggingface的代理加到代码中。大家在体验的过程中有遇到什么问题,或者有什么想复现的项目欢迎私信、留言,大家一起讨论学习,共同成长。参考作者的视频是先跑examples/book-chat.py,先来试试这个。
2025-06-05 11:22:08
172
原创 一键试衣,6G显存可跑
先来看下效果,使用动画人物也可换衣,但是运动装全身图像效果不是很好,我就不展示了,感兴趣的小伙伴可以亲自去尝试下。大家在搭建的过程中有什么问题,或者有什么想实现的功能欢迎留言讨论,大家一起学习、进步。模型文件已下载好,后台回复“CatVTON” 可拿到demo中的工作流和模型文件。1、首先去comfyui manager中下载该插件,comfyui可参考。衣服可以在购物网站上下载一张,人物可以是自己的照片。发现一个好玩的一键换衣的工作流,推荐给大家。作者参考的是开源项目,做成了工作流形式。
2025-06-04 15:40:13
229
原创 Fooocus 一款好用的文生图软件,4G显存可跑
Fooocus 是一款对标**Midjourney**的图像生成软件,并且可以本地部署,目前star数量已经来到了45.2k,说明非常受大家欢迎的。点击run.bat后如果没有模型文件,会默认下载模型文件,下载完成后自动打开网页。看下效果"a flying gril, Ghibli style"针对不同的显卡,要求的显存不同,20以上的显卡只需4G即可运行。软件还内置了几十种风格,默认勾选了三种风格,可根据自己需要勾选。win有一键安装包,下载后解压点击run.bat即可。看下软件对硬件的要求。
2025-06-03 16:02:52
133
原创 字节开源BAGEL可文生图、图像理解、图像编辑
BAGEL是由字节跳动开源的通用多模态大模型,一个原生支持多模态输入输出 + 思维链推理 + MoE 架构优化的跨模态超级 AI。说没没有安装torch,好,那我先去官方安装torch。安装好torch后再去安装requirements.txt中的各个包,这次顺利安装。安装好后将上面下载好的模型文件复制到comfyui的models/bagel下面。又报错了,但是这次是显存不够,我的24G显存竟然带不起来,尴尬了。下载速度还是很快的,但是就是模型文件太大了。摸索了半天,直接降低版本就可以了。
2025-05-29 11:41:25
313
原创 PairDrop像苹果电脑一样的跨设备传输工具
我平时传输文件都是通过微信传输助手,看到什么好看的文章,发送文件都是通过微信传。有时候会在别人的电脑上面传输文件,那就通过网页版传输助手传输,感觉这样跨设备传输还比较方便,但是微信文件传输助手有大小限制,怎么办呢?PairDrop,一款跨设备文件传输工具,就像苹果设备一样,可以直接在不同设备之间传输文件,github上面已经7.3Kstar了。pairDrop在本地部署的话可以局域网内传输,当然若要在互联网上面传输将地址映射互联网就可以了,而且没有200M的限制。直接下载下来了,还不错。
2025-05-28 09:37:34
256
原创 minerU,PDF文件转markdown神器
minerU是由上海AI实验室OpenDataLab团队研发的智能数据提取工具,可以一键将pdf文档转换为josn或者markdown文档,效果不错,今天咱们来体验下。检查了一圈,哦...原来漏了一步,忘记装pytorch了。这就是我搭建测试的整个过程,大家在搭建的过程中有遇到什么问题,或者有什么想实现的功能欢迎公众号留言,大家一起讨论学习。4、下载模型文件,需要从modelscope上面下载,先安装modelscope。进入到demo/pdfs文件下面,里面有提供的demo,可以测试用。
2025-05-27 09:35:22
261
原创 一键文本生成图像
FLUX 模型是由 Black Forest Labs 团队推出的一系列文本生成图像模型,lack Forest Labs(黑森林实验室)是一家由Stable Diffusion原班人马创立的AI研究机构,专注于开发图像与视频生成模型。如果大家在搭建的过程中有遇到什么问题,或者有什么想实现的功能,欢迎公众号留言,大家一起讨论学习。提示词很重要,提示词很重要,提示词很重要。2、点击工作流-->打开,打开刚刚保存的json文件。生成速度还是很快的,换个其他的试试。,也可以安装win版的,都可以。
2025-05-26 09:40:17
149
原创 BiliNote帮你总结视频内容的工具
BiliNote,可利用大模型自动总结视频内容,并且可以降内容以markdown形式导出,目前支持B站,Yutube,快手,抖音,本地视频。如果有本地部署的ollama,可以添加ollama,点击测试连通性,测试成功就可以在下方添加大模型了。大家在搭建的过程中有遇到什么问题,或者有什么好玩的项目想复现可以公众号留言,大家一起讨论学习。4、看到8000端口启动起来了就说明启动成功了,接着浏览器打开前端页面。2、支持docker部署,咱们就用docker试下。哈哈,效果不错,想体验的大家可以去试下。
2025-05-23 10:03:09
336
原创 DICE-Talk备情感表达的数字人工具
我的cuda版本为12.4,所以下载的如下版本。GitHub上面复现的是2.2.2版本的,不过没关系,2.4.1版本的我也复现成功了。由复旦大学与腾讯联合研发的DICE-Talk说话人视频生成工具于近日正式发布,生成数字人视频的时候可以带情感、表情。5、接着下载huggingface上面的模型文件了,如果连接不上huggingface可以先设置代理。大家在复现的过程中有遇到什么问题,或者有什么想复现的项目欢迎公众号留言。2、创建环境,后台回复“conda”可拿到我已经下载好的anaconda网盘链接。
2025-05-22 09:30:33
158
原创 手搭一个自己的mcp服务
前面写了好几篇关于mcp的文章了,但是如果想利用mcp实现自己的业务需求怎么办呢?没关系,亲手搭建一个自己的mcp服务,今天咱们就来自己实践一下。上网搜了一下,自己搭建mcp服务有基于前端node.js的,有基于java的,有基于python的。修改自己启动的mcp服务,点击connect,连接成功后点击tools就可以查看自己的mcp服务了。如果大家在搭建的过程中有什么问题,或者有什么想实现的功能欢迎公众号留言,大家一起讨论学习。5、这些没问题了,咱们以高德的天气查询为例来自己写个天气查询的mcp服务。
2025-05-21 11:29:23
428
原创 sonic一张人物图片和音频生成面部表情和动作视频
Sonic是由腾讯和浙江大学联合开发的开源数字人技术框架。它能够通过音频驱动肖像图片生成生动的面部表情和口型动作,从而制作出高度逼真的数字人口播视频,广泛应用于虚拟主播、数字客服等场景,具有高效、低成本的特点。
2025-05-19 10:40:16
233
原创 LLaMA-Factory训练自己的大模型
LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调。
2025-05-13 09:28:56
229
原创 Ubuntu源码版comfyui的安装
Comfyui也出桌面版了,但是想让大家多个人都使用怎么办呢?也有方法,安装Linux版,启动后会生成个网页地址,打开就能用了。
2025-05-12 11:13:48
288
原创 FunASR阿里开源的语音识别工具
FunASR是一个由阿里云智能团队开源的语音识别工具。它旨在通过发布工业级语音识别模型的训练和微调,促进学术研究和工业应用之间的交流,推动语音识别生态的发展。
2025-05-09 10:06:17
387
原创 实时语音翻译seamless-streaming,支持100多个国家语言
facebook也推出了实时语音翻译系统,支持一百多个国家语音,经实测效果很不错,使用了5G左右显存。
2025-05-08 11:06:59
353
原创 seamless_communication,facebook推出的开源语音翻译项目
Seamless Communication是由Facebook Research开发的一个开源项目,旨在提供先进的语音和文本翻译功能,支持多国语音。
2025-05-07 10:29:44
237
原创 Animate-X 让你的图像动起来
Animate-X是由阿里巴巴出的通用角色动画生成项目:上传一张静态图像跟动作视频,就能让静态图像模仿动作视频的动作动起来,不仅支持对人类角色,还适用于拟人角色。
2025-05-06 09:06:33
357
2
原创 EchoMimic 阿里开源数字人项目的复现过程
EchoMimic 是一个由阿里巴巴蚂蚁集团开发的开源AI 数字人项目,通过可编辑地标调节实现逼真的音频驱动肖像动画,它能够将静态图像转化为具有动态语音和表情的数字人像。
2025-04-30 12:18:28
510
2
原创 本地知识库工具FASTGPT的安装与搭建
FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,将智能对话与可视化编排完美结合,让 AI 应用开发变得简单自然。
2025-04-29 12:29:10
513
2
原创 数字人Live_Talking的搭建和使用
Live_Talking是一个实时交互流式数字人,可以实现音视频同步对话。今天咱们来试着部署一下项目。
2025-04-28 11:29:51
561
2
原创 实时数字人awesome-digital-human-live2d的搭建和对接dify
awesome-digital-human-live2d是一个轻量级开源实时数字人项目,对配置要求不高。搭建过程也比较简单。
2025-04-27 14:09:59
687
原创 实时对话数字人VideoChat
实时对话数字人VideoChat是由阿里达摩院开源的一个实时数字人对话。经实测,效果还不错,每次对话数字人生成视频的时间大致在6-8秒钟,今天将环境搭建步骤及遇到的问题整理下
2025-04-21 17:41:01
651
2
原创 vscode、cherry studio接入高德mcp服务
总结:感觉mcp服务就是大模型将你的自然语言转换为api识别的参数,然后调取相关服务的api,不用自己写代码调用api了。先不管它,点击上面的mcp服务,选择install,点击下方按钮configure mcp servers,然后将配置文件填进去。选择聊天界面,选择需要使用的大模型。有本地的可以添加本地的,没有本地的可以添加各大平台在线的。最近mcp协议比较火,好多平台都已经开通了mcp协议,今天来接入下高德的mcp看看效果如何。哈哈,不用咱们自己调用高德api的接口了,大模型帮咱们调用了。
2025-04-18 17:19:48
750
4
原创 dify接入Ollama和Xinference
Xinference 和 Ollama 都是用于本地部署和运行大模型的开源工具,今天来讲下如何本地部署这两个工具。
2025-04-16 17:23:18
519
原创 dify的本地部署和遇到的问题
目前市面上建立本地知识库的系统、软件有很多,像dify、fastgpt、cherry_studio等等等等,今天来亲自实验下本地安装dify,和在安装过程中遇到的问题及解决方法。
2025-04-15 12:13:40
457
原创 Ubuntu 安装cuda和遇到的问题
(1) cuda的驱动安装,我刚开始是直接默认的勾选,但是总是报错,去报错提示下面查看报错日志,提示的是版本不匹配,调整版本也不行,后来直接使用其他方法安装驱动成功,再安装nvidia的run文件的时候没有勾选驱动的安装。(2)安装成功后使用nvcc -V 查看安装的cuda版本,发现安装的版本为cuda 10,但是我明明安装的是cuda 11.7,我又重新安装了一半,还是cuda10,又把驱动卸载后重新安装,还是不行,最后重启了下服务,再次用nvcc 查看,发现显示的正确了。在文件最下方添加如下配置。
2024-02-27 11:30:00
697
原创 大疆机场开发五(直播功能和遇到的问题)
对接无人机,一个很重要的功能就是实时直播功能,demo也很贴心的为我们提供了对接方式,目前机场支持声网直播、rtmp直播、rtsp直播、28281对接方式,在此给大家介绍下各个直播的对接方式和在对接中遇到的问题。2.3 因为要对接第三方,第三方需要一个直播的视频流URL,对接的声网web没有这个URL,需要调用声网rdc直播(收费),或者使用28281或者rtmp直播生成一个播放的URL。1、GB28281是摄像头国标对接方式,若用此方式对接,首先需要一个能接入28281摄像头的平台。
2024-01-23 16:10:47
4062
19
原创 大疆机场开发四(画航线)
大疆的demo中没有带画航线的功能,目前有两个方法,一是在遥控器或者司空2等平台画好航线后下载,将航线导入到自己平台里面。看完这些相信大家就有一定的思路了,只需要安装这些字段生成生成templete.kml,waylines.wpml文件,最后一起压缩成kmz文件即可。前端只需将文件必须元素值传给后端即可,后端zip生成文件,替换zip后缀为kmz,上传文件服务器。简单来说,kmz就是一个压缩包文件,里面包含了一个wpmz的文件夹,文件夹里面有两个文件,一个。
2024-01-21 16:09:53
4229
11
原创 大疆机场开发二(emqx的安装与使用)
emqx 默认平台端口为18083,直接浏览器登陆即可,默认账号密码为admin,public,第一次登陆成功后会提示修改。检查配置文件格式是否正常,如果你修改了配置文件,推荐在启动前先执行此命令,来检查配置文件的格式是否符合要求。机场连接mqtt的地址为该服务器地址,默认端口为1883,当然默认端口也可修改。通讲了下机场的连接和需要注意的几个问题,这篇文章主要讲下emqx的安装与使用,以及实际项目中遇到的问题。win的安装比较简单,直接解压,打开终端,进入到主目录下面,运行下面代码即可。
2023-12-29 15:26:27
2140
1
navicat 连oracle oci环境 12.1.0.2.0 win x64版本
2024-01-31
如何让一张图片亮的地方更亮,暗的地方更暗?
2021-06-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人