自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

原创 基于DeepSeek-R1实现本地/API知识库,并接入微信BOT

在上一篇,我们一起实现了本地部署DeepSeek-R1并接入了微信机器人,让它能跟我们聊天,今天,我要跟大家分享个更有意思的玩法:如何给咱们的 AI 助手喂点干货,让它变身成一个真正懂行的专业顾问!接下来我会手把手带大家完成整个知识库搭建过程,包括环境配置、知识库部署、上传资料,还有一些细节调优的小技巧。最后我们再把这个"充满知识"的AI接入微信机器人,打造一个真正懂你、懂行业的智能小助手!

2025-02-09 12:02:41 3192 22

原创 Janus-Pro,DeepSeek开源多模态大模型(WIN/MAC)

DeepSeek开源的多模态大模型,简单点说就是一个可以理解图片内容和生成图片的模型。目前有三个版本的模型,分别是:Janus、JanusFlow、Janus-Pro。看到这里,可能有小伙伴会觉得这个项目的应用场景比较有限。但据我了解,已经有小伙伴利用Janus的强大图文理解能力,将工程图纸、技术文档等PDF资料制作成智能知识库。这是他发我的截图:更棒的是,如果你看过我上一篇关于微信BOT的文章,完全可以把Janus接入进去,让你的机器人也具备看图说话、生成图片的能力!

2025-02-06 22:54:17 1445

原创 【从零开始】基于本地部署DeepSeek-R1实现微信智能聊天机器人

新年好!给大家拜年了!最近,我的朋友圈被DeepSeek相关的消息“刷屏”了!相信大家也都听说了咱们国产开源大模型——DeepSeek。网上关于如何本地部署DeepSeek的教程已经不少了,今天咱们就来点不一样的,结合实际案例,手把手带你玩转DeepSeek-R1,看看它到底有多强大!

2025-01-29 13:46:29 30784 70

原创 宝塔UDP服务器部署记录,unityClient,pythonServer

最近项目接到新需求,需要用Unity 客户端(发送端)控制另一台 Unity 客户端(接收端),中间用UDP服务器做数据中转。

2025-01-21 10:41:22 676

原创 信息: 用提供的模式无法找到文件。问题解决

最近遇到python项目运行就提示信息: 用提供的模式无法找到文件。的问题。虽然对程序来说没什么影响,但是强迫症的我看着很不爽。

2025-01-21 10:35:48 1790

原创 LatentSync数字人,一键批量,口型同步,MPS加速(WIN/MAC)

分享一个最近还不错的数字人项目——LatentSync。该项目由字节开源,上传一段音频和视频,即可生成数字人视频。我对该项目做了些更改,增加了批量和MAC版本的支持,用MAC的小伙伴再也不用遗憾了…看下我生成的效果。简单介绍下如何使用上传一段人物视频和你要生成人物说话的音频。点击处理视频等待视频生成批量模式的使用也相同,支持上传多个文件。批量模式下音频数量一定要和视频数量保持一致,如果缺少是会报错的。

2025-01-20 09:59:58 1998 3

原创 MangaNinjia,一键线稿生成,线稿上色(WIN/MAC)

分享一个AI图片处理的项目,MangaNinjia,该项目可以实现一键提取线稿图、基于参考图的线稿上色,自动将参考图与线稿对齐确保上色的一致性,并且还能通过点控制来完成更复杂的上色。项目大致的界面该项目目前有三个功能:线稿提取、线稿上色、精确线稿上色。

2025-01-18 16:34:15 487

原创 关于不同平台微信多开的解决方案(WIN/MAC/IOS/Andriod)

日常生活跟工作中需要用到多开微信,本次分享下在不同平台上解决微信多开的方法。这些方法我都用了超过1年以上,都比较稳定。中间遇到的一些问题我也有说明,包括每个方法的优缺点,每个平台的操作等。先说下我自己体验下来的结论:从操作复杂程度上来看:win

2025-01-16 15:18:08 1762

原创 StableDiffusionWebUI本地部署指南(WIN)

踩坑记录

2025-01-03 19:12:05 921

原创 FaceFusion3.1.1,deepfacelive模型使用教程,BUG修复,云端镜像支持

就在昨天FaceFusion迎来了3.1.1版本更新。不过本次更新内容比较简单,仅修复了MAC系统上CoreML回退的问题。

2025-01-02 18:13:28 2544 2

原创 FaceFusion3.1.0,全新批量处理系统,模型更新,NSFW,界面优化(WIN/MAC)

FaceFusion更新到了3.1.0版本。本次更新增加了批量功能、换脸模型、以及全新的UI界面,这次的批量跟上个版本的job工作流形式不同,操作更方便简单。

2024-12-31 18:08:32 2821 3

原创 微信小程序xr-frame透明视频实现

在开发AR小程序的时候需要实现用到透明视频效果。这里使用MP4格式的视频。它的左侧为视频的rgb通道信息,右侧为动画alpha通道信息,左右两侧动画同步播放。

2024-12-20 16:09:34 1115

原创 TRELLIS,一键生成3D模型,图像转3D,微软开源

大家好!今天给大家分享微软最近开源的一个3D模型生成项目——TRELLIS。简单来说就是输入一张图片,它就能自动帮你生成3D模型。这与之前分享的TripoSR项目类似,但是精度和贴图细节比TripoSR要高很多。

2024-12-19 18:18:12 5788 5

原创 EchoMimicV2数字人1216更新,新增手势对齐,自定义姿态

EchoMimicV2 于12月16日发布了代码更新,那我也赶紧来学习一波。本次更新增加了"手势对齐"和"自定义姿态"相关逻辑。鉴于我之前的版本已经实现了自定义姿态部分,我将把新增的对齐逻辑整合进去。

2024-12-18 17:58:16 644

原创 FishSpeech1.5,语音克隆,TTS,多语言,零样本推理(WIN/MAC)

语音克隆项目FishSpeech1.5更新咯~类似之前我分享的例如F5-TTS、MaskGCT等声音克隆项目,FishSpeech只需要5-10秒的语音样本,就能高度还原一个人的声音特征,而且支持中英日韩等多种语言互换。

2024-12-12 20:31:09 1664 4

原创 PDFMathTranslate,PDF多语言翻译,批量处理,学术论文,双语对照(WIN/MAC)

分享一个非常实用的PDF文档翻译项目——PDFMathTranslate。作为一个经常逛GitHub的开发者,我总喜欢翻看各种项目附带的论文,虽然大多时候是瞎研究,但却乐在其中。该项目能够完美保留公式、图表、目录和注释,对于需要阅读外文文献的同学来说绝对是一个利器!(外语好的当我没说哈!先来看看效果,这是我用该项目的论文进行翻译的结果。论文链接效果非常不错,当然你不仅可以用它翻译论文,任何PDF内容都支持。只支持PDF,如果是word等其他格式的,需要转成PDF格式来进行处理。

2024-12-11 08:50:16 2093 3

原创 FacePoke,自定义脸部表情,五官控制,表情包制作

你可以用FacePoke制作各种"鬼畜"表情!

2024-12-04 09:15:00 603

原创 EchoMimicV2数字人版本,自定义姿态,图片转数字人,音频驱动口型

哈喽!EchoMimic更新咯,本次EchoMimicV2版本增加了数字人功能,即输入一张图片、一段音频、一段姿势即可生成一段数字人视频。如果第一次了解这个项目的朋友可以看下往期文章,看下之前的V1版本简单吐槽下,在我刚部署项目的时候,官方还没推出gradio界面的代码,于是着手开始写一套,等我写完了,测试完了…GitHub上又有gradio相关的代码了…真的是太速度了!吐血…不过没关系,也算同步进行了…我在使用的时候也发现了这个版本的一些问题,并做了一些改动,在下面有讲到。

2024-11-23 20:21:40 2105 1

原创 F5-TTS,轻量级语音克隆,长文本生成,语速控制,多风格语音合成,零样本语音生成(WIN/MAC)

哈喽,分享一个还不错的音频项目——F5-TTS。该项目支持跨语言语音克隆(比如用英语说话人的声音说中文)、语速控制、零样本语音生成(不需要针对新说话人重新训练)、多种语音类型合成、长文本语音生成等功能。该项目一共分四个部分:TTS、多风格语音合成、语音聊天、训练/微调。(由于篇幅原因,这里只讲前三个,大家对训练和微调感兴趣的话,我会考虑放在后面进行讲解。

2024-11-07 09:30:00 3019 1

原创 UnityAssetsBundle字体优化解决方案

Unity开发某个项目,打包后的apk包体已经高达1.25G了,这是非常离谱的。为了不影响用户体验,需要将apk包体缩小。因为项目本身不包含很多模型以及其他大型资源,排除法将AB包删除,发现app本身就100多M。

2024-11-04 11:34:40 721

原创 Comfyui-Flux写实人像摄影风格探索

在一些小伙伴的建议下,我最近开始着手整理ComfyUI的相关内容。其实之前就一直在关注这个工具,但由于工作繁忙,一直没能抽出时间去总结。与SD webui不同的是,comfyui有着极高的自由度和灵活性,支持高度的定制化和工作流复用,同时对系统配置的要求较低,并且能够加快原始图像的生成速度。然而,由于它拥有众多的插件节点,以及较为复杂的操作流程,学习起来相对困难。另一方面,WebUI 特点是拥有固定的操作界面,使得其易于学习和快速上手。经过一年多的发展,它已经建立了一个成熟且稳定的开源生态系统。

2024-11-02 10:03:35 974

原创 MaskGCT,零样本语音克隆,TTS语音合成,多语言支持(WIN/MAC)

今天给大家分享一个近期比较火热的语音项目——MaskGCT,这是一个完全非自回归的TTS模型,无需文本和语音监督之间的显式对齐信息,也无需音素级别的时长预测。近期的大规模文本转语音(TTS)系统通常分为自回归和非自回归两类系统。自回归系统以隐式方式建模时长,但在稳健性方面存在一些缺陷,且缺乏时长可控性。非自回归系统在训练过程中需要文本和语音之间的显式对齐信息,并预测语言单元(如音素)的时长,这可能会影响其自然度。

2024-10-31 13:07:48 1637 8

原创 RVC声音克隆,AI翻唱,音频处理,批量处理(WIN/MAC)

RVC声音克隆,AI翻唱,音频处理,批量处理

2024-10-28 10:03:04 2604 1

原创 GLM-4-Voice上手体验,端到端语音模型,语音合成,情感控制,语速控制

GLM-4-Voice上手体验

2024-10-26 17:21:25 1936 2

原创 UnityAPK反编译基础修改,C#反编译

几年前做了一个项目是VR单机的,无需联网。最近接到需求,需要修改其中的版本号,版本号当时写到UI界面上了,没做版本管理。再加上之前管理比较混乱导致最终版本的源码丢了,现在手头的工程里跟最终版本有点出入。那么现在手里就一个apk安装包,如何修改其中的版本号?想到之前有用到反编译的方式去查看源码,那时没总结流程,借此次机会总结下,防止后面遗忘。

2024-10-16 22:17:06 2147

原创 Linly-Dubbing,一键视频多语言AI配音,视频翻译,字幕生成,人声分离,自动下载视频(WIN/MAC)

Linly-Dubbing本地部署问题总结以及整合包分享

2024-09-02 09:44:22 2286 3

原创 LLVM ERROR: Symbol not found: __svml_cosf8_ha问题解决

Symbol not found: __svml_cosf8_ha问题解决

2024-08-29 16:20:07 2477 4

原创 LivePortraitV3,支持图像驱动和区域控制,更精确的人像控制(WIN,MAC)

又又又又又又更新了!

2024-08-29 13:20:10 1417

原创 GPT-SovitsV2,支持多语种,多音字优化,更好的音色,ZeroShot(WIN/MAC)

GPTSOVITSv2版本

2024-08-26 12:49:33 2679 1

原创 ImageMagick MacOS安装问题

ImageMagick MacOS安装问题解决以及思路

2024-08-19 10:05:32 709

原创 FunClip,音视频识别,自动化剪辑,文本校对,智能纠错,导出SRT

一个练手的项目,简单的增加了校对功能。

2024-08-19 09:59:47 3012

原创 MimicBrush,图像编辑,纹理迁移,xformers加速,MPS支持(WIN、MAC)

一键图像编辑/迁移

2024-08-09 14:10:01 495

原创 EasyAnimateV3,文生视频,图生视频,长视频生成

大家好啊!前段时间大火的可灵相信大家有了解过,当时需要申请内测资格,我苦苦等了2周才用上,体验后效果确实非常惊艳。不幸前段时间可灵收费了....这......于是我又发现了一个类似的项目——EasyAnimate。EasyAnimate是基于Transformer架构的文生/图生视频的项目,该项目目前已经是v3版本啦,支持生成不同分辨率尺寸,不同帧率的视频,新增了长视频模式。我也在网上看到有很多说这个是可灵的平替,那至于说效果到底有没有可灵那么好,是不是平替,大家可以自己体验下。

2024-08-02 21:58:52 1122

原创 EchoMimicV2,Audio Driven加速模型,推理速度大幅提升

EchoMimicV2如何修改acc加速,V2版本整合包已发布。

2024-07-28 16:29:43 1898

原创 LivePortrait优化版,表情迁移,数字人,视频驱动视频v2v(WIN,MAC)

由快手、中国科学技术大学和复旦大学联合团队开发的表情迁移项目——LivePortrait。

2024-07-27 12:27:59 1348

原创 一键音频驱动图片数字人项目——EchoMimic(附整合包)

阿里出品数字人相关项目——EchoMimic。整合包已发布!

2024-07-24 07:56:12 6481 6

原创 【从零开始】基于AI大模型的微信聊天机器人实现-COZE

从零开始打造你的专属微信AI聊天机器人!

2024-07-22 17:40:18 6798 40

原创 Paints-UNDO优化版,模拟从0-1的绘画过程

哟呼!好久不见。本期给大家介绍一个图片转视频的项目。比较有意思的是它可以生成某张图像的从0到最终的绘画过程。例如上传一张图像。就可以生成该图像从白纸、线稿、填色、最终的图像这个过程。还可以提取关键帧。

2024-07-21 18:52:09 1232

原创 PS使用批量脚本生成海报实践

设计朋友有需求做一批邀请函,有几十个人名,需要把人名加到海报中,PS里一个一个添加人名很麻烦,于是来问我有没有什么办法能够批量去添加。希望把人名加到红框区域内尝试用ps的脚本进行处理.jsx 脚本是Adobe Photoshop的扩展脚本文件格式,它允许用户通过编写JavaScript代码来自动化Photoshop的任务和功能。这些脚本可以执行各种操作,比如打开和编辑图像、应用滤镜、创建新的图层或文本对象、导出文件等。

2024-06-24 14:10:24 860

原创 基于chatgpt-on-wechat搭建个人知识库微信群聊机器人

啊,最近在别人微信群里看到一个聊天机器人,感觉挺好玩的。之前GPT刚出来的时候就知道有人把聊天机器人接入到微信或者QQ中来增加互动,但是当时没想那个想法。很久没关注这块了,发现现在可以使用大模型+知识库的方式来打造自己的专属机器人。我突然眼前一亮,我现在特别需要这个机器人。会有很多新加入的群友,需要发送一些群规和欢迎语。大家有时会问很多基础的重复性的问题。我希望的自动发送群规和欢迎语这个普通的群聊机器人都具备,这个不是刚需。

2024-06-22 10:13:53 5203 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除