本地部署体验文生图模型Flux 和 Deepseek 的 Janus Pro -7B

人工智能这么火,作为程序员肯定不能免俗。听了大佬们的建议上来就买了这本:

851740235571_.pic

结果发现这学习曲线有点陡,搞的有点自闭。

所以转换一下思路,先从学习别人的科普视频 + 体验AI 模型开始。这次本地部署文生图模型。Flux 和 Deepseek 的 Janus Pro -7B

Flux

起初部署这个模型使用的 Flux + ComfyUI 的方案,结果没成功。换了个方式,从 App store 直接安装 Draw Things。这种就比较简单。安装好Draw Things 后再下载 Flux.1 [dev] 模型就行。输入提示词,点击生成。每次耗时一两分钟左右。

  • 提示词: a boy

    image-20250222232700726

    image-20250222232805287

    效果很确实没得说,第一张猛的一看还以为是拍摄的照片

  • A cute Silver Shaded British Shorthair cat

    想让画个银渐层看看,这次有点离谱貌似不管怎么调整都画不出来个银渐层。

    image-20250222233323813

    image-20250222233440814

  • 复杂点的,尝试用 Flux 来给文章配插图

    先输入文章到 ChatGPT,让 ChatGPT 根据文章内容生成 prompt,再将提示词拷贝到 Draw Things 里生成图片。这次效果还不错(再次感慨一下 AI 确实牛逼,给文章搞一般图片这种活没人类什么事情了)。

    image-20250222233859048

Deepseek 的 Janus Pro -7B

部署 Janus 按照这篇教程来操作的:本地部署 DeepSeek Janus Pro 文生图大模型 - Agile.Zhou - 博客园

python demo/app_januspro.py,运行。

机器问题没跑起来,PyTorch 数据类型不兼容:

  File "/opt/anaconda3/envs/janus_pro/lib/python3.10/site-packages/torch/nn/modules/conv.py", line 459, in _conv_forward
    return F.conv2d(input, weight, bias, self.stride,
RuntimeError: "slow_conv2d_cpu" not implemented for 'Half'

对app_januspro.py 的代码做了调整:

修改后再次运行,很久不出结果。发现机器的性能没压榨出来,CPU 和 GPU 的占用一直很低。

再次修改参数,将app_januspro.py 中parallel_size 改为 1,每次生成 5 张改为 1 张。降低图片大小、图片质量。

修改后再次尝试 —— 每次 可以在7 分钟左右渲染一张图出来。

这里默认走的是cuda,需要改成 Mac 的mps,具体怎么改还得再研究研究。

继续画两张银渐层:

351740239727_.pic

(这是只鹰嘴银渐层吗?)

341740239717_.pic

让画一只呆萌的银渐层,银渐层没画出来,呆萌倒是有那么点意思。

总结——AI 确实牛叉

欢迎大家关注我的公众号:

### 实现文本生成图像功能的本地部署 对于希望利用 DeepSeek 技术栈来实现在给定文本的情况下自动生成对应描述图片的应用场景,目前提供的参考资料主要集中在其他特定领域如视觉语言模型克隆[^1]、机器翻译系统构建[^2]以及基于 IPAdapter 的风格迁移学习[^3]。然而针对具体的文本转图像任务并没有直接提及。 尽管如此,在现有技术框架下要完成从文本到图像的任务通常涉及以下几个方面的考量: #### 准备工作环境 首先确保已经安装了必要的依赖库并配置好 Python 开发环境。接着按照官方指南下载或克隆所需的项目源码至本地计算机上: ```bash git clone https://github.com/deepseek-ai/DeepSeek-VL.git cd DeepSeek-VL ``` #### 安装依赖项 进入项目目录后执行命令以安装所有必需的Python包: ```bash pip install -r requirements.txt ``` #### 获取预训练模型 为了能够顺利运行文本生成功能,还需要获取预先训练好的权重文件。这可能涉及到访问指定链接下载或是通过API接口拉取最新版本的模型参数。 #### 编写脚本调用模型服务 一旦上述准备工作就绪,则可以通过编写简单的Python脚本来测试整个流程是否正常运作。下面给出一段示意性的代码片段用于展示如何加载模型并对输入字符串进行处理从而得到相应的图形化输出结果: ```python from transformers import BlipProcessor, BlipForConditionalGeneration import torch processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large") model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to("cuda") def generate_image_from_text(input_text): inputs = processor(text=[input_text], return_tensors="pt").to("cuda") out = model.generate(**inputs) generated_images = processor.decode(out[0], skip_special_tokens=True) return generated_images ``` 需要注意的是这里使用的 `BlipForConditionalGeneration` 其处理器并非来自之前提到的具体产品线而是更通用的一种解决方案;实际应用时应参照具体产品的文档说明调整相应部分。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值