一个宠物收养网站,彻底把程序员逼疯了......

01

一个把后端逼疯的需求

我有个朋友,特别喜欢宠物,有一天他找到我,神秘兮兮地说:“我想到了一个绝妙的点子,你能不能帮我实现了?”

我说:“什么点子?”

他说:“我想弄一个宠物领养平台.....”

我一听就打断他:“得了吧,这样的平台太多了,你再做一个也没啥意义......”

可他就是喜欢,执意要做,说什么“也不想赚大钱,就在宠物圈里用。”

我被缠得没办法,又想到了最近AI Coding工具比较火,也许我很快就能给他鼓捣一个网站出来,就答应了。

真正做的时候,我就后悔了,我是做后端开发的,当年选择后端,一个重大的原因就是害怕做界面,我做的界面一点儿美感都没有。

但是既然答应了,也只能硬着头皮上了,在AI Coding工具的辅助下,迅速就生成了第一版:

我把界面截图发给他看,他说:“哥,你这界面设计得也太‘素净’了吧,感觉还是20年前的风格......”

我说:“这已经达到我的美学极限了,你看看那边框还有阴影呢!”

他半天没吭声,然后给我甩过来一张图:“就照着这个做!”

我一看就傻眼了,这哪里是我一个后端程序员能干的事儿? 这得找专业设计师和前端啊。

正在发愁期间,我突然想到了最近智谱开源的GLM-4.6V,我看介绍说有非常大的突破,不再仅仅是一个“视觉问答”模型,而是具备了“视觉执行”能力——能够根据视觉输入直接调用工具(Function Call),打通从感知到行动的闭环。

而且我之前还购买过智谱的Coding Plan,他们可以通过MCP读取图片,然后生成对应的代码。

GLM-4.6V 在 MMBench、MathVista 等 30+ 评测中表现优异。106B 版本比肩 2 倍参数量的 Qwen3-VL-235B;9B 的 Flash 版本性能超过 Qwen3-VL-8B。

它还有超长的128k 上下文(约等于 150 页文档或 1 小时视频),支持“过目不忘”的长视频理解和多文档分析。

既然如此,那我就可以把朋友的图发给GLM-4.6V,让它直接给我生成HTML页面,然后我再和后端集成一下不就行了?

02

截图直接变网页

说干就干,立刻打开chat.z.ai ,选择GLM-4.6V 模型。

选择“网页复刻”,把图片传上去,要求它生成html代码。

值得注意的是,朋友给的截图中是有图片素材的,我要求它把图片也生成,不要弄个占位符在那里,很难看。

但这对GLM-4.6V就提出了新的要求,它必须得能精确地理解截图的内容,从中找出对应的图片,然后还得去网上搜索,然后放到指定位置。

很快,GLM-4.6V就把网页给复刻了出来:

虽然不能说是100%一样,但也八九不离十了,尤其是它找到了正确的图片,放到了正确的位置,这一点确实是很惊艳。

我也试了一些其他的工具,它们做出的效果就差不少了,布局一般不说,关键是那大面积的图片空白,看着非常难受。

我把新页面发给了朋友,他看了下又提了个要求:“紫色不好看,改一下。”

这难不住我,我只需要告诉GLM-4.6V改个颜色就行,只要朋友能忍受我这直男的审美。

新颜色很快出炉:

朋友看到后,又提出了新需求:

“那个Meet Them的框太大了,弄小一些”,

“哥,英文的怎么行,得改成中文啊”

......

我被折腾得不胜其烦,最后干脆让他自己去用GLM-4.6V去设计了,反正也是自然语言交互,不用什么专业程序员的能力。

等朋友弄好了,我把它集成起来就行。

我把注意力转向了智谱GLM-4.6V提供的MCP Server,程序员肯定要在IDE中使用嘛。

智谱的视觉MCP Server 支持Claude Code,Cline等多种AI Coding客户端,我用VS Code的插件Cline,配置起来也非常简单:

{  "mcpServers": {    "zai-mcp-server": {      "type": "stdio",      "command": "npx",      "args": [        "-y",        "@z_ai/mcp-server@latest"      ],      "env": {        "Z_AI_API_KEY": "<your api key>",        "Z_AI_MODE": "ZHIPU"      }    }  }}

API Key需要到智谱AI开放平台(https://bigmodel.cn/)上去申请一下,这里不再详述。

在Cline中用起来也非常简单,只需要@一个图片,然后就可以让它工作了。

生成的效果如下:

03

视觉执行大师

看到这里,你可能觉得,这个GLM-4.6V是不是只能编程啊? 这种看法就太狭隘了,GLM-4.6V是具备“原生视觉执行能力”,各种视觉相关的任务都可以干。

GLM-4.6V能自主规划、调用搜索/清洗工具,并处理返回的图表或截图,实现真正的 Agent 闭环。

比如,你上传一幅一幅的图片,它就可以独立完成从「看图」、「比价」、「生成导购清单」的完整链路。

你给它发一个足球比赛的视频,它就能自动找到哪个队在什么时候进的球,形成一个比分时间轴总结。

至于复杂图文理解,多模态工具调用跟是不在话下,比如,我发给它一个PDF,要求它转换成一个图文并茂的文章:

可以看出,GLM-4.6V不单是从PDF中总结了文字内容,更是把相关的图片也提取了出来,组织成了一篇图文并茂的文章。

04

值得亲自尝试

GLM-4.6V展示的效果,简直就是后端程序员处理UI需求的救星,看到它的效果,恐怕你也想试试了吧?

现在该模型已全面接入智谱 GLM Coding Plan,通过 MCP 协议大幅提升前端复刻与可视化调试效率。

我去官网看了下,现在智谱正在进行跨年特惠限时促销,Coding Plan非常诱人,目前首月最低仅需20元!有邀请券还可享9折优惠,拥有 Claude Code 三倍用量!

同时还赠送智谱AI输入法,用语音的方式直接调用大模型的能力,连打字都不用了。

季付和年付还有额外折扣,这波羊毛不薅的话实在是可惜了!

强烈建议大家来试一试,体验一下GLM-4.6V的便捷和强大:

https://bigmodel.cn/glm-coding

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值