一个宠物收养网站，彻底把程序员逼疯了......-优快云博客

一个把后端逼疯的需求

我有个朋友，特别喜欢宠物，有一天他找到我，神秘兮兮地说：“我想到了一个绝妙的点子，你能不能帮我实现了？”

我说：“什么点子？”

他说：“我想弄一个宠物领养平台.....”

我一听就打断他：“得了吧，这样的平台太多了，你再做一个也没啥意义......”

可他就是喜欢，执意要做，说什么“也不想赚大钱，就在宠物圈里用。”

我被缠得没办法，又想到了最近AI Coding工具比较火，也许我很快就能给他鼓捣一个网站出来，就答应了。

真正做的时候，我就后悔了，我是做后端开发的，当年选择后端，一个重大的原因就是害怕做界面，我做的界面一点儿美感都没有。

但是既然答应了，也只能硬着头皮上了，在AI Coding工具的辅助下，迅速就生成了第一版：

我把界面截图发给他看，他说：“哥，你这界面设计得也太‘素净’了吧，感觉还是20年前的风格......”

我说：“这已经达到我的美学极限了，你看看那边框还有阴影呢！”

他半天没吭声，然后给我甩过来一张图：“就照着这个做！”

我一看就傻眼了，这哪里是我一个后端程序员能干的事儿? 这得找专业设计师和前端啊。

正在发愁期间，我突然想到了最近智谱开源的GLM-4.6V，我看介绍说有非常大的突破，不再仅仅是一个“视觉问答”模型，而是具备了“视觉执行”能力——能够根据视觉输入直接调用工具（Function Call），打通从感知到行动的闭环。

而且我之前还购买过智谱的Coding Plan，他们可以通过MCP读取图片，然后生成对应的代码。

GLM-4.6V 在 MMBench、MathVista 等 30+ 评测中表现优异。106B 版本比肩 2 倍参数量的 Qwen3-VL-235B；9B 的 Flash 版本性能超过 Qwen3-VL-8B。

它还有超长的128k 上下文（约等于 150 页文档或 1 小时视频），支持“过目不忘”的长视频理解和多文档分析。

既然如此，那我就可以把朋友的图发给GLM-4.6V，让它直接给我生成HTML页面，然后我再和后端集成一下不就行了？

截图直接变网页

说干就干，立刻打开chat.z.ai ，选择GLM-4.6V 模型。

选择“网页复刻”，把图片传上去，要求它生成html代码。

值得注意的是，朋友给的截图中是有图片素材的，我要求它把图片也生成，不要弄个占位符在那里，很难看。

但这对GLM-4.6V就提出了新的要求，它必须得能精确地理解截图的内容，从中找出对应的图片，然后还得去网上搜索，然后放到指定位置。

很快，GLM-4.6V就把网页给复刻了出来：

虽然不能说是100%一样，但也八九不离十了，尤其是它找到了正确的图片，放到了正确的位置，这一点确实是很惊艳。

我也试了一些其他的工具，它们做出的效果就差不少了，布局一般不说，关键是那大面积的图片空白，看着非常难受。

我把新页面发给了朋友，他看了下又提了个要求：“紫色不好看，改一下。”

这难不住我，我只需要告诉GLM-4.6V改个颜色就行，只要朋友能忍受我这直男的审美。

新颜色很快出炉：

朋友看到后，又提出了新需求：

“那个Meet Them的框太大了，弄小一些”，

“哥，英文的怎么行，得改成中文啊”

......

我被折腾得不胜其烦，最后干脆让他自己去用GLM-4.6V去设计了，反正也是自然语言交互，不用什么专业程序员的能力。

等朋友弄好了，我把它集成起来就行。

我把注意力转向了智谱GLM-4.6V提供的MCP Server，程序员肯定要在IDE中使用嘛。

智谱的视觉MCP Server 支持Claude Code,Cline等多种AI Coding客户端，我用VS Code的插件Cline，配置起来也非常简单：

{  "mcpServers": {    "zai-mcp-server": {      "type": "stdio",      "command": "npx",      "args": [        "-y",        "@z_ai/mcp-server@latest"      ],      "env": {        "Z_AI_API_KEY": "<your api key>",        "Z_AI_MODE": "ZHIPU"      }    }  }}

API Key需要到智谱AI开放平台（https://bigmodel.cn/）上去申请一下，这里不再详述。

在Cline中用起来也非常简单，只需要@一个图片，然后就可以让它工作了。