“要是有人能帮我填表、截图、扒网页就好了!”
别急,今天安利一个开源小怪物——Bytebot。它等于给你雇了一个 24h 不抱怨的实习生,扔在电脑里,随叫随到,还不要加班费。
一、Bytebot 到底是啥?
一句话:
“让 AI 真正摸到鼠标键盘。”
• 它住在一个 Docker 容器里,里面是一套完整的 Linux 桌面(Ubuntu+XFCE)。
• 你只用说人话,它就能点按钮、敲键盘、跑浏览器、写 Excel、发邮件,甚至帮你盯价格。
• 全程浏览器操作,手机也能随时指挥。
二、为什么要自己搭,而不是用别家的?
1. 隐私拉满
任务、数据、API 密钥全在你自己硬盘,谁也偷不走。2. 零封号风险
用自己的 API key,不限次数,不担心平台抽风。3. 想装啥就装啥
LibreOffice、GIMP、Chrome 插件……改两行 Dockerfile 就行。4. 真·隔离
容器里炸了也影响不到主机,安心摸鱼。
三、5 分钟跑起来(比泡面还快)
⚠️ 先准备:
• 一台装了 Docker 和 Docker Compose 的电脑(Win/Mac/Linux 都行)。
• 任意一家的 AI key:Claude / GPT / Gemini 都可。
步骤:
1. 打开终端:
git clone https://github.com/bytebot-ai/bytebot.git cd bytebot
2. 选模型:
# 想用 Claude: echo "ANTHROPIC_API_KEY=你的key" > docker/.env # 想用 GPT: # echo "OPENAI_API_KEY=你的key" > docker/.env # 想用 Gemini: # echo "GOOGLE_API_KEY=你的key" > docker/.env
3. 一键起飞:
docker-compose -f docker/docker-compose.yml up -d
4. 打开浏览器:
http://localhost:9992
看到聊天框就成功了!
四、能帮我干点啥?举几个真香例子
• “去豆瓣把 2025 年评分前 20 的电影爬下来,做成 Excel。”
• “每小时刷一次苹果官网,iPhone 降价到 5000 以下就给我发邮件。”
• “把我邮箱里带发票的 PDF 下载好,按日期建文件夹。”
• “帮我把这 100 条用户信息填到这个破网页表单里,我去喝咖啡。”
五、手机上也能玩
只要电脑开着,把 localhost 换成内网 IP 或域名,手机浏览器就能指挥。上班地铁里发一句话,回家任务就完成了,爽不爽?
六、开发者彩蛋
• 想接入自家系统?直接调 REST API:
POST /tasks { "description": "打开 VSCode,新建 main.py,写个 Hello World" }
• 想更精细?还有 MCP 接口,坐标级操作鼠标键盘,UI 自动化测试一把梭。
七、踩坑提醒
1. API 密钥别往 GitHub 一扔,不然钱包会被刷爆。
2. 默认 VNC 密码别不改,不然隔壁同事能看你桌面。
3. 定期
docker-compose pull
,更新镜像保平安。
八、一句话总结
Bytebot = AI + 真·电脑 + 你的嘴。
今天下班前就让它把周报写了,准点跑路!
仓库地址再扔一次:
👉 https://github.com/bytebot-ai/bytebot
喜欢就去点个 ⭐,祝你早日实现“躺平式”工作!