之前写了一篇文章 办公自动化之微信自动回复,奈何OmniParser无法直接获取微信内容,研究了许久,也不想使用那些破解微信的技术方案,毕竟很不安全也不可靠,还是坚持纯视觉的解决思路,于是就有了本方案。通过纯视觉的方案把微信聊天信息识别出来并保留对话结构信息,方便后续转成AI需要的历史聊天数据,让AI自动生成回复。后续结合RPA截屏和deepseek就可以实现自动回复任何人的信息了,当然再成熟些的话,不单微信,其它任何文本类的IM的回复都是可以的。
一、核心技术解析
- OCR识别引擎:采用EasyOCR多语言识别框架,实测中文准确率高达95%
- 像素定位算法:通过坐标差值±5像素实现消息自动合并
- 颜色特征识别:
- ≥250:好友消息(绿色气泡)
- ≥230:好友昵称(深灰色)
- ≥200:系统通知(浅灰色)
- 其他:用户消息(白色气泡)
二、项目实战四步走
安装依赖库:pip install easyocr pillow
准备微信右侧聊天截图(不包括右侧人名列表,减少干扰)
修改文件路径:filename = “your_chat.png”
运行脚本后将生成结构化JSON如下:
[
{
"content": "明天团建带泳衣吗?",
"color": 251,
"msg_type": "好友消息"
},
{
"content": "要带,温泉区开放到22点"