用于批量爬取微信公众号所有文章

#微信公众号批量抓取工具 ##运行环境

  1. 需要安装Python 3.5 如果运行2.7的会出现一点小bug 目前暂时没有精力改成2.7版本

  2. 关于安装库,我用的都是标准的,如果连requests 或者ftplib都木有的话我也不好说什么是吧。pymysql这个库链接MySQL还是不错的

##使用本程序问答手册

  1. 我现在有一到两万公众号的获取需求你的程序能够满足么 答:可以。如果有更大的量,可以考虑用虚拟机 然后运行电脑版微信批量用脚本模拟点击获取key。如果需求很强烈的话我会考虑改写 里面的ftp获取方法。

  2. 我想了解一下本程序批量获取微信公众号文章的方法 答:通过fiddler获取电脑版的微信公众号访问请求以及response,然后本程序解析resopnse里面的msglist 然后批量获取文章的链接 描述 发布时间 名称等 然后批量插入数据库 记得自己改数据库信息哦 值得注意的是:目前key算法换成一个公众号一个key key有效30min 我觉得用key获取文章历史的没啥意义,当然大家可以只用key来拼出来,获取文章历史列表只需要frommsgid和count 就行,我这里就不写我怎么拼了。

  3. 我该如何使用本程序,能达到我的效果 答:本程序仅作一个demo,运行new_crawl_wechat他会从response.txt转换为new_response.txt 这个response怎么来的呢是你fiddler截获 报文来的,生成的一个txt文本。至于fiddler怎么设置可以截获微信报文 怎么样修改rules可以生成你想要的response.txt尽在我的博客 fiddler教程地址

  4. 我觉得你的思路很傻比,完全没有Python精神,我该如何找到你的联系方式喷你呢? 答:见左边博客或者gmail谢谢 (请带上自己牛逼的方法和代码哦)

  5. 你这个傻吊程序靠谱不,有人fork然后成功了么? 答:有人测试成功,已经为公司进行运作,满足实验室或者小规模使用

##文件介绍

  1. prepare_request.py这个文件是以前版本,当时key没有和公众号关联一个key可以获取多个公众号文章列表,后来结果是大家都知道了 你可以借鉴这里面对key的拼接或者其他思想。
  2. new_crawl_wechet.py这个是最新的,运行它你可以立刻看到他在做什么:主要就是将fiddler4获取到mp.weixin.qq.com的request的 response获取到的txt解析然后获取其中内容并放置到mysql中.
  3. 其他的txt文件是fiddler获取下来的,new_response是我的程序生成的,具体为什么这么做我有写明.

##技术含量

  1. 恩,爬取微信除了让我比较难受以外没什么卵技术含量.

##已经更新

  1. 1.1版本更新 修复了如果拉取多章历史文章,不能获取的问题。

##日后跟新

  1. 在爬取的过程中,多进程导致微信有时候会有connection_error爆出,我准备写一个批量代理的轮子,方便切换IP。

  2. 如果有任何问题可以在issue里面提出,或者直接mail我。如果看到我会解决你的一些问题。


github地址:https://github.com/songluyi/crawl_wechat
Python可以用于爬取微信公众号文章。有几种方式可以实现这一目标,其中一种方式是通过登录微信公众号平台,在里面搜索要爬取的公众号,然后进行抓包。另外一种方式是使用安卓模拟器进行抓包。还可以使用搜狗的微信模块来获取数据。 在使用第一种方式时,首先需要拥有一个微信公众号的账号。然后,通过工具如pycharm和fiddler等,登录微信公众号平台,进入创作管理,选择图文素材,然后创建或编辑文章。最后,通过添加引用和查找公众号文章等步骤,进行数据的爬取和收集。 在实现这些步骤之前,你需要了解微信公众号平台的主要功能和界面布局。主面板可以划分为七大块,每个块都有不同的功能。在后续的操作中,你可以使用Python代码来模拟微信请求,并实现数据的爬取和分析。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [欢度国庆⭐️共享虫之美⭐️基于 Python 实现微信公众号虫(Python无所不能)](https://blog.youkuaiyun.com/xiejiachao/article/details/120573509)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [【虫】python爬取微信公众号](https://blog.youkuaiyun.com/qq_36269293/article/details/109244944)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值