
爬虫
Heidinbug
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
新浪微博爬虫(一)
最近一个项目需要爬取微博用户的发微博数量、转发量、评论数、点赞数,并对评论做情感分析。这两天大概做出了一个雏形,在此把爬微博过程中遇到的问题记录一下,供自己学习和大家参考。 一、模拟登陆 抓包要耐心; 读懂新浪账号密码加密算法 request的使用 二、PC 端vs. 移动端 PC端:页面更复杂,但好像反爬比移动端要宽松点儿 移动端:页面结构简单,适合新手 三、爬取过程中遇到的坑 编码、找到转发、...原创 2018-10-31 15:19:04 · 3371 阅读 · 0 评论 -
微信公众号爬虫
需要爬取某个公众号的阅读量、评论量和点赞量。不得不说微信的反爬挺让人头疼的。不过细心抓包还是能找到规律的。但是大规模爬公众号我目前还没想出来,仅仅针对某个公众号爬取。 过程中遇到一个问题。我是用python爬取的,用的requests==2.19.5。但是请求的时候老是报错:HTTPSConnectionPool(host=‘mp.weixin.qq.com’, port=443): Max re...原创 2018-11-08 14:15:06 · 600 阅读 · 0 评论