
爬虫
松鼠先森
IT自学者。
展开
-
pyquery爬取知乎发现
import requestsfrom pyquery import PyQuery as pqurl = 'https://www.zhihu.com/explore'headers = {'User-Agent' : '*******'}html = requests.get(url, headers=headers).textdoc = pq(html)items = doc('.explo...原创 2018-06-24 22:10:55 · 500 阅读 · 0 评论 -
今日头条街拍图片抓取
爬取目标: 今日头条右上角输入:街拍之后得到的是这样一个磨人的小妖精分析网页之后发现是Ajax技术(我用的是Chrom的开发者工具,点XHR之后发现了常规的Ajax请求)然后在细致的分析Preview里面的代码。会发现image_list里面包含了图片的链接,title里面包含了名称。这就是我们需要爬取的部分了如图然后回到Headers,我们根据Request URL来构造GET请求。如下图...原创 2018-06-29 17:34:50 · 1594 阅读 · 2 评论 -
爬虫学习笔记:Selenium爬取淘宝美食 附完整代码
淘宝的页面也是通过Ajax来抓取相关数据,但是参数比较复杂,甚至包含加密秘钥。使用selenium来模拟浏览器操作,抓取淘宝商品信息,即可做到可见即可爬。1.准备工作 用selenium抓取淘宝商品,并用pyquery解析得到商品的图片,名称,价格,购买人数,店铺名称和店铺所在位置。 即需要安装selenium,pyquery,以及Chrome浏览器并配置ChromeDriver。...原创 2018-07-06 14:22:23 · 3580 阅读 · 3 评论 -
BeautifulSoup4爬取猫眼电影前一百
最开始学习python,是因为爬虫。最初学习小甲鱼的教学视频,后来在小甲鱼的论坛上发现了用bs4爬取豆瓣前一百,当时怎么也看不懂。后来系统的学习了一下爬虫。参考了崔大佬的爬虫之后,改编书上的例子(书上用正则法则),我这里用bs4,后文会附上正则法则解析网页。 系统流程: 1.观察页面构造--知道要提取多少页,url构造方式等 2.编写函数解析每一页--得到每一页需要的数据 3.数据清...原创 2018-11-07 23:14:21 · 1926 阅读 · 0 评论 -
爬取微博条目
首先当然是成果镇楼 流程图 1.打开网页 2.得到个人微博数量并计算微博页数 3.爬取某一页 4.解析某一个 5.重复3-4直至全部完成 准备工作 打开https://m.weibo.cn,然后随便搜一个名人,爬取名人的微博比较好,因为他们微博数量多嘛.粉丝也多.然后如下 你一直往下拉是不是会发现有很多新的蹦出来,别怕那不是怪兽,那是Ajax.这就是传说...原创 2018-11-11 22:52:32 · 362 阅读 · 0 评论 -
mac上破解微博登录四宫格
按照崔大佬的书目录,最终是做成一个分布式的爬虫,用框架爬取所有的微博.So,我就按着步骤来,从代理池,cookies池,到最后的crapy框架. 首先,分析一下微博四宫格验证码,它长下面这个样子哈.那么一共有4*6=24中验证码.一种方法是从图像处理的方式来做,但是有个问题. 上面这个图里面,我姑且称为4->3->2->1形验证码.那么1->2->3-&...原创 2018-11-18 17:56:24 · 538 阅读 · 0 评论 -
猫眼字体反爬
一.背景 字体反爬是什么鬼?我才听说的时候一脸懵逼.最后发现是字体编码方式.简单解释就是一种映射关系,网页的特定编码方式.说再多也不如来一图. 看图,无名之辈的票房是不是大家都能看懂,4029.11万.接下来showtime到了. 4029.11是不是很爽快的变成一堆堆框框了.老实交代有木有打开猫眼观察了.是不是惊悚的发现数字基本都变了.这是什么鬼,其实就是一种自定义字体.不对不对,...原创 2018-12-02 19:13:21 · 770 阅读 · 0 评论