
python爬虫
ZwY*
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python3爬豆瓣电影详情并写入表格
Python3爬豆瓣电影详情并写入表格直接上干货,嘿嘿1:可以首先从电影详情页入手,打开豆瓣选择找电影随便点开一个电影查看详情,会看到很多详情,然后右击查看源代码,把需要抓取的详情在源代码中搜索找到具体位置。2:在这里呢我用的是Beautiful soup4来匹配电影详情...原创 2018-11-09 17:49:42 · 646 阅读 · 0 评论 -
轻松爬51job(一)
近期的期末作业时爬51job并分析,我就分享一下我的代码其实爬这个没有遇到反扒轻轻松松就爬下来了,应该也是数据量少的原因但是这里呢我用了列表推导式,还别说,程序真的快了一些代码量也减少了,用了map这个函数发现也是超级好用,我大致说一下map,至于列表推导式的话一看就懂了。map这个函数允许接收一个可迭代对象和一个函数,当然这个函数可以是匿名函数,就是lambda,举个栗子吧,f =...原创 2019-06-03 22:15:23 · 1045 阅读 · 0 评论 -
关于requests.get(url)" ´óÊý¾ÝÍÚ¾ò¹¤³ÌÊ£¨Ò½Áƽ¡¿µ·½Ïò£©"
在写爬虫的时候发现requests(url)之后得到的responses.text,这里的中文都是" ´óÊý¾ÝÍÚ¾ò¹¤³ÌÊ£¨Ò½Áƽ¡¿µ·½Ïò£©"这种乱码,懵了,之前没见过百度也没百度到,最后看到网上的一个方法,说把responses转化一下转成gbk编码的,然后试了一下中文就出来了,不知道有没有小伙伴跟我遇到同样的问题。主要原因在于解码时候用的是utf-8,但是这个网页的...原创 2019-06-01 12:42:44 · 2385 阅读 · 0 评论 -
Dataframe取差集你记牢了吗?
哇,时间好快一个多月没更新文章了,在这一个月里发生了很多事也是没有太多时间。不过我胡汉三又回来了,哈哈,,,废话不多说,今天我要记录一个很容易用到的知识点。就是取两个dataframe的差集,遇到这个情况我第一个想到的是循环遍历,然它一一匹配,但是慢慢我觉得小数据的速度还行,但是数据量大了以后可能会比较繁琐。不停扒网页我发现的确有简单方法:df1 = DataFrame([['a', 1...原创 2019-04-24 17:44:26 · 6677 阅读 · 4 评论 -
python 爬拉勾网之”您操作太频繁,请稍后访问“
爬拉钩的时候发现平常的爬取思路走不通,往headers里边加上cookie,Referer,Accept,User_Agent之后返回的responsre都是“status false msg "您操作太频繁,请稍后再访问" clientIp "117.136.107.190"”,然后就把参数更详细的添加进去发现也不好用,然后查资料看到了别人用requests,尝试了一下果然可以...原创 2019-03-19 11:48:43 · 4703 阅读 · 9 评论 -
selenium破解bilbili滑动验证码
登陆b站的时候大家都会见到滑动验证码,打开开发者工具分析一下这里的验证码1:首先需要鼠标触碰到滑动按钮才会显示出完整的验证码图片2:点击按钮出现缺口图片3:查看图片元素会(打开图片链接)发现完整的图片被打乱了。把整个分成了上下两部分各是26张。但是会发现虽然图片的顺序是乱的可是它的坐标还是有规律可寻解决思路:先来分析一下这个坐标的规律,我就打开查找元素一直在那看他们之间的关系,最后发...原创 2019-03-17 12:08:12 · 604 阅读 · 0 评论 -
解决pycharm中tesserocr安装问题
课余时间在倒腾破解验证码,就发现验证码类型可真是多,为了防爬虫也是费尽心机,,什么滑动验证码点选验证码图片验证码九宫格等等。我就打算从最简单的图片验证码开始研究了,然后安装需要的pypi呗,看到网上说用tesserocr 并且次库依赖于tesseract (ocr图像识别引擎)OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将...原创 2019-03-15 12:59:13 · 3200 阅读 · 1 评论 -
知乎里那些绝美的壁纸在这里!
**喜欢刷知乎的同志们会知道知乎里好看的壁纸有很多,今天笔者就把它全爬下来。问题链接:https://www.zhihu.com/question/308072414/answer/581633043打开知乎的这个回答下拉右边的滑动框,不难发现这个网页是动态加载的,打开f12分析请求所有的回答都被写入了js每当下拉框拉到最底部客户端就会发出一个请求,然后服务器返回js文件。再次观察这个请求ur...原创 2019-03-10 09:25:33 · 15069 阅读 · 2 评论 -
python3 网易云音乐评论走一波
音乐的评论相对来说有一丢丢困难,主要在于它嵌套的循环多一点,还多了个翻页,下面详细介绍:思路1.驱动浏览器匹配到歌曲总页数,这个页数会不断刷新导入使用的模块:from lxml import htmlimport timefrom selenium import webdriverimport reimport csvimport pymysql...原创 2019-03-06 23:15:19 · 603 阅读 · 1 评论 -
python 爬网易云歌手id和歌手姓名
成功爬网易云的关键点在于获取网易云网站的框架源码,打开网易云音乐然后右键查看源码 发现歌手的id源码中找不到 ,观察源码会发现有标签iframe即网页嵌套网页,打开开发者工具,输入歌手id能够定位到歌手的id位置,右击查看框架源码 会发现很多东西藏在框架源码里,寻找框架源码的链接规律,依此遍历。源码如下:import requestsimport csvfrom bs4 import B...原创 2019-02-27 13:57:42 · 1414 阅读 · 0 评论 -
python3 爬取网易云歌曲详情
上一篇介绍了爬网易云歌手id, 在这里我们可以用获取的id数据来构造歌手详情页的url。在这里呢我还是比较习惯使用selenium来爬。首先简单介绍一下简单介绍一下这里selenium:它是浏览器的一个自动化测试框架,运行在浏览器中模拟人操作浏览器,支持Mozilla Firefox,Ie,Google Chrome,Safari,Opera等浏览器。在这里笔者用的是Chrome 72,使用...原创 2019-03-05 11:31:27 · 946 阅读 · 3 评论 -
轻松爬51job(二)
第一次爬的数据太少了,应老师要求要爬的数据不止三种,所以这次要进入详情页来抓取数据,跟上次的抓取格式有点不一样稍微繁琐一些不过爬51job相对于拉钩,boss直聘等招聘网站要轻松一些,反爬基本没遇到,,但是里边有一些“VIP”的网站,也就是说这些的网站跟其他网站构造有点不同,没办法用匹配其他网站的办法来对它们,然而我想的是直接就把这种网站先过滤出来在想办法专门对付他们。首先是先把详情页的u...原创 2019-06-04 11:35:25 · 1277 阅读 · 1 评论