
爬虫入门练习
qq_38284204
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
分析Ajax请求并爬取下载今日头条街拍美图
算是跟着来的第二个程序,写的时候也意识到很多问题,可能有一两个地方不了解,就回去翻阅相关资料,慢慢的对最开始的程序也做了一些修正,大体上已经熟悉了一整套爬取流程。 先分析各个部分,最后将总体代码贴上去。一 索引页源码的获取#返回索引页源码 def get_page_index(offset,keyword):#处理ajax异步加载的数据。 data={ 'offset原创 2017-12-08 17:08:06 · 748 阅读 · 2 评论 -
Re+Selenium新手爬取猫眼Top 100
看完了视频后,照猫画虎的把源码写了,有不懂的地方做了注释,以后还是把知识点或者难的地方写在博客上,也方便查询一些,上次的.format运算当时记得住现在就忘了,结果在写进程池之前只能用最弱智的for循环。。。 下面是代码from selenium import webdriver#引入浏览器对象 from selenium.webdriver.common.by import By from s原创 2017-12-04 22:38:57 · 757 阅读 · 0 评论 -
python中常用的Re操作
背景补充: 1.常见匹配写法 2.flags常用 r’(\w+) (\w+)(?P.*)’, ‘hello world!’,字符串之前的r可以避免转行付混淆 Re操作在字符串的匹配中有很大用处。主要有以下几个常用函数 re.match(pattern,string,flags=0)。 从第一个字符开始进行匹配,不成功则返回None。三个参数依次为正则表达式(可由接下来的compile转载 2017-12-06 18:10:50 · 669 阅读 · 0 评论 -
Python urllib库
https://www.cnblogs.com/zhaof/p/6910871.html转载 2017-12-06 22:09:45 · 172 阅读 · 0 评论