
爬虫
mumu157
这个作者很懒,什么都没留下…
展开
-
第一篇博客
开始在MOOC系统学习一下爬虫,记录分享一下1.第一次写博客,测试用欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下...原创 2019-02-03 14:20:53 · 119 阅读 · 0 评论 -
Requests库的一些注意事项
1.Response对象r.text和r.content的区别: #r = requests.get("https://www.baidu.com")r.text 返回的是响应内容的字符串r.content 返回的是响应内容的二进制形式2.Response的编码问题:r.encoding:从返回对象的header中提取charset字段,存储为encoding;若charset不...原创 2019-02-03 18:01:48 · 391 阅读 · 0 评论 -
Re库的一些使用记录
1.常用函数:re.search(pattern, string, flags = 0): 返回第一个匹配对象re.match(): 从开始匹配,赶回第一个匹配对象re.findall():返回所有匹配对象re.split():按匹配结果分割,返回匹配对象re.finditer():返回匹配对象列表re.sub(): 替换匹配对象pattern:正则表达式字符串,string:被...原创 2019-02-04 17:54:54 · 437 阅读 · 0 评论 -
Scrapy学习
1.爬虫框架结构- 5+2结构:Engine:框架核心,控制模块之间的数据流,根据条件触发事件Downloader:根据请求下载网页Scheduler:对爬取请求进行调度管理Spider:框架核心,解析Downloader返回的响应,生成提取信息和新的请求,需要用户编写配置代码Item Pipelines:清洗、检验和存储数据,需要用户编写配置Downloader Middlewar...原创 2019-02-06 15:58:03 · 306 阅读 · 0 评论 -
爬虫中遇到&nsbp的解决办法
1.为什么用 &nsbp ?在html代码中每输入一个转义字符&nbsp就表示一个空格,输入十个&nbsp,页面中就显示10个空格位置。而在html代码中输入空格,不管输入多少个空格,最终在页面中显示的空格位置只有一个。2.爬虫中如何去除?i.replace(u’\xa0’, ’ ')u以u或U开头的字符串表示unicode字符串Unicode是书...原创 2019-02-07 21:57:55 · 4319 阅读 · 0 评论 -
Scrapy 爬取百度贴吧全站图片
用scrapy写一个爬取百度贴吧的爬虫,以壁纸吧为例。进入壁纸吧,审查元素,找到所有的帖子链接,获取帖子链接代码:results = response.css(".threadlist_lz.clearfix a::attr(href)").extract()进入帖子审查元素,获取帖子内所有图片的链接和帖子名称,存入item代码item['url'] = respons...原创 2019-02-18 19:46:29 · 492 阅读 · 0 评论 -
python自动推送更新的小说
目前在看一部连载小说,每天花时间查更新太麻烦了,毕竟也是学过爬虫的,用python写个小程序自动推送更新还不是美滋滋的原创 2019-03-24 08:36:19 · 1363 阅读 · 0 评论