
python爬虫小项目
newdas123
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
欢迎使用优快云-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2017-09-28 20:19:59 · 167 阅读 · 0 评论 -
多线程糗百爬虫
知识点: Thread设置守护线程 写入csv # -*- coding:utf-8 -*- # Createdon 2017/11/12 0012 下午 18:06 import re from lxml import etree import requestsfrom threading import Thread from queue import Queueclass Qiubai(obje原创 2017-11-12 19:47:56 · 250 阅读 · 0 评论 -
selenium登录知乎并且输出一些首页的标题demo
转载自http://blog.youkuaiyun.com/uselym/article/details/52525025 主要用到了selenium进行登录验证,用cookies来给scrapy,然后用自带的xpath解析网页,其实似乎应该selenium登录解析放在中间件里的,不过这里先完成功能而已吧# -*- coding: utf-8 -*- import scrapy from selenium i转载 2017-11-20 15:07:12 · 988 阅读 · 2 评论 -
SeleniumMiddleware和隐式等待和设置图片不加载
https://www.aqistudy.cn/historydata/monthdata.php?city=%E6%B7%B1%E5%9C%B3 上面这个网站的数据都是动态加载的所以使用selenium中间件来实现动态加载避免自己来分析js代码,设置图片不加载提高效率,设置随机请求头绕反爬机制,中间件部分代码如下from selenium import webdriver from seleni原创 2017-11-20 16:21:35 · 1722 阅读 · 0 评论