
爬虫
MonCheri_Flowers
Change the world by program
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy的安装和创建
安装scrapy 新建虚拟环境article_spider安装scrapy 安装报错: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build原创 2017-10-11 23:48:50 · 406 阅读 · 0 评论 -
urllib库的使用
urllib库是python内置的http请求库 四个模块 urllib.request :请求模块 urllib.error: 异常处理模块 urllib.parse : url解析模块 工具模块, 提供了很多处理方法:拆分、合并... urllib.robotparser : robots.txt解析模块(用的不是很多) 判断哪些网站是可以爬的那些不可以原创 2017-10-28 20:35:15 · 503 阅读 · 0 评论 -
Requests库的使用
基于urllib3改写的,API更加方便, 简单易用几句代码实现代理、cookie... 设置 请求方式 requests.post('http://httpbin.org/post') requests.delete('http://httpbin.org/delete') requests.put('http://httpbin.org/put') requests.header('h原创 2017-10-28 22:09:14 · 428 阅读 · 0 评论 -
xPath用法
最近看视频学习,用xPath爬取网页上的内容信息,做了以下笔记。 效率高: 命令行: scrapy shell http://blog.jobbole.com/112585/ 获取标题 title = response.xpath('//div[@class="entry-header"]/h1/text()') >>> title.extract() ['写代码容易,编程原创 2017-10-12 15:46:19 · 2409 阅读 · 0 评论 -
python正则表达式
最近做爬虫,把python基础的正则表达式又重新过了一遍。 常规匹配 import re content = 'Hello 123 4567 World_this is a regex Demo' print(len(content)) result = re.match("^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$", content) pr原创 2017-10-30 10:57:13 · 478 阅读 · 0 评论 -
CSS选择器的使用
获取标题 >>> response.css(".entry-header h1").extract() ['写代码容易,编程并不容易'] >>> response.css(".entry-header h1::text").extract() ['写代码容易,编程并不容易'] 获取时间 create_time = response.css("p.entry-meta-hide-on-mob原创 2017-10-13 09:45:23 · 489 阅读 · 0 评论 -
BeautifulSoup库的使用
灵活方便的网页解析库,处理高效,支持多种解析器是python的一个库,通过解析文档为用户提供需要抓取的数据自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。不用编写复杂的正则表达式提取网页信息(代替正则) 安装: pip35 install beautifulsoup4 pip35 install lxml # lxml解析器更加强大,速度更快 pip35 in原创 2017-10-30 15:50:21 · 521 阅读 · 0 评论 -
python安装selenium
命令行输入: pip install selenium 进入python3.6下: import selenium from selenium import webdriver driver = webdriver.Chrome() 报错: FileNotFoundError: [WinError 2] 系统找不到指定的文件。 selenium.common.exception原创 2017-10-30 17:42:48 · 951 阅读 · 0 评论