爬虫
MonCheri_Flowers
Change the world by program
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy的安装和创建
安装scrapy新建虚拟环境article_spider安装scrapy安装报错:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build原创 2017-10-11 23:48:50 · 425 阅读 · 0 评论 -
urllib库的使用
urllib库是python内置的http请求库四个模块urllib.request :请求模块urllib.error: 异常处理模块urllib.parse : url解析模块工具模块, 提供了很多处理方法:拆分、合并...urllib.robotparser : robots.txt解析模块(用的不是很多)判断哪些网站是可以爬的那些不可以原创 2017-10-28 20:35:15 · 521 阅读 · 0 评论 -
Requests库的使用
基于urllib3改写的,API更加方便, 简单易用几句代码实现代理、cookie... 设置请求方式requests.post('http://httpbin.org/post')requests.delete('http://httpbin.org/delete')requests.put('http://httpbin.org/put')requests.header('h原创 2017-10-28 22:09:14 · 447 阅读 · 0 评论 -
xPath用法
最近看视频学习,用xPath爬取网页上的内容信息,做了以下笔记。效率高:命令行:scrapy shell http://blog.jobbole.com/112585/获取标题title = response.xpath('//div[@class="entry-header"]/h1/text()')>>> title.extract()['写代码容易,编程原创 2017-10-12 15:46:19 · 2428 阅读 · 0 评论 -
python正则表达式
最近做爬虫,把python基础的正则表达式又重新过了一遍。常规匹配import recontent = 'Hello 123 4567 World_this is a regex Demo'print(len(content))result = re.match("^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$", content)pr原创 2017-10-30 10:57:13 · 493 阅读 · 0 评论 -
CSS选择器的使用
获取标题>>> response.css(".entry-header h1").extract()['写代码容易,编程并不容易']>>> response.css(".entry-header h1::text").extract()['写代码容易,编程并不容易']获取时间create_time = response.css("p.entry-meta-hide-on-mob原创 2017-10-13 09:45:23 · 508 阅读 · 0 评论 -
BeautifulSoup库的使用
灵活方便的网页解析库,处理高效,支持多种解析器是python的一个库,通过解析文档为用户提供需要抓取的数据自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。不用编写复杂的正则表达式提取网页信息(代替正则)安装:pip35 install beautifulsoup4pip35 install lxml# lxml解析器更加强大,速度更快pip35 in原创 2017-10-30 15:50:21 · 547 阅读 · 0 评论 -
python安装selenium
命令行输入:pip install selenium进入python3.6下:import seleniumfrom selenium import webdriverdriver = webdriver.Chrome()报错:FileNotFoundError: [WinError 2] 系统找不到指定的文件。selenium.common.exception原创 2017-10-30 17:42:48 · 977 阅读 · 0 评论
分享