aijie1245-优快云博客

转载 python爬虫：爬取猫眼TOP100榜的100部高分经典电影

1、问题描述：爬取猫眼TOP100榜的100部高分经典电影，并将数据存储到CSV文件中2、思路分析:(1)目标网址：http://maoyan.com/board/4(2)代码结构：(3) init(self)初始化函数· hearders用到了fake_useragent库，用来随机生成请求头。· datas空列表，用于保存爬取的数据。def __init__(...

2018-11-09 11:37:00 1121

转载 selenium库：自动化测试工具

爬虫中主要用来解决Javascript渲染问题1.声明浏览器对象：from selenium import webdriverbrowser = webdriver.浏览器名()2.访问页面： browser.get(url)3.查找元素：单个元素：find_element_by_多个元素：find_elements_by_4.元素交互操作5.执行javascript...

2018-11-09 10:59:00 169

转载 PyQuery网页解析库

from pyquery import PyQuery as pq字符串初始化: doc = pq(html)URL初始化：doc = pq(url = “···”)文件初始化：doc = pq(filename = “demo.html”)CSS选择器（id前加#，class前加.）：1.查找元素：find() 返回所有元素2.遍历元素：items()DOM操作：...

2018-11-09 10:04:00 281

转载 BeautifulSoup库

1.BeautifulSoup支持的解析器：python标准库：BeautifulSoup(markup, "html.parser") 执行速度适中，文档容错能力强lxml HTML解析器：BeautifulSoup(markup, "lxml") 执行速度适快，文档容错能力强lxml XML解析器：BeautifulSoup(markup, "xml") 执行速度适快，唯...

2018-11-09 09:52:00 147

转载 python爬虫：爬取链家深圳全部二手房的详细信息

1、问题描述：爬取链家深圳全部二手房的详细信息，并将爬取的数据存储到CSV文件中2、思路分析:(1)目标网址：https://sz.lianjia.com/ershoufang/(2)代码结构：class LianjiaSpider(object): def __init__(self): def getMaxPage(self, url): # 获取m...

2018-11-07 16:50:00 1129

转载 python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息

1、问题描述：爬取链家深圳二手房的详细信息，并将爬取的数据存储到Excel表2、思路分析:发送请求--获取数据--解析数据--存储数据1、目标网址：https://sz.lianjia.com/ershoufang/2、利用requests.get()方法向链家深圳二手房首页发送请求，获取首页的HTML源代码#目标网址targetUrl = "https://sz.l...

2018-11-06 20:37:00 788

转载 python爬虫：利用正则表达式爬取豆瓣读书首页的book

1、问题描述：爬取豆瓣读书首页的图书的名称、链接、作者、出版日期，并将爬取的数据存储到Excel表格Douban_I.xlsx中2、思路分析:发送请求--获取数据--解析数据--存储数据1、目标网址：https://book.douban.com/2、利用requests.get()方法向豆瓣读书首页发送请求，获取首页的HTML源代码#目标网址targetUrl = ...

2018-11-04 15:23:00 854

转载正则表达式（re）

1、re.match(pattern, str, flag) 从str的第一个字母开始匹配，若不是开头的，尽管属于str内，则无法匹配。2、贪婪匹配与非贪婪匹配(?)贪婪匹配：尝试匹配尽可能多的字符>>> sentence = """You said "why?" and I say "I don't know".""">>> re.find...

2018-11-04 15:09:00 128

转载 Requests库：python实现的简单易用的http库

1、get请求: get(url, params, headers)2、json 解析3、content 获取二进制内容4、headers 添加5、post请求：post（url，data，headers）6、files 文件上传7、cookie 获取8、session 会话维持--模拟登录9、proxies 代理设置10、timeout 超时设置11、except...

2018-11-04 14:38:00 339

转载 Urllib库：python内置的http请求库

1、四个模块：requesterrorparserobotparser2、urlopen(url, data, timeout) 发送请求get请求无data； post请求有data3、read() 获取响应体的内容4、Handler 代理IP5、cookie 维持登录状态6、error 异常处理7、urlparse 解析8、urlunparse 拼...

2018-11-04 14:26:00 741