- 博客(11)
- 收藏
- 关注
转载 python爬虫:爬取猫眼TOP100榜的100部高分经典电影
1、问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2、思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) init(self)初始化函数 · hearders用到了fake_useragent库,用来随机生成请求头。 · datas空列表,用于保存爬取的数据。 def __init__(...
2018-11-09 11:37:00
1120
转载 selenium库:自动化测试工具
爬虫中主要用来解决Javascript渲染问题 1.声明浏览器对象: from selenium import webdriver browser = webdriver.浏览器名() 2.访问页面: browser.get(url) 3.查找元素: 单个元素:find_element_by_ 多个元素:find_elements_by_ 4.元素交互操作 5.执行javascript...
2018-11-09 10:59:00
168
转载 PyQuery网页解析库
from pyquery import PyQuery as pq 字符串初始化: doc = pq(html) URL初始化:doc = pq(url = “···”) 文件初始化:doc = pq(filename = “demo.html”) CSS选择器(id前加#,class前加.): 1.查找元素:find() 返回所有元素 2.遍历元素:items() DOM操作:...
2018-11-09 10:04:00
280
转载 BeautifulSoup库
1.BeautifulSoup支持的解析器: python标准库:BeautifulSoup(markup, "html.parser") 执行速度适中,文档容错能力强 lxml HTML解析器:BeautifulSoup(markup, "lxml") 执行速度适快,文档容错能力强 lxml XML解析器:BeautifulSoup(markup, "xml") 执行速度适快,唯...
2018-11-09 09:52:00
146
转载 python爬虫:爬取链家深圳全部二手房的详细信息
1、问题描述: 爬取链家深圳全部二手房的详细信息,并将爬取的数据存储到CSV文件中 2、思路分析: (1)目标网址:https://sz.lianjia.com/ershoufang/ (2)代码结构: class LianjiaSpider(object): def __init__(self): def getMaxPage(self, url): # 获取m...
2018-11-07 16:50:00
1128
转载 python爬虫:利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1、问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2、思路分析: 发送请求--获取数据--解析数据--存储数据 1、目标网址:https://sz.lianjia.com/ershoufang/ 2、利用requests.get()方法向链家深圳二手房首页发送请求,获取首页的HTML源代码 #目标网址 targetUrl = "https://sz.l...
2018-11-06 20:37:00
785
转载 python爬虫:利用正则表达式爬取豆瓣读书首页的book
1、问题描述: 爬取豆瓣读书首页的图书的名称、链接、作者、出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中 2、思路分析: 发送请求--获取数据--解析数据--存储数据 1、目标网址:https://book.douban.com/ 2、利用requests.get()方法向豆瓣读书首页发送请求,获取首页的HTML源代码 #目标网址 targetUrl = ...
2018-11-04 15:23:00
852
转载 正则表达式(re)
1、re.match(pattern, str, flag) 从str的第一个字母开始匹配,若不是开头的,尽管属于str内,则无法匹配。 2、贪婪匹配与非贪婪匹配(?) 贪婪匹配:尝试匹配尽可能多的字符 >>> sentence = """You said "why?" and I say "I don't know".""" >>> re.find...
2018-11-04 15:09:00
127
转载 Requests库:python实现的简单易用的http库
1、get请求: get(url, params, headers) 2、json 解析 3、content 获取二进制内容 4、headers 添加 5、post请求:post(url,data,headers) 6、files 文件上传 7、cookie 获取 8、session 会话维持--模拟登录 9、proxies 代理设置 10、timeout 超时设置 11、except...
2018-11-04 14:38:00
338
转载 Urllib库:python内置的http请求库
1、四个模块: request error parse robotparser 2、urlopen(url, data, timeout) 发送请求 get请求无data; post请求有data 3、read() 获取响应体的内容 4、Handler 代理IP 5、cookie 维持登录状态 6、error 异常处理 7、urlparse 解析 8、urlunparse 拼...
2018-11-04 14:26:00
740
转载 python爬虫的基本思路
爬虫:请求网站并提取数据的自动化程序。 流程: 发送请求 -> 获取数据 -> 解析数据 -> 存储数据 转载于:https://www.cnblogs.com/wangshx6/p/9842409.html...
2018-10-24 11:32:00
244
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人