- 博客(11)
- 收藏
- 关注
转载 python爬虫:爬取猫眼TOP100榜的100部高分经典电影
1、问题描述:爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中2、思路分析:(1)目标网址:http://maoyan.com/board/4(2)代码结构:(3) init(self)初始化函数· hearders用到了fake_useragent库,用来随机生成请求头。· datas空列表,用于保存爬取的数据。def __init__(...
2018-11-09 11:37:00
1109
转载 selenium库:自动化测试工具
爬虫中主要用来解决Javascript渲染问题1.声明浏览器对象:from selenium import webdriverbrowser = webdriver.浏览器名()2.访问页面: browser.get(url)3.查找元素:单个元素:find_element_by_多个元素:find_elements_by_4.元素交互操作5.执行javascript...
2018-11-09 10:59:00
155
转载 PyQuery网页解析库
from pyquery import PyQuery as pq字符串初始化: doc = pq(html)URL初始化:doc = pq(url = “···”)文件初始化:doc = pq(filename = “demo.html”)CSS选择器(id前加#,class前加.):1.查找元素:find() 返回所有元素2.遍历元素:items()DOM操作:...
2018-11-09 10:04:00
267
转载 BeautifulSoup库
1.BeautifulSoup支持的解析器:python标准库:BeautifulSoup(markup, "html.parser") 执行速度适中,文档容错能力强lxml HTML解析器:BeautifulSoup(markup, "lxml") 执行速度适快,文档容错能力强lxml XML解析器:BeautifulSoup(markup, "xml") 执行速度适快,唯...
2018-11-09 09:52:00
136
转载 python爬虫:爬取链家深圳全部二手房的详细信息
1、问题描述:爬取链家深圳全部二手房的详细信息,并将爬取的数据存储到CSV文件中2、思路分析:(1)目标网址:https://sz.lianjia.com/ershoufang/(2)代码结构:class LianjiaSpider(object): def __init__(self): def getMaxPage(self, url): # 获取m...
2018-11-07 16:50:00
1112
转载 python爬虫:利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1、问题描述:爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表2、思路分析:发送请求--获取数据--解析数据--存储数据1、目标网址:https://sz.lianjia.com/ershoufang/2、利用requests.get()方法向链家深圳二手房首页发送请求,获取首页的HTML源代码#目标网址targetUrl = "https://sz.l...
2018-11-06 20:37:00
773
转载 python爬虫:利用正则表达式爬取豆瓣读书首页的book
1、问题描述:爬取豆瓣读书首页的图书的名称、链接、作者、出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中2、思路分析:发送请求--获取数据--解析数据--存储数据1、目标网址:https://book.douban.com/2、利用requests.get()方法向豆瓣读书首页发送请求,获取首页的HTML源代码#目标网址targetUrl = ...
2018-11-04 15:23:00
836
转载 正则表达式(re)
1、re.match(pattern, str, flag) 从str的第一个字母开始匹配,若不是开头的,尽管属于str内,则无法匹配。2、贪婪匹配与非贪婪匹配(?)贪婪匹配:尝试匹配尽可能多的字符>>> sentence = """You said "why?" and I say "I don't know".""">>> re.find...
2018-11-04 15:09:00
121
转载 Requests库:python实现的简单易用的http库
1、get请求: get(url, params, headers)2、json 解析3、content 获取二进制内容4、headers 添加5、post请求:post(url,data,headers)6、files 文件上传7、cookie 获取8、session 会话维持--模拟登录9、proxies 代理设置10、timeout 超时设置11、except...
2018-11-04 14:38:00
321
转载 Urllib库:python内置的http请求库
1、四个模块:requesterrorparserobotparser2、urlopen(url, data, timeout) 发送请求get请求无data; post请求有data3、read() 获取响应体的内容4、Handler 代理IP5、cookie 维持登录状态6、error 异常处理7、urlparse 解析8、urlunparse 拼...
2018-11-04 14:26:00
724
转载 python爬虫的基本思路
爬虫:请求网站并提取数据的自动化程序。流程: 发送请求 -> 获取数据 -> 解析数据 -> 存储数据转载于:https://www.cnblogs.com/wangshx6/p/9842409.html...
2018-10-24 11:32:00
234
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人