自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 python爬虫:爬取猫眼TOP100榜的100部高分经典电影

1、问题描述:爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中2、思路分析:(1)目标网址:http://maoyan.com/board/4(2)代码结构:(3) init(self)初始化函数· hearders用到了fake_useragent库,用来随机生成请求头。· datas空列表,用于保存爬取的数据。def __init__(...

2018-11-09 11:37:00 1109

转载 selenium库:自动化测试工具

爬虫中主要用来解决Javascript渲染问题1.声明浏览器对象:from selenium import webdriverbrowser = webdriver.浏览器名()2.访问页面: browser.get(url)3.查找元素:单个元素:find_element_by_多个元素:find_elements_by_4.元素交互操作5.执行javascript...

2018-11-09 10:59:00 155

转载 PyQuery网页解析库

from pyquery import PyQuery as pq字符串初始化: doc = pq(html)URL初始化:doc = pq(url = “···”)文件初始化:doc = pq(filename = “demo.html”)CSS选择器(id前加#,class前加.):1.查找元素:find() 返回所有元素2.遍历元素:items()DOM操作:...

2018-11-09 10:04:00 267

转载 BeautifulSoup库

1.BeautifulSoup支持的解析器:python标准库:BeautifulSoup(markup, "html.parser") 执行速度适中,文档容错能力强lxml HTML解析器:BeautifulSoup(markup, "lxml") 执行速度适快,文档容错能力强lxml XML解析器:BeautifulSoup(markup, "xml") 执行速度适快,唯...

2018-11-09 09:52:00 136

转载 python爬虫:爬取链家深圳全部二手房的详细信息

1、问题描述:爬取链家深圳全部二手房的详细信息,并将爬取的数据存储到CSV文件中2、思路分析:(1)目标网址:https://sz.lianjia.com/ershoufang/(2)代码结构:class LianjiaSpider(object): def __init__(self): def getMaxPage(self, url): # 获取m...

2018-11-07 16:50:00 1112

转载 python爬虫:利用BeautifulSoup爬取链家深圳二手房首页的详细信息

1、问题描述:爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表2、思路分析:发送请求--获取数据--解析数据--存储数据1、目标网址:https://sz.lianjia.com/ershoufang/2、利用requests.get()方法向链家深圳二手房首页发送请求,获取首页的HTML源代码#目标网址targetUrl = "https://sz.l...

2018-11-06 20:37:00 773

转载 python爬虫:利用正则表达式爬取豆瓣读书首页的book

1、问题描述:爬取豆瓣读书首页的图书的名称、链接、作者、出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中2、思路分析:发送请求--获取数据--解析数据--存储数据1、目标网址:https://book.douban.com/2、利用requests.get()方法向豆瓣读书首页发送请求,获取首页的HTML源代码#目标网址targetUrl = ...

2018-11-04 15:23:00 836

转载 正则表达式(re)

1、re.match(pattern, str, flag) 从str的第一个字母开始匹配,若不是开头的,尽管属于str内,则无法匹配。2、贪婪匹配与非贪婪匹配(?)贪婪匹配:尝试匹配尽可能多的字符>>> sentence = """You said "why?" and I say "I don't know".""">>> re.find...

2018-11-04 15:09:00 121

转载 Requests库:python实现的简单易用的http库

1、get请求: get(url, params, headers)2、json 解析3、content 获取二进制内容4、headers 添加5、post请求:post(url,data,headers)6、files 文件上传7、cookie 获取8、session 会话维持--模拟登录9、proxies 代理设置10、timeout 超时设置11、except...

2018-11-04 14:38:00 321

转载 Urllib库:python内置的http请求库

1、四个模块:requesterrorparserobotparser2、urlopen(url, data, timeout) 发送请求get请求无data; post请求有data3、read() 获取响应体的内容4、Handler 代理IP5、cookie 维持登录状态6、error 异常处理7、urlparse 解析8、urlunparse 拼...

2018-11-04 14:26:00 724

转载 python爬虫的基本思路

爬虫:请求网站并提取数据的自动化程序。流程: 发送请求 -> 获取数据 -> 解析数据 -> 存储数据转载于:https://www.cnblogs.com/wangshx6/p/9842409.html...

2018-10-24 11:32:00 234

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除