自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 python爬虫:爬取猫眼TOP100榜的100部高分经典电影

1、问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2、思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) init(self)初始化函数 · hearders用到了fake_useragent库,用来随机生成请求头。 · datas空列表,用于保存爬取的数据。 def __init__(...

2018-11-09 11:37:00 1120

转载 selenium库:自动化测试工具

爬虫中主要用来解决Javascript渲染问题 1.声明浏览器对象: from selenium import webdriver browser = webdriver.浏览器名() 2.访问页面: browser.get(url) 3.查找元素: 单个元素:find_element_by_ 多个元素:find_elements_by_ 4.元素交互操作 5.执行javascript...

2018-11-09 10:59:00 168

转载 PyQuery网页解析库

from pyquery import PyQuery as pq 字符串初始化: doc = pq(html) URL初始化:doc = pq(url = “···”) 文件初始化:doc = pq(filename = “demo.html”) CSS选择器(id前加#,class前加.): 1.查找元素:find() 返回所有元素 2.遍历元素:items() DOM操作:...

2018-11-09 10:04:00 280

转载 BeautifulSoup库

1.BeautifulSoup支持的解析器: python标准库:BeautifulSoup(markup, "html.parser") 执行速度适中,文档容错能力强 lxml HTML解析器:BeautifulSoup(markup, "lxml") 执行速度适快,文档容错能力强 lxml XML解析器:BeautifulSoup(markup, "xml") 执行速度适快,唯...

2018-11-09 09:52:00 146

转载 python爬虫:爬取链家深圳全部二手房的详细信息

1、问题描述: 爬取链家深圳全部二手房的详细信息,并将爬取的数据存储到CSV文件中 2、思路分析: (1)目标网址:https://sz.lianjia.com/ershoufang/ (2)代码结构: class LianjiaSpider(object): def __init__(self): def getMaxPage(self, url): # 获取m...

2018-11-07 16:50:00 1128

转载 python爬虫:利用BeautifulSoup爬取链家深圳二手房首页的详细信息

1、问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2、思路分析: 发送请求--获取数据--解析数据--存储数据 1、目标网址:https://sz.lianjia.com/ershoufang/ 2、利用requests.get()方法向链家深圳二手房首页发送请求,获取首页的HTML源代码 #目标网址 targetUrl = "https://sz.l...

2018-11-06 20:37:00 785

转载 python爬虫:利用正则表达式爬取豆瓣读书首页的book

1、问题描述: 爬取豆瓣读书首页的图书的名称、链接、作者、出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中 2、思路分析: 发送请求--获取数据--解析数据--存储数据 1、目标网址:https://book.douban.com/ 2、利用requests.get()方法向豆瓣读书首页发送请求,获取首页的HTML源代码 #目标网址 targetUrl = ...

2018-11-04 15:23:00 852

转载 正则表达式(re)

1、re.match(pattern, str, flag) 从str的第一个字母开始匹配,若不是开头的,尽管属于str内,则无法匹配。 2、贪婪匹配与非贪婪匹配(?) 贪婪匹配:尝试匹配尽可能多的字符 >>> sentence = """You said "why?" and I say "I don't know".""" >>> re.find...

2018-11-04 15:09:00 127

转载 Requests库:python实现的简单易用的http库

1、get请求: get(url, params, headers) 2、json 解析 3、content 获取二进制内容 4、headers 添加 5、post请求:post(url,data,headers) 6、files 文件上传 7、cookie 获取 8、session 会话维持--模拟登录 9、proxies 代理设置 10、timeout 超时设置 11、except...

2018-11-04 14:38:00 338

转载 Urllib库:python内置的http请求库

1、四个模块: request error parse robotparser 2、urlopen(url, data, timeout) 发送请求 get请求无data; post请求有data 3、read() 获取响应体的内容 4、Handler 代理IP 5、cookie 维持登录状态 6、error 异常处理 7、urlparse 解析 8、urlunparse 拼...

2018-11-04 14:26:00 740

转载 python爬虫的基本思路

爬虫:请求网站并提取数据的自动化程序。 流程: 发送请求 -> 获取数据 -> 解析数据 -> 存储数据 转载于:https://www.cnblogs.com/wangshx6/p/9842409.html...

2018-10-24 11:32:00 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除