- 博客(3)
- 收藏
- 关注
原创 爬取书趣阁小说
文章目录1 请求网页1.1获取网页text格式2 解码3 获取信息3.1提取标题3.2提取内容4 存入TXT5 封装方法6 利用xpath获取所有文章链接代码汇总爬取结果 1 请求网页 返回200,请求网页成功 1.1获取网页text格式 获取文本内容后,中文部分全是乱码,需进行解码 2 解码 解码需在获取text格式前解码 #解码 response.encoding = res...
2020-04-19 23:59:15
519
原创 selenium爬取拉勾网
文章目录1 安装selenium和webdriver1.1 自动控制浏览器2 正式爬取拉勾网2.1控制浏览器,进入拉勾网 1 安装selenium和webdriver 在Python路径下安装selenium,安装成功后还需安装相应浏览器的webdriver,不然无法控制浏览器,比如谷歌浏览器要下载chromedriver 进入官网 http://npm.taobao.org/mirrors...
2020-04-19 16:27:07
1388
原创 #爬取豆瓣电影top250
1 创建jupyter环境及安装相关的包@[TOC] 1.1 安装jupyter@[TOC] 1.2安装requests和lxml@[TOC] 2 分析网页链接@[TOC] 3 爬取网页@[TOC] 3.1 请求源代码@[TOC] 3.2 设置浏览器代理@[TOC] 3.3 请求网页代码汇总@[TOC] 4 获取内容@[TOC] 4.1 获取xpath路径方法@[TOC] 4.2利用包lxml解析...
2020-04-13 00:28:21
1566
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅