向泽羿�️-优快云博客

原创爬取书趣阁小说

文章目录1 请求网页1.1获取网页text格式2 解码3 获取信息3.1提取标题3.2提取内容4 存入TXT5 封装方法6 利用xpath获取所有文章链接代码汇总爬取结果 1 请求网页返回200，请求网页成功 1.1获取网页text格式获取文本内容后，中文部分全是乱码，需进行解码 2 解码解码需在获取text格式前解码 #解码 response.encoding = res...

2020-04-19 23:59:15 519

文章目录1 安装selenium和webdriver1.1 自动控制浏览器2 正式爬取拉勾网2.1控制浏览器，进入拉勾网 1 安装selenium和webdriver 在Python路径下安装selenium，安装成功后还需安装相应浏览器的webdriver，不然无法控制浏览器，比如谷歌浏览器要下载chromedriver 进入官网 http://npm.taobao.org/mirrors...

2020-04-19 16:27:07 1388

原创 #爬取豆瓣电影top250

1 创建jupyter环境及安装相关的包@[TOC] 1.1 安装jupyter@[TOC] 1.2安装requests和lxml@[TOC] 2 分析网页链接@[TOC] 3 爬取网页@[TOC] 3.1 请求源代码@[TOC] 3.2 设置浏览器代理@[TOC] 3.3 请求网页代码汇总@[TOC] 4 获取内容@[TOC] 4.1 获取xpath路径方法@[TOC] 4.2利用包lxml解析...

2020-04-13 00:28:21 1566

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_44404262的博客

原创爬取书趣阁小说

原创 selenium爬取拉勾网

原创 #爬取豆瓣电影top250

空空如也

空空如也

原创 爬取书趣阁小说

原创 selenium爬取拉勾网

原创 #爬取豆瓣电影top250

空空如也

空空如也

原创爬取书趣阁小说