
爬虫
此生小会
这个作者很懒,什么都没留下…
展开
-
selenium用法详解
为什么使用selenium 因为有些网页是动态渲染的,如果使用传统的请求库进行爬虫,可能得不到所需要的内容,所以使用selenium库。 安装 1、selenium selenium的安装方式详见参考资料[2]。 pip install selenium 2、浏览器 可以安装谷歌,火狐,edge等浏览器。 3、浏览器对应的驱动 浏览器驱动可以到淘宝镜像站(详见参考资料[4])下载。 下载的时候注...原创 2020-03-18 14:20:55 · 1092 阅读 · 0 评论 -
爬虫的基本原理(Python3)
一.获取网页 获取网页就是获取网页的源代码。Python本身提供的库有:urllib, request等。 示例:获取知识星球登录页 # -*- coding:utf-8 -*- """ 获取知识星球登录页 """ from urllib import request URL = 'https://wx.zsxq.com/dweb/#/login' res = request.ur...原创 2018-06-03 09:29:26 · 632 阅读 · 0 评论 -
爬虫:urllib基本库的使用
urllib包含了request(打开和读取url), error(包含request引发的异常), parse(解析url), robotparser(解析robots.txt文件)四个用于处理URL的模块。 一.发送请求 1.urlopen() 使用urllib.request.urlopen()发送请求: https://docs.python.org/3/library/urlli...原创 2019-01-29 10:45:02 · 389 阅读 · 0 评论