爬虫学习03常用模块

本文介绍了爬虫技术中常用的四种方法:requests、urllib、lxml和selenium。requests用于发送HTTP请求;urllib用于资源获取;lxml用于解析HTML文档;selenium则实现了浏览器的自动化操作。

一.requests

1. requests.get(url,headers)
2.requests.post(url, headers, data)
 
 
 
 

二.urllib

from urllib import request
1.request.urlretreieve(url, filename)   对url地址内的资源
 
 

三.lxml

from lxml import etree
1.etree.HTML()
 

四.selenium 

1.什么是selenium:selenium是一个python的第三方模块,对外提供了控制浏览器的接口,可以让浏览器完成自动化的操作.
2.环境搭建: 
        1.安装: pip install selenium
        2.获取一款浏览器的驱动程序(谷歌)              
             a.谷歌浏览器驱动下载地址:http://chromedriver.storage.googleapis.com/index.html
             b.下载的驱动程序必须和浏览器的版本统一,根据http://blog.youkuaiyun.com/huilan_same/article/details/51896672中提供的版本映射表进行对应

转载于:https://www.cnblogs.com/hu13/p/9273137.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值