
网页爬取
网络爬取是程序员德基本技能之一
黎雨毫
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫----selenium
selenium相当于机器人,可以完成点击等人类可以做的操作. webdriver是一系列可以驱动不同浏览器的软件,和selenium配合使用. 软件准备:安装了selenium这个第三方库和不同浏览器的driver 安装测试: from selenium import webdriver #webdriver是用来区分不同的浏览器的 #这个是浏览器驱动程序的路径 driver_pa...原创 2020-03-29 18:27:59 · 277 阅读 · 0 评论 -
python爬虫之处理资源----xpath(lxml),beautifulsoup(bs4),正则表达式(re)
首先是lxml库: #我用的火狐,安装一个try xpath插件就好了 """ xpath路径: 1.选取节点: 首先,随便一个节点名称,这是基本 然后,单斜杠,/,如果出现在开头,那就从根节点寻找; 如果在某个节点后面,那就表示在该路径下的直接子节点 还有,双斜杠,//,找去所有可以匹配的节点,不论路径. ...原创 2020-03-28 09:24:06 · 872 阅读 · 0 评论 -
python爬虫之获取资源----urllib,requests
首先是urllib库 from urllib import request as re from urllib import parse url="http://book.zongheng.com/book/927896.html" #基本的urlopen()方法,返回一个response对象 resp=re.urlopen(url,data=None) #response对象的方法, ...原创 2020-03-28 09:20:08 · 534 阅读 · 0 评论