
爬虫初学
小恋莫小哀
这个作者很懒,什么都没留下…
展开
-
python3爬虫初步之urllib实战
**爬虫初步之urllib实战**利用urllib.request访问度娘(https://www.baidu.com/)首先安装并配置好Python3,其次最好有个编辑器可以写代码,然后就跟着我一起开始吧。下面就是源码以及注释:import urllib.request # 导入urllib.request库url = 'https://www.baidu.com/' # 声明一个...原创 2019-02-28 21:47:06 · 341 阅读 · 0 评论 -
python3爬虫初步之正则表达式实战
**爬虫初步之正则表达式实战**关于正则表达式的介绍及用法读者可以去百度,这里就不再赘述了,默认大家已经了解过正则表达式了,下面直接开始实战。利用requests以及正则表达式爬取豆瓣电影Top250一、访问目标网址并找出网址规律豆瓣电影Top250的网址是:https://movie.douban.com/top250,点进去以后部分网页内容如下:我们只能看到第一页的数据,只包含...原创 2019-03-02 14:49:11 · 678 阅读 · 7 评论 -
python爬虫初步之BeautifulSoup实战
**爬虫初步之BeautifulSoup实战**使用beautifulsoup提取丁香园论坛的回复内容BeautifulSoup是一个可以将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是python对象,所有对象可以归纳为4种:Tag、NavigableString、BeautifuSoup和Comment。下面边爬取论坛边介绍每个对象的意义以及方法。一、用户浏览器访问目标网...原创 2019-03-03 11:15:38 · 718 阅读 · 3 评论 -
python爬虫初步之Xpath实战
**python爬虫初步之Xpath实战**使用Xpath提取丁香园论坛的回复内容XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。关于Xpath的学习可参考网址:http://www.w3school.com.cn/xpath/xpath_syntax.asp一、用户浏览器访问目标网站并检查目标内容所在...原创 2019-03-04 21:11:53 · 539 阅读 · 2 评论