
爬虫
文章平均质量分 86
changzoe
这个作者很懒,什么都没留下…
展开
-
python3 爬虫(一)--初识urllib
什么是Urllib库Urllib是Python提供的一个用于操作URL的模块,我们爬取网页的时候,经常需要用到这个库。升级合并后,模块中的包的位置变化的地方较多。在此,列举一些常见的位置变动,方便之前用Python2.x的朋友在使用Python3.x的时候可以快速掌握。常见的变化有:在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用imp原创 2018-01-17 14:50:16 · 771 阅读 · 0 评论 -
python3爬虫(二)-使用beautiful soup 读取网页
HTML常用标签Beautiful Soup简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautifu原创 2018-01-17 16:53:19 · 9686 阅读 · 0 评论