
Python爬虫
Python爬虫相关知识
西瓜味儿的小志
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫之Scrapy框架
1. 什么是 scrapy 框架,其有什么特点? scrapy 是一个快速、高层次的基于 python 的 web 爬虫构架,用于抓取 web 站点并从页面中提取结构化的数据。scrapy 使用了 Twisted 异步网络库来处理网络通讯。 优点:更适合构建大规模的抓取项目;基于twisted 框架异步处理请求,速度非常快,并发性较好性能较高;采取可读性更强的 xpath 代替正则;支持 shel...原创 2020-04-29 13:48:22 · 1071 阅读 · 0 评论 -
爬虫之网页解析器BeautifulSoup
BeautifulSoup 是 Python 的一个 HTML 或 XML 的解析库,可以用它从网页中提取数据。它是借助网页的结构和属性等特性来解析网页的工具,有了它就不用再去写一些复杂的正则,只需要简单的几条语句就可以完成网页中某个元素的提取。它自动将输入文档转换为 Unicode 编码,输出文档转换为 UTF-8 编码。 Unicode 编码特点:长度固定,编码用 2 个 Byte,所占用的空...原创 2020-03-05 12:25:44 · 619 阅读 · 0 评论 -
爬虫之网页下载器urllib和requests
网页下载器是将URL对应的网页以html的形式下载到本地存储成一个本地文件或字符串。 1. urllib使用方法: (1)处理 get 请求。不传 data,则为 get 请求 import urllib from urllib.request import urlopen from urllib.parse import urlencode url=‘http://127.0.0.1:1990/...原创 2020-02-18 12:09:29 · 578 阅读 · 0 评论