
Python网络爬虫
文章平均质量分 76
sdu_wzj
这个作者很懒,什么都没留下…
展开
-
XPath简单学习
XPath概述XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过 100 个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有想要定位的节点都可以用 XPath 来选择。 官方文档:https:/原创 2021-01-30 23:02:00 · 231 阅读 · 0 评论 -
Scrapy爬虫框架的第一个实例(完整详细!)
这个项目我们的主题是爬腾讯视频的电影信息,包括电影名和描述1 创建工程打开一个终端,在想要的位置使用以下命令创建一个新的工程文件夹,名为TXspiderD:\VSCode\scrapy爬虫>scrapy startproject TXspidercd Txspider2 新建一个爬虫新建的时候一定要先给它一个url。D:\VSCode\scrapy爬虫\TXspider>scrapy genspider txsr v.qq.com这里我们需要爬取的完整页面网址是https:/原创 2021-01-30 22:29:24 · 2512 阅读 · 3 评论 -
scrapy库学习
scrapy是一个爬虫框架,爬虫框架是实现爬虫功能的一个软件结构和功能组件集合,是一个半成品,能够帮助用户实现专业网站爬虫。功能模块分析Engine整个框架的核心,控制所有模块之间的数据流根据条件触发事件Downloader -> 根据请求下载网页Scheduler ->对所有爬取请求进行调度管理Downloader Middleware ->实施三者之间进行用户可配置的控制,修改,丢弃,新增请求或响应。Spider解析Downloader返回的响应(Resp原创 2020-11-04 22:16:07 · 300 阅读 · 0 评论 -
淘宝商品信息定向爬取实例
import requestsimport reimport csvdef gethtml(url): kv={'User_Agent':'Mozilla/5.0'} #cookies具有有效期!!! path='D:/Python/mycookies.txt' with open(path,'r')as f: mycookies=f.read() mycookies=mycookies.split(';') cookies={}原创 2020-11-03 18:51:01 · 445 阅读 · 0 评论 -
Re(正则表达式)库入门
Re库是Python的标准库,主要用于字符串匹配。正则表达式是由字符和操作符构成的。正则表达式的操作符正则表达式的表示类型:raw string类型,即原生字符串类型(在字符串前面加一个r字符,不包括转义字符)string 类型,但是更加繁琐。例如上面的操作符\d必须改成\dRe库的主要功能函数:参数pattern是正则表达式的表示类型string是一个字符串flags是正则表达式使用时的控制标记,主要包括三种:re.I->忽略正则表达式的大小写;re.M->正则表达式中原创 2020-11-02 10:52:51 · 552 阅读 · 0 评论 -
BeautifulSoup库
BeautifulSoup类的基本元素:标签树的下行遍历:tag.contents返回的是一个列表类型,可以通过len()返回它的长度,可以得知tag.contents的儿子节点不仅包括标签节点还包括字符串节点。标签树的上行遍历由于html是整个文本最高级的标签,所以它的父亲标签就是整个文本。而soup可以说是真正的顶层,所以soup.parent是空。标签树的平行遍历...原创 2020-10-25 16:10:56 · 117 阅读 · 0 评论 -
Python 爬虫的简单实例
1,爬去百度首页。import requests as rurl="https://www.baidu.com"def pc(url): try: t=r.get(url,headers=kv,timeout=100) t.raise_for_status() t.encoding=t.apparent_encoding return t.text except: return "产生异常"print(p原创 2020-10-20 21:32:31 · 3348 阅读 · 0 评论 -
Requests库入门
Requests库的7个主要方法:这7个方法正是HTTP协议对资源的操作。r=Requests.get(url)Response对象的属性:r.raise_for_status() 如果不是200,产生异常requests.HTTPErrorRequests库的异常:原创 2020-10-20 20:38:03 · 107 阅读 · 0 评论