xiaozycd-优快云博客

原创用request和xpath库，爬取PPT素材，（背景、图标、模板）

文章目录写在前面，源代码仅供学习交流，请各位尊重网络秩序，合理、合法使用爬虫。这次是用我自己写的requests 功能库和lxml函数库制作的爬虫，分为两个PY文件一个是库的支持文件如下：在另外一个主运行文件中，需要加载这个文件功能库的注释，已经尽可能写得比较完整，可以拿来直接用，制作其他的爬虫。 import requests import os from lxml import ...

2019-11-02 22:22:42 485

原创用requests库和lxml库，爬取PPT图像素材。

文章目录爬取的对象是素材中国 http://online.sccnn.com/ 代码如下， import requests import os from lxml import etree from requests.exceptions import RequestException url_list = [] base_url = 'http://online.sccnn.com/html...

2019-10-29 23:05:04 671 2

原创 Python中的XPath解析库使用

文章目录1. XPath 概览 Python中的XPath解析库使用的个人学习笔记。 XPath，全称 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的，但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。 1. XPath 概览 XPath 的选择功能十分强大，它提供了非...

2019-10-27 16:57:58 477

原创正则表达式笔记

新手的学习笔记，便于自己熟悉和记忆。 1、常用的匹配规则模式描述 \w 匹配字母、数字及下下划线 \W 匹配不是字母、数字及下下划线的字符 \s 匹配任意空白字符 \S 匹配任意非空字符 \d 匹配数字,等价于[0-9] \D 匹配不是数字的字符 \A 匹配字符串开头 \Z 匹配字符串结尾的,如果存在换行,只匹配到换行前的结束字符串 \z 匹配字...

2019-10-27 10:44:30 209

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 用request和xpath库，爬取PPT素材，（背景、图标、模板）

原创 用requests库和lxml库，爬取PPT图像素材。

原创 Python中的XPath解析库使用

原创 正则表达式笔记

空空如也

空空如也

原创用request和xpath库，爬取PPT素材，（背景、图标、模板）

原创用requests库和lxml库，爬取PPT图像素材。

原创正则表达式笔记