爬虫
文章平均质量分 73
空城za
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【爬虫基础】正则表达式和re模块
目录:什么是正则表达式正则表达式语法单字符串匹配匹配多个字符串精确匹配与泛匹配贪婪匹配与非贪婪匹配开始和结束语法转义字符和原生字符串re模块中常用函数matchsearchgroup分组findallsubsplitcompile什么是正则表达式通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准解释:https://baike.baidu.com/item/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F/1700215?原创 2022-05-12 23:55:44 · 322 阅读 · 0 评论 -
【爬虫基础】CSS选择器,XPath选择器
目录XPath什么是XPath?XPath开发工具XPath节点XPath语法案例总结CSS选择器案例标签选择器类选择器ID选择器属性选择器伪类选择器组合选择器XPath什么是XPath?xpath(XML Paht Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。XPath开发工具Chrome插件XPath Helper。Fiefox插件Try XPathXPath节点在XPath中,有7类节点:元素,属性,文本原创 2022-05-10 23:21:18 · 912 阅读 · 0 评论 -
【爬虫基础】requests库
requests库requestsrequests 关键字参数响应体常见的方法和属性cookiesession 会话维持处理不受信任的SSL证书requests虽然python的标准库中urllib模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好requests 是用python编写,基于urllib,但是比urllib更加方便requests 关键字参数method: 请求方法url: 请求网址headers:请求头字段cookies:用户身份标识pro原创 2022-05-10 16:58:43 · 367 阅读 · 1 评论 -
【爬虫基础】urllib库
urllib: 自带的库1.了解urllib库2.熟悉掌握urllib库3.熟悉urllib.request,处理cookie 代理设置urllib常用库urlliburloppen()urlretrieve()urlencode(), quote(), parse_qs()urlparse(), urlsplit()request.Request类ProxyHandler()cookiehttp.CookieJar模块urllib"""urllib库是python中一个最基本的网络请求库。可原创 2022-05-10 09:48:17 · 220 阅读 · 0 评论
分享