
Python爬虫
文章平均质量分 54
Python爬虫全套流程
流光2021
这个作者很懒,什么都没留下…
展开
-
Python爬虫之request模块
Python爬虫之request模块 定义 python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 作用 模拟浏览器发送请求 request模块使用流程 指定url 发送请求 获取响应数据 持久化存储 环境安装 pip install requests 实战编码 需求:1、爬取搜狗首页的页面数据 import requests if __name__=="__main__": # 第一步:指定url url='https://web.sogou.com/?2199原创 2021-04-09 08:33:54 · 334 阅读 · 0 评论 -
Python爬虫验证码识别登录
验证码识别登录 获取验证码图片 import requests from lxml import etree url='https://so.gushiwen.org/user/login.aspx?from=' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko原创 2021-04-13 15:25:24 · 1378 阅读 · 0 评论 -
数据解析(聚焦爬虫:爬取页面中指定的页面内容)
数据解析(聚焦爬虫:爬取页面中指定的页面内容) 1.编码流程 指定url 发起请求 获取响应数据 数据解析 持久化存储 2.数据解析分类 正则 bs4 xpath(重点) 3.数据解析原理概述 解析的局部的文本内容都会在便签之间或者便签对应的属性中进行存储 进行指定标签的定位 标签或者标签对应的属性中存储的数据进行提取(解析) 4.常用正则表达式回顾 单字符 (.):除换行以外所有字符 ([]):[aoe],[a-w] 匹配集合中任意一个字符 (\d):数字 [0-9] (\D):非数字 (\w原创 2021-04-09 09:11:32 · 939 阅读 · 0 评论