
python爬虫
文章平均质量分 84
小白自留地
小白初来乍到,有不正确的地方,还请各位朋友批评指正!如果需要,注明出处哦。
展开
-
爬虫实操1-静态网页-3个解析方式比较
以天涯论坛的简单网页爬取为例子,BeautifulSoup、PyQuery以及Xpath都使用一下。1. 网页访问使用requests库访问import requestsurl='http://bbs.tianya.cn/hotArticle.jsp?pn=1' #天涯论坛req=requests.get(url)req输出:<Response [200]>表示能够成功访问展示下网页源代码:print(req.text)2. 确定想要抓取的内容打开开发者工具,原创 2021-05-16 20:22:37 · 7609 阅读 · 0 评论 -
python读写、导入导出数据操作(简)
这里的读写文件,与导入导出数据不同,导入数据是直接连接csv或xlsx文件,将数据导入进来或导出保存出去。这里读文件,是可迭代的,文件使用完毕后还需要关闭。1. 读取操作open()可以读取csv、txt、html文件open(file,encoding,errors)file:文件或文件路径encoding:文件编码解码方式,常见有utf-8,gbkerrors:如果读取文件前两个参数都确认没问题,还是读取失败,可使用errors='ignore'例子:open('data.txt原创 2021-05-16 10:55:50 · 10010 阅读 · 1 评论 -
爬虫08-Selenium使用(简)
Selenium是一个自动化测试框架,可以模拟浏览器行为。当网页是动态加载,没办法定位内容时,可以使用Selenium模拟浏览器操作网页。基本使用加载工具包:from selenium import webdriver #浏览器驱动对象from selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keys #控制键盘from selenium.webdriver.support原创 2021-05-15 18:20:11 · 7290 阅读 · 0 评论 -
爬虫07-Xpath使用(简)
1. 什么是xpathxml是用来存储和传输数据的,和html的不同有两点:html用来显示数据,xml用来传输数据html的标签是固定的,xml标签是可以自定义的(二者写法、结构基本相同,所以xpath能在html中搜索内容)Xpath是一门在XML文档中查找信息的语言,是一种路径表达式。主要用的节点:元素、属性、文本。常用的路径表达式:// 不考虑位置,从匹配选择的当前节点选择文档中的节点./ 从当前节点开始往下查找../ 从当前节点的父节点查找@ 选择属性原创 2021-05-05 09:39:18 · 247 阅读 · 0 评论 -
爬虫06-正则表达式使用(简)
正则表达式是对字符串操作的一种逻辑公式,用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个规则字符串用来表达对字符串的一种过滤逻辑python的re库正则表达式在线测试工具使用场景使用平常解析库bs/pq无法提取信息时,可用正则表达式提取...原创 2021-05-05 09:13:18 · 148 阅读 · 0 评论 -
爬虫05-PyQuery使用(简)
pyquery网页解析库同样的,是网页解析的前提是成功访问网页,能够获取到内容,之后再是解析。from pyquery import PyQuery as pq初始化字符串初始化以下面一段html为例html = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.htm原创 2021-05-04 17:08:51 · 198 阅读 · 6 评论 -
爬虫04-BeautifulSoup使用(简)
BeautifulSoup的基本使用;适用的选择器:标签选择器、标准选择器、CSS选择器原创 2021-05-04 15:35:52 · 465 阅读 · 3 评论 -
爬虫03-requests使用(简)
Requests是基于urllib,采用Apache2 Licensed开源协议的HTTP库,比urllib更加方便,满足HTTP测试需求。是一个python实现的简单http库。requests实例引入import requestsresponse = requests.get('https://www.baidu.com/')print(type(response),'\n')print(response.status_code)<class ‘requests.models.R原创 2021-05-04 11:05:59 · 399 阅读 · 2 评论 -
爬虫02-urllib使用(简)
urlliburllib是python内置的HTTP请求库,感觉现在不常用这个,不好用,但是了解爬虫的基础四个模块urllib.request :请求模块urllib.error :异常处理模块(保证程序不会意外终止)urllib.parse :url解析模块(拆分、合并等)urllib.robotparser :robots.txt解析模块请求模块urlopenurlopen的get请求发送requests请求给服务器 :urllib.request.urlopen(url, da原创 2021-05-04 10:04:44 · 170 阅读 · 2 评论 -
爬虫01-基本原理(简单理论基础)
爬虫基本流程1. 发起请求通过HTTP库向目标站点发起请求,即发送一个requests,请求可以包含额外的headers等信息,等待服务器响应。2. 获取响应内容如果服务器正常响应,会得到一个response,其内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型3. 解析内容得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析;可能是Json,可以直接转为Json对象解析;可能是二进制数据,可以做保存或者进一步的处理4. 保存数据保存形式原创 2021-05-04 08:59:13 · 228 阅读 · 0 评论 -
爬虫笔记(大邓)-思维导图总结
思维导图文件链接:https://www.processon.com/view/link/5ef765c05653bb2925b848cb原创 2020-06-27 23:52:42 · 296 阅读 · 1 评论 -
爬虫工具-requests+PyQuery+css-总结(简)
思维导图文件链接:https://www.processon.com/view/link/5ef762ae07912929cb5f8ae5原创 2020-06-28 22:15:24 · 293 阅读 · 0 评论