
Python超强爬虫8天速成(完整版)
https://www.bilibili.com/video/BV1ha4y1H7sx
自学笔记
雪落忆海
这个作者很懒,什么都没留下…
展开
-
3.数据解析
1.数据解析分类: 正则 bs4(只有python中能用) xpath(重点) 2.数据解析原理: 解析的局部的文本内容都会在标签之间或标签的属性中进行存储 1.进行指定标签的定位 2.标签或标签对应的属性中存储的数据值进行提取(解析) 3.正则解析: # 正则表达式 # 贪婪匹配.* # 和懒惰匹配.*? # import re # # str1 = '<div class="jay">周杰伦</div><div class="jj">林俊杰<原创 2021-07-30 00:12:12 · 396 阅读 · 0 评论 -
2.requests模块入门
1.python中关于网络请求的模块: urllib模块 比较古老的模块,不怎么使用了 requests模块 简捷高效 2.requests模块: python中原生的一款基于网络请求的模块,功能强大,效率高。 作用: 模拟浏览器发请求。 如何使用: 指定url 发起请求 获取响应数据 数据解析 持久化储存 环境安装: pip install requests 3.实战 1.需求:爬取搜狗首页的页面数据 import requests if __name__ =="_原创 2021-07-29 12:41:42 · 244 阅读 · 0 评论 -
1.爬虫基础简介
1.原教程地址: https://www.bilibili.com/video/BV1ha4y1H7sx 2.什么是爬虫? 通过编写程序,模仿浏览器操作,然后从互联网上抓去数据的过程。 3.爬虫违法么? 法律上不被禁止 有一定法律风险 robots.txt协议: 君子协议,规定了哪些数据可以被爬取,哪些不可以被爬取。 4.爬虫通过应用场景的分类 1.通用爬虫 抓取系统重要组成部分,抓取的是一张页面数据。 2.聚焦爬虫 建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容原创 2021-07-29 12:16:47 · 119 阅读 · 0 评论