
python爬虫
文章平均质量分 83
「已注销」
漫漫长路修远兮,吾将上下而求索。
展开
-
python与爬虫-03初入网络爬虫
1.背景介绍网络爬虫:形象地说,可以在Web上爬行,本质上是一种递归方式;首先,获取一个URL对应的网页内容,检查此页面,寻找另一个URL,再获取该URL对应的网页内容,然后不断循环这一过程。注意:需要思考消耗的带宽,能不能不要占用过多的目标服务器,可能是害怕被发现,这样就算是一种攻击了吧!维基百科六度分隔理论:关于这个的相关内容,可以自行查询,也可以参考https://blog.youkuaiyun.com/crazy642535606/article/details/77924753补充:此理论认为世界上任原创 2022-04-11 13:27:34 · 990 阅读 · 1 评论 -
python与爬虫-02HTML相关内容
1.正则表达式1.regex案例:词组正则字符串规则:a至少出现一次;b重复5次;c重复偶数次;最后是d或e。表达:aa*bbbbb(cc)*(d|e)2.常用正则表达式及符号符号含义*匹配前面的内容,0或多个+匹配前面的内容,至少1个[]匹配任意字符()表达式编组{m,n}m到n次[^]匹配不在里面的字符|匹配任意一个由竖线分割的字符.匹配任意单个字符^指开始位置\转义字符$表达式末尾?原创 2022-04-08 18:03:09 · 660 阅读 · 0 评论 -
python与爬虫-02复杂的HTML解析
序:基于位置、上下文、属性、内容选择标签的标准方式和创新方式;1.进一步使用BeautifulSoup抓取网页(1)代码如下from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen('https://www.pythonscraping.com/pages/warandpeace.html')bs = BeautifulSoup(html.read(),'html.parser')nameList原创 2022-04-07 18:39:48 · 1207 阅读 · 0 评论 -
python与爬虫-01简单介绍
好好学习,天天向上!原创 2022-04-06 16:34:54 · 921 阅读 · 0 评论