
python爬虫
明目先生
这个作者很懒,什么都没留下…
展开
-
python爬虫(四)——scrapy 屠龙勇士必备好刀
scrapy是一个框架 scrapy结构认识原创 2020-12-29 20:53:10 · 159 阅读 · 0 评论 -
python爬虫(三)——re正则表达式库
可以适当翻阅 菜鸟教程 一 正则表达式的组成 正则表达式一般由字符与操作符组成,其中操作符是我们记忆的重点 看到这里学过linux的小伙伴估计就明白了,啊这。。。bash shell似乎也是使用上述表达式完成赋值等操作的耶。 简单示例 实际案例 如何匹配网络上的IP地址呢? 将数字分段表示就ok啦~ 所谓难事只不过是简单事情组装起来的东西而已 二 与re库的第一次相遇 ok,了解了正则表达式这个概念之后,疑问来了——如何在python里面表示一个正则表达式呢?或者说我们怎么告诉python编原创 2020-12-29 20:36:23 · 261 阅读 · 1 评论 -
python爬虫(二 )实例——beautiful soup爬取大学排名
学完技术是时候该磨磨刀了原创 2020-12-21 19:58:27 · 317 阅读 · 0 评论 -
python爬虫(一)——request的碎碎念
前言 request适合小型爬虫 中等请参照scrapy 一个开发工具。。。。。埋个坑先 request官网 基础知识 不bb,导库 import requests 网站限制爬虫都在robots文件里了 显式限制 隐式限制 爬取网站会读你的user-agent看你是浏览器还是其它的什么妖魔鬼怪~ 爬取代码 查看user-agent信息。 修改request的user-agent信息 其中Mozilla是标准浏览器的意思,代表绝大多数浏览器,当然你可以写一些单一的浏览器例如chrome/5.0原创 2020-12-16 17:33:21 · 173 阅读 · 1 评论 -
python爬虫(二)——beautiful soup成为五星大厨之路
第三方库其之二——beautiful soup 美丽汤 不要问我这个名字为什么这么怪。。。。你见过夫妻肺片是需要牺牲一对夫妻么。。。。。。 beautiful soup用于分析爬取到的页面信息!!! 终于不用那么low的只是爬上爬下了! 好耶.jpg 官网地址 使用 bs可以解析文件 例如下面是解析html文件 结果就是会产生标准的html文件 其他格式 标签tag属性 获取标签属性值 string属性 html内容迭代遍历 先来看看html基本结构 ...原创 2020-12-21 18:16:02 · 264 阅读 · 2 评论