
爬虫
文章平均质量分 95
歌颂平凡
运维开发技术交流,一起学习进步
展开
-
11.爬虫实战基础(selenium)
selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。我们可以利用selenium提供的各项功能。帮助我们完成数据的抓取。原创 2024-04-22 08:30:00 · 1294 阅读 · 0 评论 -
9.爬虫必备基础(协程)
asyncio模块是python3.4版本引入的标准库,直接内置了对异步IO的操作编程模式是一个消息循环,我们从asyncio模块中直接获取一个EventLoop的引用,然后把需要执行的协程扔到EventLoop中执行,就实现了异步IO说明到目前为止实现协程的不仅仅只有asyncio,tornado和gevent都实现了类似功能关键字的说明关键字说明event_loop消息循环,程序开启一个无限循环,把一些函数注册到事件循环上,当满足事件发生的时候,调用相应的协程函数coroutine。原创 2024-04-21 09:15:00 · 982 阅读 · 0 评论 -
7.爬虫必备基础知识(高效编程之线程)
计算密集型任务虽然也可以用多任务完成,但是任务越多,花在任务切换的时间就越多,CPU执行任务的效率就越低,所以,要最高效地利用CPU,计算密集型任务同时进行的数量应当等于CPU的核心数。涉及到网络、磁盘IO的任务都是IO密集型任务,这类任务的特点是CPU消耗很少,任务的大部分时间都在等待IO操作完成(因为IO的速度远远低于CPU和内存的速度)。当有某个任务完成的时候,会yield这个任务,就能执行for循环下面的语句,然后继续阻塞住,循环到所有任务结束,同时,先完成的任务会先返回给主线程。原创 2024-04-20 09:00:00 · 1066 阅读 · 0 评论 -
6.爬虫必备基础知识(高效编程之多进程)
概念现代操作系统比如Mac OS X,UNIX,Linux,Windows等,都是支持“多任务”的操作系统什么叫多任务?就是操作系统可以同时运行多个任务单核CPU实现多任务原理操作系统轮流让各个任务交替执行,QQ执行2us(微秒),切换到微信,在执行2us,再切换到陌陌,执行2us……。表面是看,每个任务反复执行下去,但是CPU调度执行速度太快了,导致我们感觉就像所有任务都在同时执行一样多核CPU实现多任务原理 真正的秉性执行多任务只能在多核CPU上实现,但是由于任务数量远远多于CPU的核心数量,所以,操原创 2024-04-20 08:00:00 · 800 阅读 · 0 评论 -
1.爬虫必备基础知识(Python)
比如, 你在抓取某网站的时候. 由于网络波动或者他服务器本身压力太大. 导致本次请求失败. 这种现象太常见了. 此时, 我们程序这边就会崩溃. 打印一堆红色的文字. 让你难受的一P. 怎么办?在代码量很少的时候, 我们并不需要函数. 但是一旦代码量大了. 一次写个几百行代码. 调试起来就很困难. 此时, 建议把程序改写成一个一个具有特定功能的函数. 方便调试. 也方便代码的重用。列表, 我们未来遇见的仅次于字符串的一种数据类型. 它主要是能承载大量的数据. 理论上. 你的内存不炸. 它就能一直存。原创 2024-04-17 09:13:16 · 1067 阅读 · 0 评论 -
2.爬虫必备基础知识(html+css)
html超文本标记语言+css层叠样式表原创 2024-04-17 13:37:10 · 1189 阅读 · 0 评论 -
3.爬虫必备基础知识(正则表达式)
正则表达式,又称规则表达式正则表达式(regular expression)描述了一种字符串匹配的模式(pattern)正则匹配是一个 模糊的匹配(不是精确匹配)**re:**python自1.5版本开始增加了re模块,该模块提供了perl风格的正则表达式模式,re模块是python语言拥有了所有正则表达式的功能如下四个方法经常使用match()search()findall()finditer()原创 2024-04-18 09:18:30 · 831 阅读 · 0 评论 -
4.爬虫必备基础知识(BS4-beautifulsoup)
Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 **soup.select(),**返回类型是。如果标签里面只有唯一的一个标签了,那么 .string 也会返回最里面的内容。很简单,用 .string 即可.原创 2024-04-18 10:11:04 · 1161 阅读 · 0 评论 -
5.爬虫必备基础知识(urllib&requests)一
我们浏览器在输入完网址到我们看到网页的整体内容, 这个过程中究竟发生了些什么?我们看一下一个浏览器请求的全过程接下来就是一个比较重要的事情了. 所有的数据都在页面源代码里么?非也~ 这里要介绍一个新的概念那就是页面渲染数据的过程, 我们常见的页面渲染过程有两种,服务器渲染, 你需要的数据直接在页面源代码里能搜到这个最容易理解, 也是最简单的. 含义呢就是我们在请求到服务器的时候, 服务器直接把数据全部写入到html中, 我们浏览器就能直接拿到带有数据的html内容. 比如,原创 2024-04-19 10:01:51 · 2470 阅读 · 9 评论 -
5.爬虫必备基础知识(urllib&requests)二
response.cookies是CookieJar类型使用requests.utils.dict_from_cookiejar,能够实现把cookiejar对象转化为字典。原创 2024-04-19 10:47:10 · 1924 阅读 · 1 评论