
网络爬虫
文章平均质量分 62
运用python及各种工具进行爬虫
凌叁儿
一名普通的python讲师
展开
-
爬取IP数据并自动上传到typecho博客
设计背景及说明依旧使用简单的函数和库,实现自动爬取89免费代理IP并将IP数据发布到本博客目标如图:使用库requests、bs4(爬虫)html2text(html转markdown)pytypecho(发布typecho文章)datetime(获取当天时间作为标题)代码流程导入库import requestsfrom bs4 import BeautifulSoup as BSfrom pytypecho import Typecho,Postimport html2text原创 2021-08-29 19:37:50 · 275 阅读 · 0 评论 -
Python爬虫中urllib库的使用进阶--cookie的使用
什么是cookie:在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,就会自动的把上次请求存储的cookie数据自动的携带给服务器,服务器通过浏览器携带的数据就能判断当前用户是哪个了。cookie存储的数据量有限,不同的浏览器有不同的存储大小,但一般不超过4KB。因此使用cooki原创 2021-08-23 11:49:58 · 933 阅读 · 0 评论 -
Python爬虫中urllib库的使用入门--基本请求的实现与文本转码
#urllib库简介urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。urllib 是一个收集了多个使用URL的模块的软件包:urllib.request打开和阅读URLsurllib.error包含 urllib.request抛出的异常urllib.parse用于处理URLurllib.robotparser用于解析robots.txt文件本文只介绍再爬虫中通常需要使用的request模块和parse模块原创 2021-08-23 11:45:35 · 408 阅读 · 0 评论 -
Python爬虫中urllib库的使用进阶--配置代理
什么是代理?代理(英语:Proxy),也称网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个服务与另一个网络终端(一般为服务器)进行非直接的连接。一些网关、路由器等网络设备具备网络代理功能。一般认为代理服务有利于保障网络终端的隐私或安全,防止攻击。(百度百科)简单来说,代理就是不直接访问目标而是连接另一台终端通过其访问目标,实现IP的变化,对于一些对IP有限制的网站爬取非常有用为什么用代理很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多原创 2021-08-23 11:48:29 · 824 阅读 · 0 评论