
python网络爬虫
文章平均质量分 84
简单类爬虫介绍,以及案例讲解
lys_828
up、up、down、up。wechat联系方式即为博客名称,邮箱为xianl828@163.com
展开
-
pandas爬取数据示例网页
pandas爬取数据示例网页排名国家/地区所在洲年份GDP(美元)占世界比重0nan全世界nan202084.75万亿 (84,746,978,784,172)nan11美国美洲202020.95万亿 (20,953,030,000,000)24.7242%2nan欧盟地区nan202015.29万亿 (15,291,934,754,441)18.0442%32中国亚洲202014.72万亿 (14,722,73原创 2022-05-13 16:51:39 · 964 阅读 · 0 评论 -
应急管理部网站爬取重特大事故督办信息并进行数据清洗
应急管理部网站爬取重特大事故督办信息并进行数据清洗引言1 Robots协议2 网站请求初试3 外层信息的获取3.1 网页规律查找3.2 完善获取url的函数3.3 请求外层信息4 内层数据获取4.1 封装获取具体url链接的函数4.2 封装获取具体内容的函数4.3 启动爬虫4.4 最后异常处理5 数据清洗6 全部代码6.1爬虫代码6.2 数据清洗代码手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在优快云网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处原创 2020-11-09 23:13:54 · 2796 阅读 · 2 评论 -
【python实现网络爬虫22】唯品会商品信息实战步骤详解
唯品会商品信息实战1. 目标网址和页面解析2. 爬虫初探3. 爬虫实操3.1 进行商品id信息的爬取4. 全部代码1. 目标网址和页面解析唯品会官网中假如搜索护肤套装,返回的页面如下下拉右侧滚动条可以发现,滑动到下面的时候页面会自动刷新出商品的数据,这里就体现了ajax交互,说明商品的信息是存放在json接口中,接着拉到底就可以发现翻页的按钮了,如下2. 爬虫初探尝试进行抓包,获取真实商品数据所在的网址页面,首先鼠标右键进入检查界面,点击Network后刷新页面,这时候就会返回请求的信息,需要原创 2020-09-15 18:56:16 · 8103 阅读 · 8 评论 -
【python实现网络爬虫21】天眼查企业数据获取
天眼查企业数据获取1. 目标网址及爬取要求2. 网页过渡3. 具体数据的获取4. 扩展及全部代码1. 目标网址及爬取要求根据搜索进行相应公司具体信息数据的爬取,第一步是进入天眼查的官网,然后输入公司的名称,然后在返回数据默认评分第一位的公司点击进入后呈现的结果就是要爬取的内容,这里以小米公司为例第一步:打开天眼查网站主页第二步: 输入小米后回车确认,然后滚动条下拉找到匹配的公司第三步,点击进入公司,查看详情,最后爬取下面红色框线中的内容2. 网页过渡由于存在翻页的现象,因此要想获得具体的原创 2020-09-15 14:34:25 · 32219 阅读 · 21 评论 -
【python实现网络爬虫20】知乎热榜爬取
知乎热榜爬取1. 目标网址2. 实战解析2.1 标题信息爬取2.2 热度信息爬取2.3 图片爬取2.4 新闻介绍爬取3 全部代码1. 目标网址要爬取的网址如下:知乎热榜爬取的内容:标题、热度、新闻介绍和图片,重点在于异常处理,有些热搜并不是全部内容都有的2. 实战解析首先导入常用的爬虫模块,并设置headers,进行目标网址的请求,代码如下import requestsfrom bs4 import BeautifulSoupimport osimport reheaders = {原创 2020-09-15 09:36:22 · 3973 阅读 · 8 评论 -
【python】正则表达式的分组及在pandas中的实用操作
正则表达式的分组及在pandas中的实用操作1. 正则表达式分组1.1 分组的模式1.2 分组的实际操作1.2.1 邮箱号码匹配1.2.2 标签信息匹配2. pandas中的应用操作3. 小结之前的博客中已经讲解了相关的正则表达式的一些基础的内容,可见:正则1,正则2,正则3,正则4这里补充一下正则表达式分组的相关内容以及结合pandas使用时候的实际操作1. 正则表达式分组1.1 分组的模式字符功能(ab)将括号中的字符作为一个分组\num引用分组的num匹配到的字原创 2020-05-23 13:11:10 · 3004 阅读 · 4 评论 -
【python实现网络爬虫(19)】Mac端selemium的使用,谷歌浏览器驱动的下载与安装
Mac端selemium的使用,谷歌浏览器驱动的下载与安装1. 前期准备2. 安装谷歌浏览器驱动3. 驱动安装成功测试1. 前期准备需要下载python3和谷歌浏览器。首先进入Mac终端,输入如下指令,下载selenium模块pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium操作界面如下:(模块安装完成,后...原创 2020-05-01 10:13:45 · 1608 阅读 · 1 评论 -
Pycharm下载安装步骤,项目配置与运行详解
Pycharm下载安装步骤详解1. 下载地址2. 安装3. 软件运行配置4. 创建项目运行程序1. 下载地址这里以windows系统为例:Pycharm下载路径,下载的时候有专业版(Professional)和社区版(Community)两个版本,选择 社区版 进行下载安装,因为不收费,而且能够满足日常的使用。如果想要下载专业版的,百度搜个破解过程或者淘宝买个破解码即可。2. 安装点击上...原创 2020-04-29 13:53:39 · 4575 阅读 · 5 评论 -
【python实现网络爬虫(17)】使用正则表达式爬取百度以任意关键词搜索返回结果的数据
正则表达式爬取百度搜索结果1. 爬虫架构2. 创建分页url2.1 网页url规律查找2.2 创建接口输出url测试3 正则表达式匹配3.1 直接匹配源代码3.2 配合网页解析进行结果匹配4. 小结5. 全部代码5.1 re + 源代码5.2 bs4 + re1. 爬虫架构为了减少不必要的步骤,直接加载一下爬虫的基础架构,如下。注意,一定要填写自己的headers的内容import re...原创 2020-04-28 15:07:48 · 6363 阅读 · 3 评论 -
【python实现网络爬虫(16)】JSON网易动态新闻爬取(ajax请求爬取信息过程详解,附全部源代码)
1. Ajax 介绍Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式、快速动态网页应用的网页开发技术,无需重新加载整个网页的情况下,能够更新部分网页的技术。通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。(百度百科)...原创 2020-03-26 14:14:51 · 2360 阅读 · 1 评论 -
【python实现网络爬虫(15)】python使用you-get爬取bilibili网站视频
1. 下载安装you-get模块(以windows系统为例):pip install -i https://pypi.tuna.tsinghua.edu.cn/simple you-get–> 输出结果为:2. 指令:you-get -i [URL]视频基础信息介绍,用来展示集中不同的清晰度you-get -i https://www.bilibili.com/video/av...原创 2020-03-17 01:49:21 · 3408 阅读 · 1 评论 -
【python实现网络爬虫(14)】python爬取酷狗中多类型音乐步骤详解(附全部源代码)
目标网址:酷狗音乐-赤伶,页面如下爬虫逻辑:【找到要获取特定音乐的url】>>>【找到该资源链接的url】>>>【封装获取音乐的函数】>>>【封装下载音乐的函数】注意:这两个获取url的顺序是和之前获取url的过程是反过来的,以往是获取外部页面的url后进入内部页面的url,然后再获取该页面的信息。但是下载音乐(定向爬取数据),首先...原创 2020-03-17 01:05:16 · 22864 阅读 · 13 评论 -
【python实现网络爬虫(13)】python爬取全景网图片
目标网址:全景网山水壁纸,页面如下1. 网页分析还是和之前爬取文字信息一致,需要进行网页信息的解析,获得图片数据所在的地址,然后进行图片的下载分析网页后发现所需要的图片的url在【a.item.lazy img】中2. 封装第一个函数,获取图片的url首先是导入相关的库,然后进行函数的编写,这里的第一个函数的内容和之前的几乎一样import requestsfrom bs4 i...原创 2020-03-17 01:04:36 · 1335 阅读 · 3 评论 -
【python实现网络爬虫(12)】JSON解析之爬取腾讯新闻
目标网址:腾讯新闻,页面如下1. 寻找json接口在目标页面点击鼠标右键进行’检查’,然后选择'Network',再点击’网页刷新’按钮,接着在右下区域内弹出的内容上选择具有pull_url标识的文件,最后点击'Preview'选项即可。图解如下:比如就以当前这个页面来看,获取这个json的接口就是点击'Preview'旁边的'Headers',选择’Request URL:'后面的网址...原创 2020-03-26 14:37:23 · 2352 阅读 · 0 评论 -
【python实现网络爬虫(11)】JSON格式数据基础
1. 基本概念 JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同...原创 2020-03-17 01:02:44 · 378 阅读 · 0 评论 -
【python实现网络爬虫(10)】Selenium框架以任意关键词爬取淘宝商品数据
以任意关键词爬取商品数据比如这里以输入中文为例:小米手机(需要扫码登录)爬虫逻辑:【登陆】-【访问页面 + 采集商品信息 - 翻页】1)函数式编程函数1:get_to_page(keyword) → 【登陆】 keyword:关键字函数2:get_data(page_n) → 【访问页面 + 采集数据信息 -...原创 2020-02-18 11:41:12 · 1483 阅读 · 0 评论 -
【python实现网络爬虫(9)】Selenium框架实现笑话大全数据爬取(点赞数和被踩数无法获取的问题)
回顾经过前两个爬虫的实际操作,发现在爬取笑话大全网址上面,无法获得点赞量和被踩量的数据,相应的标签如下1)在scrapy中获取相应的标签信息输出的结果为:(可以看出可以找到匹配的标签,但是里面的内容是空的)2) 使用requests+bs4进行获取:(可以看出这里和上面的输出结果一样,标签里面都是没有信息的)原因在于?查看网页源代码,发现其中关于这部分的数据的确是和输出的一样,是没...原创 2020-02-16 11:49:36 · 635 阅读 · 0 评论 -
【python实现网络爬虫(8)】requests+bs4实现笑话大全数据爬取
这里就直接给代码和输出结果import reimport requestsfrom bs4 import BeautifulSoupdef get_url(n): lst = [] for i in range(n): ui = f"http://xiaohua.zol.com.cn/lengxiaohua/{i}.html" lst.append(ui) return ...原创 2020-02-16 10:41:18 · 797 阅读 · 0 评论 -
【python实现网络爬虫(7)】scrapy爬取笑话大全网站全过程(505问题的解决)
确定要爬取的网站及内容笑话大全网站中的冷笑话,如下要采集的字段,有标题,来源、正文、点赞数和被踩数五个部分创建scrapy项目步骤一、启动爬虫项目在某处(比如桌面)创建一个名称为“scrapy爬取笑话大全”新的文件夹,然后进入该文件夹中空白位置同时点击shift+鼠标右键,在弹出的窗口中选择“在此处打开powershell窗口”,然后输入如下代码指令(代表创建一个名为jokes的项目爬...原创 2020-02-16 09:47:05 · 1291 阅读 · 0 评论 -
【python实现网络爬虫(6)】Scrapy爬取网易新闻
新建项目在命令行窗口下输入scrapy startproject news,如下然后就自动创建了相应的文件,如下原创 2020-02-05 19:43:13 · 4061 阅读 · 8 评论 -
【python实现网络爬虫(5)】第一个Scrapy爬虫实例项目(Scrapy原理及Scrapy爬取名言名句网站信息)
Scrapy介绍总共有五部分组成的:具体的流程可看图示引擎、调度器、下载器、蜘蛛和项目管道爬取流程针对于每个URL,Scheduler -> Downloader -> Spider ->① 如果返回的是新的URL,就会返回Scheduler② 如果是需要保存的数据,则会被放到item pipeline里面Scrapy安装在命令行窗口下执行下面语句pip i...原创 2020-02-04 22:05:06 · 1780 阅读 · 0 评论 -
【python实现网络爬虫(4)】实习僧网站信息爬取(字体反爬虫破解)
实习僧网站实习僧网址,地址为北京,在搜索框输入“python”,如下实战解析步骤一、建立for循环爬取前20页的内容首先、查看翻页URL的信息,找规律第一页:https://www.shixiseng.com/interns?page=1&keyword=python&type=intern&area=&months=&days=°...原创 2020-02-04 13:15:16 · 2560 阅读 · 5 评论 -
【python实现网络爬虫(3)】最简单的网络爬虫(笑话大全网冷笑话标题爬取)
爬取笑话网笑话大全网址,找到笑话分类,选择冷笑话窥探网页细节首先、观察翻页之后URL的变化第一页的URL:http://xiaohua.zol.com.cn/lengxiaohua/第二页的URL:http://xiaohua.zol.com.cn/lengxiaohua/2.html第三页的URL:http://xiaohua.zol.com.cn/lengxiaohua/3.ht...原创 2020-02-03 21:38:33 · 3324 阅读 · 2 评论 -
【python实现网络爬虫(2)】网络爬虫基础
网络爬虫是啥网络和爬虫: 当今最大的网络是互联网,最大的爬虫就是就是各类搜索引擎,包括谷歌、百度等网络爬虫: 就是按照一定的规则去爬取人类所需要信息的程序,主要通过去URL的请求来实现网络爬虫作用数据监控、数据收集、信息集合、资源采集浏览网页的过程(1)输入网址(2)浏览器向DNS服务商发送请求(3)找到对应服务器(4)服务器解析请求(5)服务器处理请求得到最终结果发回去(...原创 2020-02-03 00:04:25 · 864 阅读 · 0 评论 -
【python实现网络爬虫(1)】前端概览(html、scc、javascript三剑客)
前端入门前端即网站前台部分,运行在PC端,移动端等浏览器上展现给用户浏览的网页。前端开发一般使用Chrome;核心三大技术:HTML(骨架)、CSS(外表)、JavaScript(动作交互)HTML文件HTML称为超文本标记语言,是一种标识性的语言。它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描...原创 2020-02-02 22:59:15 · 1142 阅读 · 0 评论