简单易学的Python爬虫教程!新手必看

img

二、抓取前的分析

以Chrome为例,抓取前的分析步骤如图:

img

img

三、开始撰写第一只网络爬虫

Requests库

网络资源撷取套件

改善Urllib2的缺点,让使用者以最简单的方式获取网络资源

可以使用REST操作存取网络资源

jupyter

使用jupyter来抓取网页并打印在浏览器中,再按 Ctrl-F 查找对应的内容,以确定我们要爬去的内容在该网页中。

测试示例:

img

四、用BeautifulSoup4剖析网页元素

测试示例:

img

五、BeautifulSoup基础操作

使用select找出含有h1标签的元素

img

使用select找出含有a的标签

img

使用select找出所有id为title的元素(id前面需要加#)

img

使用select找出所有class为link的元素(class前面需要加.)

img

使用select找出所有a tag的href链接

img

六、观察如何抓取新浪新闻信息

关键在于寻找CSS定位

Chrome开发人员工具(进入开发人员工具后,左上角点选元素观测,就可以看到了)

img

Chrome寻找元素定位.png

Firefox开发人员工具

InfoLite(需FQ)

七、制作新浪新闻网络爬虫

抓取时间、标题、内容

img

抓取新闻内文页面

img

img

内文资料信息说明图.png

img

获取新闻内文标题、时间、来源

img

其中涉及时间和字符串转换

整理新闻内文、获取编辑名称

img

整理新闻内文步骤:

img

最终简写为一句话。

抓取新闻评论数

img

解释:

评论是是通过JS代码传过来的;既然是JS,那么通过AJAX传过来的概率很高,于是点到 XHR中看,但是发现Response中没有出现总评论数 2 ; 然后就只能去 JS 里面了,地毯式搜索,找哪个Response里出现了总评论数 2 ,终于找到了。

img

找到链接和请求方式

今天补的截图,评论数实时增加,请不要觉得奇怪 _

然后就可以撸码了。

img

解释:

var data={......} 看着很像是个 json 串,去掉 var data= ,使其变为 json 串。

可以看到, jd 串中就是评论的信息了。

img

回到Chrome开发工具中,浏览评论数量。

img

获取新闻标识符(新闻ID)

方式1:切割法

img

方式2:正则表达式

img

八、建立获取评论数函数

做一个总整理,把刚刚取得评论数的方法整理成一个函数。之后有新闻网页的链接丢进来,可以通过这个函式去取得它的总评论数。

img

九、建立新闻内文信息抽取函数

img

img

十、从列表链接中取出每篇新闻内容

如果 Doc下面没有我们想要找的东西,那么就有理由怀疑,这个网页产生资料的方式,是通过非同步的方式产生的。因此需要去 XHR和 JS下面去找。有时候会发现非同步方式的资料 XHR下没有,而是在 JS下面。这是因为这些资料会被 JS的函式包装,Chrome的开发者工具认为这是JS文件,因此就放到了 JS下面。在 JS中找到我们感兴趣的资料,然后点击 Preview

预览,如果确定是我们要找的,就可以去 Headers中查看 Request URL和 Request Method了。一般 JS中的第一个可能就是我们要找的,要特别留意第一个。

img

1、选择Network标签

2、点选JS

3、 找到页面链接page=2

处理分页链接

img

注意头尾,需要去掉头和尾,将其变成标准的 json 格式。

img

十一、建立剖析清单链接函数

将前面的步骤整理一下,封装到一个函式中。

img

十二、使用for循环产生多页链接

img

img

十三、批次抓取每页新闻内文

img

img

十四、 使用pandas整理数据

Python for Data Analysis

源于R

Table-Like格式

提供高效能、简易使用的资料格式(Data Frame)让使用者可以快速操作及分析资料

img

十五、保存数据到数据库

img

img

img

最后

这里给大家分享一份Python全套学习资料,包括学习路线、软件、源码、视频、面试题等等,都是我自己学习时整理的,希望可以对正在学习或者想要学习Python的朋友有帮助!

有需要的可以点击免费领取~,都已经上传至csdn官方账号,扫描下方官方二维码获取,保证100%免费!!!

50G Python学习资源大礼包👇👇👇

图片
(部分资料截取图)
在这里插入图片描述

① Python全套书籍和视频秘籍

其中包含了Python基础入门、爬虫、数据分析、web开发,这里一共有几十个吧,可能不是很多,但对于初学者来说应该足够。
里面的知识点都是比较干练的,时长也是正常的40分钟一节课。
在这里插入图片描述
在这里插入图片描述

②Python数据分析入门到精通

(视频课程+课件+源码)
在这里插入图片描述

③零基础也能懂的python办公自动化教程

从此上班摸鱼轻轻松松
在这里插入图片描述

④Python面试集锦和简历模板

学会了Python之后,有了技能就可以出去找工作了!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述

⑤Python副业兼职路线

学会Python以后,还可以在各大兼职平台接单赚钱,各种兼职渠道+兼职注意事项+如何和客户沟通,我都整理成文档了。

在这里插入图片描述

在这里插入图片描述 上述所有资料 ⚡️ ,朋友们如果有需要《全套0基础入门到进阶的Python学习资料》的,可以扫描下方二维码免费领取 🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值