python编写简单浏览器_Python 基础编写基于浏览器爬虫

前言

爬虫程序分很多种,有指定区域 文字 图片 内容 爬取,有通过某引擎进行爬取大数据,下面简单的介绍下通过搜索引擎来进行关键词爬取数据

功能代码结构

1.主代码

2.配置文件

3.支持库

正文

先来看一下代码5c22b623f35b9c98c0700c7c51232c0a7f05f5b4.png

此处 必应调用的方式是,如下图:e9c16a61be857f1033b0e62682ecc12b99847326.png

这个是需要的参数,也是必要的,通过先搜索随机数之后取该接口 以及 参数 参数值

如果只是爬取这一个页面就不需要这样做了,但是我们爬取的是大数据,所以这个地方是要取 下一页的元素9e34e4445b16c32f2c8435f38bd8a073ea804a91.png

置响应代码,好让代码去自动处理下一页的关系。

继续看:6834a9cd1c5f06ac4140b2ddfad84d4ed7b32fb2.jpg

这个地方找的是 我们一个配置文件 ,在最开始我们都有定义Self.out ,相当于过滤,不对self.out 内的 内容进行搜索,这个地方就相当于在调用这个 config.json 这个配置文件b20e4350389dff0546157ff53f9bc1cbbdb98535.png

编写json配置文件:97342d79809d53738f1873c196413065701b53ac.png

先总合上面,是不是这一个基本的模块就很清楚了,说的简单点 ,就是 我先定义 然后调用搜索接口,然后去调用并判断这个配置文件继续往下走!73316914fcc95104c9e2de579b512a62447bc90f.jpg

模拟请求头 ,这个就好比是一个标识,比如模拟手机的 谷歌的 火狐的 等等。

下面就是逻辑判断33124b88c3b77871b7826d7a487b70f834ec525e.jpg

上诉总结:

其实很简单,我们把他集合并分解就是--该程序是通过必应搜索去进行搜索关键词,对搜索到的关键词取url 连接,结果并以txt 文本的方式去进行保存,我们所需要的是在 config.json 这个配置文件里面填写想要的爬行的关键词代码简单阐述:先定义需要使用的函数 ,通过函数去进行判断 配置文件,并模拟 inter 请求,去进行进行之后,使用函数对其进行判断所爬出的结果,取域名地址,保存到文本进程完结

相关代码:

其实我们只要注意以下几点,就可以完全做到编写简单的爬虫程序:

1:程序框架 (制定程序框架,要知道这个程序是做什么的 需要什么东西) 2:按需编写 (先对其进行定义,根据所定义的去进行编写,每定义一个,编写一个,这样会减少错误率)我们的Python学习扣②QUN:⑧⑤⑤-④零⑧-⑧⑨③

成长离不开与优秀的同伴共同交流,如果你需要好的学习环境,好的学习资源,这里欢迎每一位热爱Python的小伙伴,与你分享互联网人才需求以及怎么从零基础学习好python,和学习什么内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值