python项目(爬虫、数据分析)导入到eclipse上,生成网页,上传到云

本文介绍了一次对拉勾网招聘信息爬取的实战经验,包括如何绕过反爬措施,利用Python进行数据抓取及可视化展示,最终成果部署在云端供用户查询。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这次的项目虽然是滑水过来的,但是还是有很多地方值得去记录。
项目需求:对拉勾网(一个招聘网)的城市、职位等信息进行爬取,通过pyecharts等库实现数据的可视化
(拉勾网更新了,下面的url已经用不了了)
成品网址:http://47.112.3.49:8080/jobAnalysis/index.jsp
1、对拉勾网信息的爬取:
拉勾网是设置了反爬的,所以要设置伪装,创建了一个myresource.py,写入大量UserAgents,为后面爬取换浏览器做准备:
在这里插入图片描述
在这里插入图片描述
分析网页,找到数据url:
在这里插入图片描述

点了几次下一页url都没变,然后分析这个页面是post,需要传入参数:
在这里插入图片描述

就可以得出拉勾网的爬取base_url:
https://www.lagou.com/jobs/positionAjax.json?city=武汉&needAddtionalResult=false&first=false&pn=4&kd=java
(很可惜,项目做完后,拉勾网升级了,这个api爬不到了…,但重点是项目思路)
这里city(quote(‘武汉‘)得到的),pn,kd都是要根据需求发生改变的,所以要在方法中一参数的方式传入,还是在lagou.py代码里:
在这里插入图片描述

保存到mongdb什么的,都很容易,重点是参数的传入,当我的项目发布到云上时,别人想要查询深圳的java工作,而我的mongdb目前只有几千条武汉的java数据,这时我要对用户响应数据正在爬取请稍后访问,后台需要进行对深圳的java数据进行爬取,需要传入的参数有城市(city)和职位(position),所以在main方法里根据系统的参数顺序进行参数的传入:
在这里插入图片描述
dos界面上执行python lagou.py 深圳 java shenzhen。前提是python已经在环境变量里了,我的python是用anaconda安装的,安装的时候就配好了,还有lagou.py也要在Users/Administrator路径下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这个mongo的数据需要在eclipse上面用java代码传入到网页中。
lagou.py的代码就不全展示了,知道的原理就很容易写,接下来是数据的可视化,有点花里胡哨的
在这里插入图片描述
爬取代码和数据可视化代码完成后,需要把这两个py放在eclipse上面。
首先创建一个web项目,然后对mongo进行连接,测试,再创建jsp,在网页将数据显示出来。
连接mongo部分:
在这里插入图片描述
一些从mongo获取数据的方法:
在这里插入图片描述
在这里插入图片描述
创建一个分页类:
在这里插入图片描述
创建一个职位信息分页类,调用方法会返回一个分页类pd,包含了页数和页数相关文档类,方便于查询
在这里插入图片描述
记得测试,页面:
在这里插入图片描述
页面开始就这样子:
在这里插入图片描述
search():

在这里插入图片描述

选择北京,java的话,会有数据展示,分页点击,数据可视化点击。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值