
爬虫
文章平均质量分 68
大大小小的爬虫任务、练习
欢迎交流、学习!
Infinity343
实事求是
展开
-
NBA球员数据爬虫练习
其中的思想就是通过try、except方法来过滤数据的类型,对于百分数直接去除百分号再除100,若不满足就只剩下两种数据类型,满足numeric的直接float,不满足的说明一定是字符串或混合型,那直接不做处理即可。将排名作为排序的索引,这样就很容易的得到了球员们的详细数据,总体上没有什么难度。但有一个问题需要思考,那就是只看DataFrame的形式似乎我们已经获得了数据,但是这个数据显然是不具备分析条件的。准备开个新坑,一周练习一次小爬虫,对于质量较高的数据集,可以顺便做一下分析。原创 2022-09-10 18:01:27 · 2884 阅读 · 1 评论 -
爬虫自动定时获取查重结果并将结果发送至指定邮箱
期刊论文查重,但是查询结果较慢(1-2天),总是手动刷新网站速度很繁琐,这是爬虫技术就可以派上用场了urlhttp://cx.bilunwen.com/qk/checkport商家给的查询地址很简陋,基本上淘宝商家的页面都一样,也没有任何反爬措施,我们只要在这里输入订单号就可以查询了与以往不同的是,我们通常会爬取静态网页,但这次任务中我们需要输入订单号,再点击查询报告按钮页面才会更新,才能看到查重报告是否生成。所以直接get(url)不会有任何结果思路显然我们需要分析网页,这原创 2022-05-09 02:06:29 · 633 阅读 · 0 评论 -
马蜂窝游记爬虫实例
js逆向问题的两种解决方法原创 2022-03-26 14:36:24 · 4599 阅读 · 16 评论 -
某房屋中介网站爬虫实例
url: https://hangzhou.anjuke.com/community/相比较房天下, 只需要在请求头中加入cookie即可(不带cookie会被封ip)直接上代码:from bs4 import BeautifulSoupimport requestsimport reimport pandas as pdimport time#需要杭州: 区域,地址,板块,房价,小区名,楼龄等信息columns = ["名称", "竣工时间", "版块", "单价", "周边", ".原创 2022-03-21 00:00:53 · 1038 阅读 · 4 评论 -
当你懒得每天刷新校网的奖学金信息时怎么办?
每天都刷新校网查看奖学金的信息真的很累= =所以我选择把他爬下来, 也可以当做一次小练习import requestsimport timeimport refrom bs4 import BeautifulSoupurl = "http://vizt.xjufe.edu.cn/"res = requests.get(url)res.encoding = "utf-8"soup = BeautifulSoup(res.text, "html.parser")content = sou原创 2021-11-18 02:36:16 · 246 阅读 · 0 评论 -
准备转战知乎了
没有摘要原创 2021-11-12 02:10:36 · 1188 阅读 · 0 评论 -
某网站内容获取
简单小练习原创 2021-11-04 14:11:40 · 1123 阅读 · 6 评论 -
某评论网站爬虫练习
爬虫简单小练习原创 2021-10-31 20:10:51 · 3940 阅读 · 7 评论 -
日常爬虫练习
打开url模拟登陆方面仍有困难(加密算法实在是太强), 因此我们得手动登陆以美食为例进入开发者工具按名称排序找到如上图所示的链接, 根据我们之前爬取京东商品的经验, getPoilist这个名字很可能就是包含商铺信息的某个东西, 点击后可以发现右侧的js代码全部都被折叠了, 说明这里面的内容美团并不想让你很完整的看到通过ctrl + shift + c 点击第一条商品信息对比一下两个信息显然这就是商品的编号了, 那么在这个页面上关于商铺的所有信息都应该..原创 2021-04-09 23:25:03 · 252 阅读 · 0 评论 -
Python爬虫获取“房天下“房价数据(下)
上期文章讲到了通过requests、BeautifulSoup库搭建简单的爬虫来获取“房天下”的基础房价数据. 如果你没有看上期, 请务必先阅读上期内容(传送门), 基础房价数据中我们只获取到了[“户型”, “面积”, “楼层”, “朝向”, “建成时间”, “经纪人”, “地址”, “单价”]这些指标, 尽管这些指标对样本有了一个初步、大概的描述, 但它们仅限于描述统计, 缺少协变量无法进一步探究房价的影响因素、时空变动、组成成分等等. 所以我们还需要得到某一在售商品房周边的情况, 例如下表所示的内容原创 2021-04-01 19:31:05 · 4034 阅读 · 5 评论 -
Python爬虫获取“房天下“房价数据(上)
上期博客我们通过Python爬虫获取了京东商城的手机价格及其详细配置数据, 这期我们试着通过爬虫在房天下(房天下乌鲁木齐网址)上获取乌鲁木齐的二手房信息, 同时利用之前已经测试过的坐标查询代码来获得每一个二手房的详细位置.分析URL进入二手房的销售列表URL, 其中包括房屋的售卖标题、户型、面积、楼层情况、朝向、建成年份、售价、位置等信息. 那么本期就先从房屋的基本属性开始爬取, 关于其详细信息的爬取会在(下)中给出.进入开发者工具不难看出, 存放这些信息的标签很容易就可以找到, 那么就很容易原创 2021-01-28 15:24:00 · 7016 阅读 · 12 评论 -
利用Python爬取京东商品的一种办法
前言如今的京东、淘宝、天猫等等已经不同往日了, 在用户不登录的情况下, 很难通过技术手段来大规模获取到我们关注的商品信息. 关于京东等购物网站的自动登录也有很多人在做, 但是大厂的反爬能力确实很强, 目前能查阅到的自动登录技术基本都过时了. 本文干脆跳过这一过程, 换一个思路.在不登录的情况下获取商品的编号我们登录京东的网址jd.com后可以在不登录的情况下直接搜索商品, 比如搜索手机可以看到, 其实这一页面就已经列出商品的名称, 售价, 评价量等等. 遗憾的是这个页面的内容不能直接爬取, 但是原创 2020-11-22 20:14:10 · 4796 阅读 · 11 评论