
Python3 爬虫
文章平均质量分 56
基于pyhton3实现的一些小爬虫,项目地址https://github.com/inspurer/PythonSpider
2019/05/27 更新,项目移交到组织
https://github.com/Python3Spiders 欢迎加入
月小水长
这个作者很懒,什么都没留下…
展开
-
2018-2022 年份微博签到数据集
前两年采集的深圳签到数据是 2022 年是当年的尚可,这次虽然时间跨度只有两个月,但是由于时间太过久远,但是颇费了一番心力,还好最终老师只需要每个月 10000 条左右,我赶紧停止了集群的采集,一看代理池马上欠费了。微博签到数据的采集,时间越久越难采集,看到网上有很多分享 2014 年全国微博签到数据的,我看了下其实那个只是 poi 数据,而且绝大部分的 poi 被重置了,poi 链接打不开,查无此微博。前阵子接到一个实验室老师的需求,采集五年前(2024-5=2019)过年前后的北京微博签到数据。原创 2024-07-10 00:24:58 · 796 阅读 · 6 评论 -
携程上海酒店数据采集及可视化
价格越低,消费者评分的方差就越大,1-5 分都有分布,价格越高,评分越高,几乎都在 4 分以上。我觉得这有两个原因,第一,价格高的酒店数量远远不如酒店低的数量,第二,花了 2w 块住一晚酒店,那体验能不好吗?价格多分布在区间的下行,即大部分酒店价格较低,评分则多分布在区间上行,大部分酒店评分较高,这反映了上海市酒店服务业的整体水平较高。从价格的中位数来看,只平平无奇,但是从平均价格来看,上海的酒店价格至少是我老家,湖南一个省内著名省外无名三线城市价格的 2 倍。最后,把酒店价格可视化地展示在上海地图上。原创 2024-01-12 09:54:55 · 1587 阅读 · 6 评论 -
2022 年最新微博签到数据集
微博签到数据集,目前全网搜到的多为较老的 800w 数据集或已下线的接口,没有多大参考价值。所以自研了一个系统,可以抓取全国任意城市的微博签到数据,单城市签到微博去重最多可达 100w+,字段包括经纬度、签到地点、微博链接、博主链接、内容、图片链接(图片可下载)、发布时间、转评赞数等数十个字段。下面是深圳 2022 年 4 月底最新微博签到数据集:共计 50w,csv 文件 330M。除了深圳,全国其他任意城市也可,如果一个城市需要更多数据,则需要定时增量抓取,北上广深杭一线城市达到 100w 数据原创 2022-05-09 11:52:49 · 5787 阅读 · 20 评论 -
开源:用户微博备份助手浏览器扩展
扩展介绍得空写了个微博用户备份助手,它是一款浏览器扩展(插件)。它的作用是备份用户自己或者任意微博用户的微博数据,并将结果保存到本地的 lxsx 文件。使用指南1、确保在浏览器登录了 weibo.cn2、在 weibo.cn 或者 weibo.com 站点内的微博用户主页上点击扩展图标,会显示如上图,自动解析数字 uid,然后点击开始抓取按钮即可;如果自动解析失败,可手动输入然后抓取;如果自定义微博主页用户的数字 uid 获取方式为:在它的主页上任意一条微博上的用户名右键在新标签页打开,浏览器原创 2022-02-16 18:57:10 · 1401 阅读 · 0 评论 -
geopy 库 ConfigurationError 错误
错误详情geopy.exc.ConfigurationError: Using Nominatim with default or sample `user_agent` "geopy/2.2.0" is strongly discouraged, as it violates Nominatim's ToS https://operations.osmfoundation.org/policies/nominatim/ and may possibly cause 403 and 429 HTTP e原创 2021-12-21 17:15:10 · 2358 阅读 · 2 评论 -
微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露呢
S11 结束了,EDG 牛逼就完事了。作为 Meiko 十年老粉,我看到他发了这样一条微博:所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等关键词,每一条评论出现一次 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点。然后就是抽取分析统计了,核原创 2021-11-13 16:54:22 · 874 阅读 · 0 评论 -
微博位置爬虫发布
微博数据分析经常需要和地理位置相关联,比如查看某一话题下发博人员地理分布,或者用户爬虫下某人轨迹分布,等等;而这次的微博位置爬虫则是直接以位置为切入点爬取微博,只需要输入一个地名,就能抓取在该地点发过的微博具体信息,表结构类似话题爬虫。这个位置爬虫的结果可以和用户信息爬虫联动,比如有这样一个分析任务:去北京环球影城的人,都发了什么微博,男生多还是女生多,年龄群体分布怎么样,等等。都可以先用这个微博位置爬虫,爬完后的 csv 交给用户信息爬虫处理即可。闲话不多说,首先在 公众号 月小水长 后台回复 微博原创 2021-09-17 10:43:43 · 2424 阅读 · 1 评论 -
不写一行,自动生成爬虫代码
从今天开始,开一个专栏,编程每日一问,如其名,旨在分享探讨编程中那些实用的技巧或知识,多短小精悍。今天的话题是,如果不写一行代码,完成一份最小可运行性的爬虫代码。直接举 com 微博评论爬虫这个例子,打开下面这个网网址https://weibo.com/1192329374/Knsnj9B3D按照以下步骤来在 Network 栏目 Filter 处输入 ’build’ 过滤请求,找到评论获取的那个接口在接口上右键,Copy --> Copy as cURL(bash);(cur原创 2021-09-04 11:04:19 · 1071 阅读 · 0 评论 -
开源一个豆瓣用户广播爬虫
应不住读者的请求,打算新开一个豆瓣系列的爬虫,主要是为了爬取豆瓣的小组和用户信息,并且全部开源出来。今天这篇主要是分享豆瓣用户广播爬虫,可能还是有不少同学对豆瓣广播不熟悉的,看下图就很清楚,豆瓣的广播有点类似于 QQ 空间的说说,但是多了一些豆瓣自己的元素,比如,”在看“、”在读“,”听过“ 这些 Action。抓取的主要内容是广播里的听说读看这四部分(不包括转发的内容),但是听这一个又包括在听,想听,听过等,所有种类比较多,同时字段又不规则,所以本次保存的文件形式不再是 csv,而是 json;我个原创 2021-08-25 10:39:36 · 667 阅读 · 0 评论 -
2021 新版微博转发爬虫发布
今日发布的微博转发爬虫,是之前从没有发布过的微博爬虫,一样是付费内容,主要实现概述如下:根据指定的微博 mid 爬取该微博的转发信息。爬取该微博的转发微博的转发信息;甚至转发地转发地转发,可以无限地套娃…爬取并保存的,字段信息如下:字段名解释mid纯数字形式的微博唯一标识,可与字母+数字形式 id 互转publish_time发布时间user_name微博作者名user_link微博作者链接content内容weibo_link微博链原创 2021-07-17 18:36:19 · 1222 阅读 · 0 评论 -
20 w 新闻数据集分享
新闻系列的分享进入尾声了,在开启这个系列前,我说过一个目标是,让 nlper 有足够多的新闻语料数据集去训练。不知不觉中,新闻聚合网站(https://xt98.tech:9494) 自从 2021/03/28 上线以来,已经稳定运行 3 个月整了,这三个月来,澎湃新闻爬虫、腾讯新闻爬虫每天都在不辞辛劳地抓取数据并保存在阿里云服务器上,最近由于阿里云服务器快到期了,原本不到 200 一年的服务器今年续费价格快 2000 了,不打算续费了,所以想把这些保存的数据免费分享出来,算是对一直默默关注我的粉丝的小福原创 2021-07-09 09:24:57 · 3908 阅读 · 1 评论 -
新闻平台聚合之纽约时报爬虫发布
idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。原创 2021-03-28 14:05:13 · 1926 阅读 · 6 评论 -
新闻平台聚合之新浪新闻爬虫发布
idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。原创 2021-03-12 22:34:44 · 747 阅读 · 0 评论 -
新闻平台聚合之腾讯新闻爬虫发布
idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。原创 2021-03-11 23:05:21 · 760 阅读 · 5 评论 -
澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布
idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。这个 proje原创 2021-01-01 13:11:08 · 2708 阅读 · 3 评论 -
百度新闻爬虫
这是本项目的开篇,在这个小项目中,将要基于爬虫和GUI编程写一个写个小工具,目的是不用打开浏览器,也能搜到一些关键信息,并将这些信息持久化保存下来,读者可以对这些数据进行分析,比如舆情分析,或作为 NLP 的语料输入。众所周知,搜索引擎的一个核心技术就是爬虫技术,各大搜索引擎的爬虫将个网站的快照索引起来 ,用户搜索时,输入关键词并回车后,基于搜索引擎的浏览器就将相关信息按照一定排序规则展现给用户,今天分享的这个爬虫,是爬取百度爬虫爬取的内容,听起来,有点像俄罗斯套娃。其实你现在能够在网站看到的这篇文章,原创 2020-11-29 16:43:26 · 5801 阅读 · 4 评论 -
我用 Python 写了个基金涨跌通知助手
2020 年,世界风云变化,基金也是。我们都知道股票或者债券,它们都属于直接投资,而基金是间接投资,我们把钱投在基金里,相当于把这些钱交给专业基金公司的专业经理人,这些经理人再去投资股票或者债券。理论上比我们自己直接投资更靠谱些,但是天总是有不测风云。这篇文章不讨论基金策略,而是讨论查看基金涨跌的策略,相信很多人看基金都是通过手机,但是基金的涨跌扣人心弦,隔几分钟我就忍不住打开手机查看基金实时净值,在某些公司,这样是会被扣工资的。于是乎,花了一晚上写了个基金提示小助手,并部署上了阿里云服务器,关注的原创 2020-09-02 22:41:29 · 2979 阅读 · 1 评论 -
B 站视频下载器(BV号、dash、音视频分离)
我为什么要写 B 站视频爬虫这几天沉迷于 B 站的某些剪辑,洗脑循环中,如 up 主 上天下 的《白蛇:缘起》无对白版片尾曲《前世今生》完整版4分06秒 演唱:龚笑笑,链接如下https://www.bilibili.com/video/BV1Qb411q7Xu面对这样一个深得我心的视频,我脑海里瞬间冒出了下载到本地这个需求,一来方便离线播放,二来可以进行再创作(当然会注明出处~),于...原创 2020-04-13 12:41:23 · 4733 阅读 · 0 评论 -
复盘开发教务系统小程序的全流程
作为一个饱经期末周折磨的当代大学生,经常要去学校教务系统的看一下有没有出新成绩,我还好,不用怎么担心挂科,在老师不为难我的情况下,让我考 60 分和考 90 分一样困难;但是如果没在电脑前,用手机端打开教务系统的网页,输入账号密码验证码,然后切换 tab 页查看成绩还有有点不耐烦,作为一个业余的小程序开发者,很快就有了做一个教务系统小程序的 idea,经过长期的前期调研和两天的快速开发,终于在去年...原创 2020-01-12 20:20:07 · 2320 阅读 · 7 评论 -
分享两个有趣的爬虫:百度贴吧和百度翻译
本文首发于我的微信公众号:月小水长原文地址:https://mp.weixin.qq.com/s/uehzjUl8QEaQHtCx4o4BXg百度翻译爬虫程序跑起来的效果是这样的,自动翻译,而且支持中英文互译在调试代码的过程中,我发现百度翻译的加密参数和谷歌翻译差不多,我以前也写过一篇有关谷歌翻译的文章,感兴趣的同学可以看看:更让我大跌眼镜的是,不仅如此,百度翻译的加密函数也是抄袭谷...原创 2019-05-27 13:52:19 · 881 阅读 · 0 评论 -
Python 获取微信好友地区、性别、签名信息并将结果可视化
序言我之前在优快云博客上分享过两篇有关itchat库的教程:itchat库实用教程 (一): Python从编程零基础打造一款微信聊天自动回复机器人itchat库实用教程 (二): Python使用itchat库+图灵机器人实现群聊助手本篇博客是itchat库系列的第三篇文章,它主要实现的功能是获取微信好友地区、性别、签名信息并将结果可视化正文根据itchat库获得好友信息使用下面...原创 2019-01-24 18:15:41 · 2148 阅读 · 3 评论 -
requests + pyquery 爬取 csdn 博客信息
突然闲来无事想要爬取csdn博客,顺便温习下相关技术点。爬取目标以我的csdn主页为例爬取的主要的数据已经在上用红线图标出来了,主要可分为两部分所有博客的八个统计数据,原创的博客数、你的粉丝数、博客获得的赞、博客的评论数、博客等级、访问量、积分和排名每篇博客的具体信息,如标题、发布时间、阅读数、评论数思路分析Google Chrome浏览器F12开发者工具查看网页结构,比较简单...原创 2019-01-21 20:30:04 · 1512 阅读 · 0 评论 -
python爬取学校教务管理系统
写这个爬虫的缘由以前用java写过一个爬取学校的教务系统的爬虫 https://blog.youkuaiyun.com/ygdxt/article/details/81158321,最近痴迷Python爬虫,了解到许多强大的库,想再一次用学校的教务系统做下测试。这一次我首先想到的是新的教务系统,这个难度更大,因为有了验证码识别反爬,由于我是用的tessocr库识别验证码,(具体配置过程可以参考我之前的博客...原创 2018-11-28 20:19:15 · 5464 阅读 · 5 评论 -
python爬取图虫网图库
本文首发于月小水长的个人博客如何使用下载工程源码点击下载或者git bash;git clone git@github.com:inspurer/PythonSpider.git下载相关依赖在命令行下依此输入pip install requests pip install pyquery 打开图虫网选择你喜欢的图库链接,比如https://tuchong.com/4...原创 2018-11-14 21:55:29 · 2419 阅读 · 0 评论 -
用户、话题、评论一网打尽,分享一个最强微博爬虫
实现的功能微博向来是一个极好的吃瓜圣地,为了获取微博上行行色色的数据,微博相关的爬虫也是层出不穷,因为无论是运营者还是数据分析从业者都或多或少需要微博数据,我的许多朋友也不例外,经过断断续续的努力,我完成了一个可能是史上最强大的微博爬虫的编写。该爬虫的功能主要分为三部分,第一个主打功能是爬取指定用户的所有微博(可以通过热键 Ctrl + P 快速打开),这个用户可以按照昵称搜索,可以选择是否只...原创 2019-10-11 19:29:00 · 4829 阅读 · 13 评论