
Python爬虫
文章平均质量分 93
个人Python爬虫学习记录
可以叫我才哥
关注我的公众号呗,一起学习
微信公众号:可以叫我才哥
展开
-
没有50W彩礼,该怎么办
大家好,我是才哥。刚过完春节,作为到了已婚甚至被催婚年龄的我们也开始讨论一个自古既有的话题“彩礼”!今天上午,看到朋友圈刷屏了一个B站UP主的视频“没有50W彩礼,女朋友被强行拖走,我该怎么办”,看完视频只想说“******”!https://www.bilibili.com/video/BV1HR4y1775Z我们在一起已经6年了,通过努力,我们去年有了自己的房子,开始计划成立一个家庭。为了让她母亲放心,房子的名字填了她的。但是我们仍然遭到了强烈的反对,除非50w彩礼,就算把我们的房子卖了也得凑原创 2022-02-13 13:16:48 · 802 阅读 · 0 评论 -
北京2021年的第一场冬雪,比以往时候来的更早一些,用Python采集历史天气数据,带你赏一赏
大家好,我是才哥。2021年11月6日晚,北京2021年的第一场冬雪降临,似乎比以往时候都要来的更早一些。今天,我们用Python采集北京历史天气数据,来看看今年的冬雪是不是真的来的更早一些呢!?不过,在开始正文之前,咱们先赏一波雪景吧!!好了,我们开始正文部分吧~~文章目录1. 最近11年北京第1场冬雪的时间2. 2021年北京天气数据全览2.1 整体天气分布2.2. 不同月份天气分布2.3. 不同月份气温走势2.4. 全年气温变化动态图3. 数据采集4. 数据处理1. 最近11年北京原创 2021-11-09 13:38:50 · 1115 阅读 · 1 评论 -
这个横行霸道的美食,也是中秋节的一大特色,我用Python爬取京东1546条大闸蟹商品数据带大家看看
大家好,我是才哥。中秋节除了月饼之外,还有一道美食也开始闯入人们的餐桌,这边是横行"霸道"的大闸蟹!那么,大闸蟹又有哪些特点,都有哪些大闸蟹品牌值得关注呢?今天,就跟随着本文一看究竟吧!后台回复 955 ,可以在中秋-大闸蟹文件夹领取本期案例数据及ipynb演示文件。目录:文章目录1. 聊聊大闸蟹2. 数据采集2.1. 页面分析2.2. 采集程序3. 数据清洗4. 数据统计4.1. 商品价格分布4.2. 评论数分布4.3. 店铺商品数分布4.4. 好评率分布5. 其他1. 聊聊大闸蟹一般来原创 2021-09-20 19:45:21 · 734 阅读 · 2 评论 -
实战|用Python爬取《云南虫谷》3.6万条评论,并做数据统计可视化展示分析,好看!
大家好,我是才哥。最近鬼吹灯系列网剧《云南虫谷》上线,作为鬼吹灯系列作品,承接上部《龙岭迷窟》内容,且还是铁三角原班人马主演,网友直呼非常好看!今天,我们就用Python爬取目前全部剧集的评论(含预告片),并做数据统计与可视化展示分析,一起跟着网友看看这部剧吧!本文将详细讲解爬虫与数据处理可视化,寓教于乐!后台回复 210905 领取 代码+数据目录:文章目录1. 网页分析2. 爬虫过程2.1. 引入需要的库2.2. 爬取剧集页面数据2.3. 解析剧集ID和剧集评论ID2.4. 采集全部剧集评论原创 2021-09-05 18:01:39 · 692 阅读 · 3 评论 -
『网络爬虫』这应该《速度与激情》系列9部中最拉胯的一部!!
大家好,我是才哥。最近F9上线,作为重温过多次《速度与激情》系列的我们,其实是满怀期待的,直到被这部“科幻片”&“超级英雄片”拉胯到毫无逻辑和夸张到极致的剧情给破防!打开豆瓣,我们可以发现上映2天,3.77万人打出了5.6的《速激》系列最低评分。。如此拉胯的口碑,那么观众老爷们都是怎么说的呢?让我们爬取豆瓣短评简单看看吧!在开始爬虫之前,我们截取预告片中部分夸张的场景先睹为快。来源:热荐电影汽车加上火箭发射器,穿着宇航服上太空也是很有意思的狂飙在正在坍塌的木桥上,只要速度快就能安全原创 2021-05-23 12:29:17 · 303 阅读 · 0 评论 -
#扒一扒网易云课堂python课程,发现还是有不少可以白嫖的免费好资源
大家好,最近有不少新朋友咨询怎么学Python,从哪找学习资源等等。由于我个人也是从网易云课程的免费资源入门的,这里就扒一扒了网易云课程的Python课程资源,做简单的处理分析,让大家对这个平台的免费好资源有个了解,然后白嫖起来就好了。关于免费课程方面,其实有很多都讲的很详细,新人朋友选择某个完整的学习下去基本就能对基础有一定的掌握,然后再进行更深入的学习就行了。目录:文章目录1. python课程数据采集2. 简单的数据处理3. 都有哪些不错的课程3.1. 评分最高的课程3.2. 学习人数最多的课原创 2021-04-11 18:42:12 · 1148 阅读 · 0 评论 -
python爬取股票最新数据并用excel绘制树状图
文章目录1. python爬取网易财经不同板块股票数据2. excel树状图2.1. 简单的树状图2.2. 带有增长率的树状图2.3.1. 增长率配色2.3.2. VBA填充色块颜色大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊。不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们。以下截图来自金融界网站-大盘云图:那么,今天我们试着用python爬取最近交易日的股票数据,并试着用excel简单绘制以下上面这个原创 2021-02-28 13:59:14 · 1245 阅读 · 5 评论 -
平常人可以漂亮到什么程度?教你爬取知乎大神们的回答一探究竟!
大家好,今天才哥带大家看看知乎这个高达14.3万关注,2.6亿浏览,回答数超过1.27万的问题《平常人可以漂亮到什么程度?》。最近呢,可能是因为写了几篇关于爬虫获取美女照片的文章的缘故?总是收到知乎推送这个话题,由于关注才哥颜值得到蹭蹭上涨,现在终于敢点开这个问题,然后一探究竟啦!注:全部代码、照片等数据,公众号后台回复“知乎”即可获取!1. 预览我们只将赞同数前100的回答中的照片进行对比,通过face++颜值评分接口获取的分值进行排序。注:face++颜值评分不代表本人观点哈,感觉很多不是原创 2021-01-30 16:58:49 · 964 阅读 · 0 评论 -
30万条弹幕大军都推荐你去看的《山海情》,是怎样一部最搞笑最土味的扶贫剧
大家好,今天我们来看看这部由豆瓣7万人评分高达9.4分的开年大剧《山海情》吧。也就是在昨天1月24日该剧迎来了大结局,我们爬取腾讯视频全23集共31.79万条弹幕,看看大家都在聊什么!《山海情》讲述了二十世纪九十年代以来,西海固的人民和干部们响应国家扶贫政策的号召,完成异地搬迁,在福建的对口帮扶下,通过辛勤劳动和不懈探索,将风沙走石的“干沙滩”建设成寸土寸金的“金沙滩”的故事。文章目录1. 数据预览2. 各集弹幕数3. 弹幕词云3.1. 全部弹幕词云3.2. 去掉人名后的弹幕词云3.3. 主要角原创 2021-01-26 00:18:13 · 826 阅读 · 0 评论 -
Python爬虫 | 批量爬取某图网站高质量小姐姐付费照片
文章目录0.先看一波美照吧1.网页分析2.请求数据3.解析数据4.存储数据5.完整代码大家好,今天我们一起来看看那么多高质量的漂亮小姐姐吧。自从上次爬取了虎牙1000多位小姐姐照片《》之后,有粉丝反馈说 虎牙这些小姐姐照片都太俗气了,建议去爬爬 图虫网美女标签(https://tuchong.com/tags/%E7%BE%8E%E5%A5%B3)上的高质量小姐姐照片。我打开网页找到某个封面图点进去查看组图,直接点击下载按钮提示“该照片有版权限制不可下载”,所以咱们还是别去下载了吧。鉴于以上情况原创 2021-01-19 19:44:46 · 5132 阅读 · 2 评论 -
Python爬虫 | 爬虫基础入门看这一篇就够了
文章目录0.爬虫基础流程1.分析网页URL1.1 静态网页1.2 动态网页2.请求网页数据2.1 发送get请求2.2 发送post请求2.3 定制请求头2.4 响应码3.解析数据3.1 网页html文本解析3.1.1 Beautiful Soup3.1.2 xpath3.1.3 re正则3.2 json文本解析4.存储数据大家好,今天我们来聊聊Python爬虫的基础操作,反正我是这样入门了,哈哈。其实,一开始学python的时候,我是冲着数据处理分析去了,那个pandas什么的。后来,发现爬虫挺好玩原创 2021-01-17 17:56:29 · 1225 阅读 · 0 评论 -
Python爬虫 | 以滑雪为例演示大众点评商铺信息采集(字体反爬)
文章目录1.简述2.字体反爬处理2.1.获取字体文件链接2.2.创建三类字体与实际字符映射关系3.单页店铺信息解析4.全部页数据获取4.1.获取数据页数4.2.采集全部数据5.总结1.简述冬天是一个适合滑雪的季节,但是滑雪需谨慎,比如初学者就不要上高级道,能不能滑心里要有点哔数。那么今天,咱们就以滑雪为关键字,演示一下如何用Python爬虫采集大众点评的商铺信息吧。在搜索结果以翻页的形式通过 request.get() 即可获取页面数据,然后再对网页数据进行相关解析即可获得我们需要的商铺信息。不过原创 2021-01-08 00:21:54 · 1065 阅读 · 2 评论 -
Python爬虫 | 爬取贝壳找房8万+二手房源,看看普通人在北京买房是有多难!
文章目录1.概述2.数据采集3.数据清洗3.1.读取数据3.2.去掉车位(地下室)数据3.3.房源信息解析4.数据处理及可视化4.1.各地区二手房源数4.2.各地区二手房均价4.3.各地区二手房总价4.4.各地区二手房面积4.5.各地区二手房年限4.6.各地区二手房【价格-地区】数量分布4.7.各地区二手房【户型-价格】数量分布4.8.各地区二手房【户型-地区】数量分布4.9.各地区二手房【户型-地区】均价分布5.房源标题及小区词云6.总结1.概述最近看到一句话,感觉很扎心,这句话是”任何一个男孩子小时原创 2021-01-08 00:19:56 · 4692 阅读 · 3 评论 -
Python爬取自如北京2.3万条租房信息,发现快租不起房子了
文章目录1.概述2.数据采集-爬虫2.13.数据处理-清洗4.数据分析-统计5.数据展示-可视化6.总结1.概述2.数据采集-爬虫自如的租房信息每个筛选结果最多展示50页,约1500个左右。考虑到很多地区的租房数量超过1500个,我们可以通过增加筛选的方式进行遍历获取全部租房信息。以北京为例,由于自如大本营在北京,我们发现北京有租房信息2.3万条以上,因此这里采用的是地区-房价区间 2个筛选项进行选择,其中筛选项为自定义以500位颗粒度。在爬虫过程中,我们会发现频繁的请求数据会被封IP,同时自如的原创 2020-12-16 02:09:23 · 2214 阅读 · 6 评论 -
Python探秘大众点评北京火锅店第①期:好吃的火锅在哪里?
文章目录1. 说明2. 北京火锅店基础数据2.1. 火锅分类2.2. 各地区火锅分类2.3. 各地区火锅店数量3. 北京火锅店评分数据3.1. 评分直方图3.2. 各地区商家评分箱线图3.2. 各地区口味评分箱线图3.3. 各地区环境评分箱线图3.4. 各地区服务评分箱线图4.评价数及人均消费4.1. 整体评价数分布本来打算今天(12月6日,我们上班)中午和朋友们去吃火锅来着,然后提前在大众点评上探秘一下好吃的火锅在哪里。结果因为连续的熬夜加班,也便没时间去吃火锅了,改到圣诞节那个周末吧(12月26日我们原创 2020-12-07 17:29:26 · 1859 阅读 · 2 评论 -
王者荣耀五周年,带你入门Python爬虫基础操作(102个英雄+326款皮肤)
简单的目录1.概述2.网页分析2.1.html页面源数据2.2.json源数据3.数据请求4.数据解析4.1.html数据解析4.1.1.bs44.1.2.xpath4.2.json数据解析5.数据保存5.1.存储图片类数据5.2.文本数据表单存储6.你也来玩一玩1.概述《王者荣耀》上线至今5个年头了,作为这些年国内最热门的手游(没有之一),除了带来游戏娱乐之外,我们在这五周年之际,试着从他们的官网找点乐趣,学习一下Python爬虫的一些简单基础操作。本篇将主要介绍简单的Python爬虫,包括网页分析原创 2020-10-29 22:17:20 · 1366 阅读 · 0 评论 -
再也不用手动复制粘贴收集Taptap游戏评论了,还可以制作好看的热词词云图~
文章目录1.引入需要的库2.评论内容采集3.热词词云制作4.程序跑起来预览1.引入需要的库由于我们这里需要采集评论内容,同时对这些评论数据进行分词与热词词云制作,因此需要引入的第三方库较多。考虑到使用者环境的差异性,这里采用**pip.main()**方法,若加载时发现依赖库不存在则自动安装,哇,好方便啊~# 如果需要引用的库未安装,则自动安装 try: import requests import pandas as pd from bs4 import Beautif原创 2020-09-05 14:47:37 · 1922 阅读 · 0 评论 -
今天要去看电影《八佰》了,我用Python爬了14.4万条评论看看大家都在聊啥~
目录0.前言1.三类(好评、中评和差评)评价用户数据统分1.1.总体评价词云1.2.三类用户数据1.3.三类用户的观后感差异1.3.1好评用户给予的评论内容词云1.3.2中评用户给予的评论内容词云1.3.3差评用户给予的评论内容词云2.评价数据分布详情2.1.评分分布2.2.上映首周每日评价数分布2.3.每日分时评价数分布2.4.评价用户城市分布3.评论数据爬虫过程《八佰》是由华谊兄弟电影有限公司和北京七印象文化传媒有限公司出品,腾讯影业文化传播有限公司、北京光线影业有限公司和阿里巴巴影业(北京)有限原创 2020-08-29 13:53:19 · 1320 阅读 · 0 评论 -
实践应用|快来pick你喜欢的小姐姐吧,Python爬取青春有你2和创造营2020小姐姐数据
文章目录先看结果①创造营2020撑腰榜前三甲②青春有你2当前官方榜前三甲③Face++男女视角颜值最高女性视角颜值第一名男性视角颜值第一名④小姐姐们籍贯分布(pyecharts作图)创造营小姐姐都来自哪里呀?青春有你小姐姐都来自哪里呀?0、再看下统计分析结果吧0.1小姐姐出生地分布0.2小姐姐的出生年份分布0.3小姐姐星座分布0.4小姐姐身高分布0.5小姐姐体重分布0.5小姐姐颜值分布0.5.1女性角度颜值评分0.5.2女性角度颜值评分1、载入需要的库2、使用requests+json获取小姐姐列表3、使用原创 2020-05-26 21:25:16 · 1443 阅读 · 0 评论 -
Python爬取《创造营2020》小姐姐数据并用腾讯云人脸识别做颜值评分
最近 创造营2020好多小姐姐吸引到我了,于是就有这这个颜值100分的小姐姐高达21位比如前段时间抖音很火的 凡凡以下是代码,需要你在申请腾讯云有关参数替换哦# -*- coding: utf-8 -*-"""Created on Sun May 24 20:45:13 2020@author: Gdc"""import requestsfrom fake_useragent import UserAgentimport pandas as pdimport jsonfro原创 2020-05-25 13:13:24 · 773 阅读 · 1 评论 -
Python爬虫爬取拉勾网岗位(2020年5月25日更新)
朋友最近在找产品经理工作机会,由于是从游戏策划转岗过来,他自己投了一些简历无果,我建议他看看哪些岗位在职位描述里提到了 游戏从业经验加分 的说明,想着自己去找也是麻烦,于是给朋友写个个脚本处理。自动获取cookie,用于后续使用岗位列表是简单的json格式,直接转化为字典做解析岗位详情页非json格式,所以用xpath解析(这里需要从岗位列表中找到详情页地址,组合成最终可访问的地址)# -*- coding: utf-8 -*-"""Created on Sun May 24 17:30:1原创 2020-05-25 13:26:52 · 693 阅读 · 0 评论