
python爬虫
python爬虫相关案例
故明所以
清心、静思、实干、寡言。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬取安居客(base64加密)
测试base64加密:http://tool.chinaz.com/Tools/Base64.aspx基本原理:https://www.cnblogs.com/hongru/archive/2012/01/14/2321397.html一、分析url访问网址:https://bj.zu.anjuke.com/发现字体部分是加密得到的,可以猜想到大概是css加密,尝试查看它的字体。去style中找下这个字体的来源查看自定义字体的格式,如下所示:@font-face { font-f原创 2020-10-14 08:15:54 · 2463 阅读 · 1 评论 -
Python爬取有道翻译(js-加密)
一、分析URL先尝试爬取一下:import requests# url = "http://www.httpbin.org/post"url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"headers = { 'X-Requested-With': 'XMLHttpRequest', 'User-Agent': 'Mozilla/5.0 (Macintosh; In原创 2020-10-13 14:37:59 · 861 阅读 · 1 评论 -
python破解验证码
一、需求分析在爬虫过程中,有的时候需要登录,而登录的时候一般需要验证码。如果手动输入验证码肯定来不及的或达不到预期要求,这里就需要自动登录,这就意味着需要破解验证码。验证码的类型有很多,常见的两类:(1)文字验证码(2)滑动图形验证验证码有很多种类,下面以这两种为讲解思路引导。文字验证码(1)使用selenium访问(2)将验证码图片保存(3)识别滑动验证(1)计算滑动距离(2)模拟人滑动(总体思路是先快再慢)实现文字验证码,可以使用图像识别技术,有很多第三方做好的图原创 2020-10-10 17:46:17 · 3919 阅读 · 0 评论 -
Python爬取斗鱼直播网站信息
一、需求爬取斗鱼直播网站信息,如直播名字、主播名字、热度、图片和房间网址,将这些数据保存到csv文件中,并单独创建文件夹保存图片。斗鱼直播网址:https://www.douyu.com/g_LOL二、分析url先单击【直播】,然后单击分页,发现分页的时候url没发生变化,基本可以确定是通过异步加载的。现在找到了异步url。此时,可以直接向url发送请求后去数据,还可以使用selenium获取加载之后的网页总数据,提取。三、数据提取有两种办法可以选择:(1)如果使用ajax异步u原创 2020-10-10 09:08:12 · 2759 阅读 · 0 评论 -
Python爬取豆瓣读书
一、需求爬取豆瓣读书Top250(csv存取数据)豆瓣读书网址:https://book.douban.com/top250?start=0二、代码实现import requestsimport csvfrom lxml import etreeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' '(KHTML, like原创 2020-10-09 16:40:11 · 1230 阅读 · 0 评论 -
Python爬取腾讯招聘信息
一、分析需求腾讯招聘网址:https://careers.tencent.com/search.html分析获取url:提取数据的方法:使用json转字典二、代码实现import requestsimport csvurl = "https://careers.tencent.com/tencentcareer/api/post/Query"headers = { "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKi原创 2020-10-09 11:44:41 · 2866 阅读 · 2 评论 -
Python爬取豆瓣电影
一、分析url单击分类信息,跳转到分类电影列表。这个页面是有多页数据加载的,当用户向下滚动右侧的滚动,加载数据,这个经过分析是ajax加载的数据,需要找到ajax请求的网址。先找到分类,提取分类的名字和类型编号,然后再爬分类下的电影数据。二、提取数据的方法ajax返回的数据是json,response.json()得到的是字典,用字典操作就可以了,当然肯定可以用正则。其实专门操作json的有一个模块叫jsonpath。三、代码实现import requestsimport rei原创 2020-10-09 09:34:34 · 1714 阅读 · 1 评论 -
Python爬取古诗词
一、需求爬取网址:https://www.gushiwen.org/需求:(1)获取侧边栏【类型】信息;(2)获取每个类型中古诗文详情页信息;(3)提取详情页数据:古诗文名、作者、朝代、类型、内容、译文及注释;(4)将数据保存到 csv 文件;二、代码实现import requestsimport csvfrom lxml import etreestart_url = "https://so.gushiwen.cn/shiwen/"base_url = "https://so原创 2020-10-08 11:39:06 · 4644 阅读 · 0 评论 -
Python爬取扇贝Python必背词汇
一、需求分析爬取网址:http://www.shanbay.com/wordlist/110521/232414/需求:获取所有的 python 词汇数据,形成字典,存储数据。二、代码实现#导入包from urllib import requestfrom lxml import etree#词汇表words = []def shanbei(page): url = "http://www.shanbay.com/wordlist/110521/232414/"原创 2020-10-07 16:48:57 · 1019 阅读 · 1 评论 -
Python爬取网易云音乐所有歌手的名称和链接
一、需求Python爬取网易云音乐所有歌手的名称和链接二、代码实现import requestsfrom lxml import etreefrom urllib import requestimport timeclass WangYiYun: def __init__(self, base_url): # 初始化tree self.html = self.request_url(base_url) self.parse_html(原创 2020-10-07 16:36:59 · 2245 阅读 · 3 评论 -
Python编写简单的剪刀石头布小程序
一、程序要求(1)提示用户选择石头剪刀布(2)计算机随机选择石头剪刀布(3)判断用户输赢(4)打印结果二、代码实现import random# 电脑人随机出拳computer = random.randint(1, 3)user = int(input('请出拳:1.拳头,2.剪刀,3.布'))if computer == 1: computer = '拳头'elif computer == 2: computer = '剪刀'else: compute原创 2020-10-05 18:03:11 · 11560 阅读 · 7 评论 -
Python编写简单的计算器,用户输入两个数字和一个四则运算符,计算结果
一、程序要求(1)提示用户从键盘输入第一个数字(2)提示用户从键盘输入第二个数字(3)提示用户选择运算符(4)打印结果二、代码实现a = int(input("请输入第一个数:"))b = int(input("请输入第二个数:"))symbol = input("请输入四则运算符号:(+-*/)")if symbol == "+": print("%s%s%s=%s"%(a,symbol,b,a+b))elif symbol == "-": print("%s%s%s=原创 2020-10-05 17:41:34 · 41949 阅读 · 3 评论 -
如何将json类型的数据转换成csv格式
1.需转换的数据文件名:5-1.json(随意设置)[ { "job": "中级服务器开发", "company": "乐海互动", "salary": "10k-18k", "link": "https://www.lagou.com/jobs/6979476.html?show=d9f79b7ba2664d72acab...原创 2020-04-20 23:11:52 · 12036 阅读 · 7 评论 -
python定向爬取淘宝中商品的名称和价格
一、思路:(1)目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格(2)理解: 淘宝的搜索接口 翻页的处理(3)技术路线:requests库、re库二、代码实现:说明:本文爬取的是淘宝中第一页电脑的名称和价格import requestsimport re//1.提交商品搜索请求,循环获取页面def get_html_text(url): headers = {...原创 2020-04-14 20:07:42 · 4182 阅读 · 6 评论