爬虫相关
东风若吹
需要一直努力。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一个爬虫(爬一下湖北工业大学教务处成绩)
啥都不说,直入正题。思路:分析请求地址——解决登陆问题——获取页面后筛选有用信息——优化相关算法一、分析请求地址通过分析教务处官网,发现请求URL为http://run.hbut.edu.cn/StuGrade/Index并且得到了登陆时所需要post的表单数据。二、登陆通过requests模拟请求,其中验证码部分需要定向到生成验证码的url,发现url对应的是一个图片文件,因此我选择直接利用op...原创 2018-02-20 22:15:22 · 2063 阅读 · 3 评论 -
BeautifulSoap的应用
为了前面的对教务处成绩的脚本进行进一步的优化,我对其中字符串的筛选使用了BeautifuSoup模块。首先创建BeautifulSoup对象:soup = BeautifulSoup(requests.get('http://run.hbut.edu.cn/StuGrade/Index',headers=headersgrade).text,"html.parser")用requests返回一个B...原创 2018-02-21 23:00:49 · 1125 阅读 · 0 评论 -
从“冲顶大会”自动答题到对教务处登陆图片验证码的自动识别
今天接着对前面的教务处爬取信息的脚本进行完善。到目前为止,前面已经实现了对内容的获取以及对获取信息的可视化整理,但是有一点没有解决,就是每一次登录都需要我们自己手动查看本地文件,并且输入验证码。一段代码的诞生,其目的就在于能让使用者感受到进一步的便捷和高效,那我们能不能将验证码这一步省略过去呢?这个时候,我想到了之前很火的“冲顶大会”类的自动答题脚本,答题的时候是能自动识别屏幕上的相关文字的,那我...原创 2018-02-22 17:43:57 · 554 阅读 · 0 评论 -
爬取''百思不得姐''网站的全部视频
分析URL,发现网站视频页面的视频链接是全部嵌入在源代码中的。所以首先获取源码,用正则表达式得到视频链接和视频名称,接着遍历不同页面的url,最后在本地生成文件存入。源码如下:#Design by minyuandong import requests import re import os #通过控制传入的i值来控制访问不同页面 def get_url(i): url = 'http:/...原创 2018-02-24 14:42:46 · 594 阅读 · 0 评论
分享