
Python爬虫
菜鸡一枚____
少上线 消息很少会回复 谢谢!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫:按照需求下载煎蛋网妹子图
煎蛋网的图片的地址被加密过,但是我们会发现所加密的形式是base64的方式加密的,那么我们只要用base64解码就可以得到图片的原地址了。 然后经过观察发现,网站上的每一页的变化都是通过url的方式直接变化,最明显的就是url的变化都是根据页数来改变的。。。所以我们只要爬取网站的url就好啦(手动滑稽 下面是代码: import requests import bs4 import base64 ...原创 2018-11-23 23:16:49 · 458 阅读 · 0 评论 -
爬取煎蛋网妹子图片
import requests import bs4 import base64 import urllib.request num_photo = 1 def download_photo(url , num ): global num_photo response = urllib.request.urlopen(url) cat = response.read() with ...原创 2018-11-24 00:09:26 · 2009 阅读 · 0 评论 -
爬取正方教务系统课程表
被一个学长布置下的任务…有些地方可能不够完整… 思路: 首先你需要完成登录操作: (1) 首先根据教务系统网站的审查元素, 发现了一个验证码的网址:http://210.40.2.253:8888/(fw5xjvfovnf3f4zg1ikero2a)/CheckCode.aspx 进去后你会发现,这里面的验证码是会随着时间的变化而变化的,那这样子该怎么办呢?(果断百度一波!!) 然后巴拉巴拉… ...原创 2019-01-23 19:57:50 · 3724 阅读 · 0 评论 -
爬取起点小说网免费小说
python 3.7 设置了0.5秒存入一个章节 所以有点慢 运行的时候在py文件的同级目录下创建目标的小说文件夹 在文件夹中写入小说章节 import requests from bs4 import * from lxml import etree import os import time res = requests.session() head = {} book_name = [] b...原创 2019-02-22 00:02:03 · 1131 阅读 · 0 评论 -
爬取百度top10热搜
import requests from lxml import etree head = {} url = "http://top.baidu.com/buzz?b=341&fr=topindex" head["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:63.0) Gecko/20100101 Firefox/63....原创 2019-03-01 00:33:24 · 3390 阅读 · 0 评论