
爬虫
G_scsd
决胜于千里之外,运筹于帷幄之中。
展开
-
aiohttp异步并发下载图片
3. 使用aiohttp,下载极快,服务器带宽迅速拉升,翻了10倍以上。2. 多进程+多线程,速率提升明显,但进程开多了速度提升也不是很明显。1. 多线程下,线程数量超过100,速度提升基本就没有效果了,代理按流量计费,动态变化,不计入耗时内。需求: 下载10亿图片。原创 2024-12-25 19:59:37 · 233 阅读 · 0 评论 -
抓取一嗨租车
一、分析网站 抓取网站的主页:https://booking.1hai.cn/?from=Nav&IsBatch=false 需要选择参数,取车门店、时间等等,不选参数的话,默认的请求对我们没用,通过变更参数才能知道网站是否破解成功 具体分析抓包和请求在代码中会体现出来二、代码import requestsimport datetimeimport randomimport mathimport refrom lxml.html im...原创 2021-01-12 15:29:40 · 1607 阅读 · 4 评论 -
python中threading和concurrent实现多线程
一、threadingimport requestsfrom lxml import etreeimport threadingTHREAD_NUM = 10 # 启动十个线程def request(url): """ 发起请求 :param url: 需要请求的url :return: """ response = requests.get(url) if response.status_code == 200:原创 2020-12-12 19:34:29 · 809 阅读 · 0 评论 -
python爬虫项目
整理了自己的今年写的爬虫及其他项目代码,里面有的使用requests,也有的使用的scrapy爬虫框架,抓取了以下这些网站,网站不更新的话代码可以直接运行,里面包含了网站的破解、抓取、解析GitHub:https://github.com/Gscsd8527/AllProject每个文件夹的名字都是对应的抓取网站,抓取各网站数据:CCF :https://www.ccf.org.c...原创 2019-11-17 21:57:03 · 858 阅读 · 2 评论 -
Kaggle网站数据集抓取
抓取kaggle网站代码github:https://github.com/Gscsd8527/AllProject/blob/master/Kaggle/new_kaggle.pyimport requestsimport reimport jsonimport uuidimport datetimeBASE_URL = 'https://www.kaggle.com'...原创 2019-11-17 21:06:10 · 4064 阅读 · 0 评论 -
Selenium 设置元素等待的三种方式
Selenium 设置元素等待的三种方式 1. sleep 强制等待 2. implicitly_wait() 隐性等待 3. WebDriverWait()显示等待三种方式的优缺点1. sleep 强制等待 from selenium import webdriverfrom time import sleepdriver = webdr...原创 2019-10-31 14:29:22 · 8561 阅读 · 1 评论 -
python爬虫多线程之queue
首先先来介绍下queue这个包吧,这个包叫队列,没错,就是那个和栈反过来的那个队列,大家一听队列就随口说出先进先出,而栈则是后进先出,为什么要用用队列来实现,其实我也不知道,反正用过之后很顺手,具体哪里也说不上来 先来看下队列的内置方法的,我们只需要记住两个,一个是put 放 ,另一个是get 获得,因为我们q = queue.Queue()创建了一个队列后,这个...原创 2018-08-06 20:48:30 · 10392 阅读 · 11 评论 -
python之API接口调用
首先什么叫API,API全称又叫做Application Programming Interface,简称应用程序接口,第一次接触接口调用的时候,完全不知道写的啥,因为我看的是整个项目,项目是tornado写的,看了半天的tornado,后来才发现方向走错了,我直接看接口就行了,因为没人告诉我项目的整体流程,只能自己强行看了,只要找到程序的主入口,然后根据一步步函数调用就行了 ...原创 2018-08-06 19:20:01 · 21424 阅读 · 10 评论 -
python爬虫之伪装User-Agent
因为爬虫的需要,所以需要多个user-agent,之前一直也是这样用的,后来接触到了fake_useragent这个包后,一切都变得那么简单简单了,fake_useragent是一个集成了市面上大部分的user-agent,可以指定浏览器,也可随机生成任意一个这里简单做个生成指定浏览器的请求头from fake_useragent import UserAgentua = UserAg...原创 2018-08-06 18:55:54 · 7790 阅读 · 6 评论 -
requests使用IP代理时测试代理是否有效
以下代码能测试该IP代理是否有效,将代理的IP和代理IP的端口号填入即可# -*- coding: utf-8 -*-import telnetlibprint('------------------------connect---------------------------')# 连接Telnet服务器try: tn = telnetlib.Telnet('61.22...原创 2018-07-30 14:09:19 · 13641 阅读 · 1 评论 -
CSS选择器和xpath选择器
CSS选择器 div a::text div下面的a标签的text文本 div.agree h1 a li::text 属性为agree的div下面的h1标签下面的a标签下面的li的文本 div img.mimg::attr(src) div下面的mimg属性的img标签中的src属性中的内容 div ul.a.b.c li::text d...原创 2018-05-06 00:07:56 · 2038 阅读 · 0 评论 -
requests下载单张图片
1. 随便从网上找一张图片,复制其链接,新建一个download_image.py文件,并运行这个文件import requestsurl = 'http://img.hb.aicdn.com/178dbee440c8bc025ff3a31f0f53816a7af647191cf67-td5UxW_fw658'# 请求这个图片urlheaders = { 'User-Agent':...原创 2018-06-21 23:53:01 · 1763 阅读 · 0 评论 -
requests下载多张图片
前面写了如何下载单张图片,这里就来介绍下如何下载多张图片,区别在于多张图片的命名及放入不同文件夹等问题,我这里直接写如一个文件夹下。废话不多说,直接上代码,没有定义函数,对新手很友好,步骤很清晰,写博客的主要原因是想让新手少踩一些坑import requestsfrom bs4 import BeautifulSoupimport reurl = 'https://www.die...原创 2018-06-22 11:41:44 · 3400 阅读 · 0 评论 -
requests爬取小说
首先先选择一个小说网站,随便选择一章内容,url为http://www.biqukan.com/3_3039/1351331.html点击鼠标右键,选择审查元素,查看网页结构查看之后就可以用BeautifulSoup来提取网页中的内容了import requestsfrom bs4 import BeautifulSoupimport reheaders = { 'User-Agen...原创 2018-06-23 21:56:28 · 1648 阅读 · 4 评论 -
requests下载视屏
下载视屏前先获取到视屏的链接,这里我就先随便选取一个src作为参照url为http://www.pearvideo.com/category_9随机选取第一个视屏点击它得到他的MP4格式链接资源,将此资源下载即可src=http://video.pearvideo.com/mp4/adshort/20180623/cont-1373472-12317846_adpkg-ad_hd.mp4接着附上代...原创 2018-06-24 13:14:28 · 1794 阅读 · 0 评论 -
requests爬取数据存入MySQL
爬取鲸鱼阅读这个网站的小说,将小说的名字、作者、类别这三个字段爬取下来存入到MySQL中1. 首先分析网页的结构 我们选取第一页的内容来进行解析 url = http://www.jingyu.com/search/stack?pn=1 根据我们审查元素的结果来看,所有的数据都放在ul这个标签中,每一本小说的信息都在该ul下面...原创 2018-06-27 16:16:12 · 8732 阅读 · 8 评论 -
requests爬取去哪儿网站
闲来无事,所以爬下去哪儿网站的旅游景点信息,爬取网页之前,最重要的是分析网页的架构。1. 选择要爬取的网页及定位自己要爬取的信息 url=http://piao.qunar.com/ 爬取全国热门城市的境内门票首先要得到全国热门城市的城市名及它们背后的链接2. 根据获得的链接进入对应的页面 进一步分析页面,将我们要的数据一个个找出来3. 得到页面的下一页这里我为什么要把后面这张图片拿出来是...原创 2018-06-28 00:26:20 · 5348 阅读 · 4 评论 -
分析ajax爬取果壳网
一、确定要爬取的网页 首先选择要爬取的网页,我要爬取的是果壳网,url为:https://www.guokr.com/scientific/爬取每篇文章的标题、名字、作者、发布时间等信息 二、分析网页 我们每次往下拉的时候都会有源源不断的文章出来,而我们在分析该网页的时候新文章的HTML也是我们往下拉的时候出现的,那么恭喜你了,这个网站的数据放在ajax中了,听到这里就有...原创 2018-07-05 11:39:36 · 780 阅读 · 0 评论 -
Scrapy基本命令及spider介绍
Scrapy基本命令 1. help:scrapy的基本命令,用于查看帮助信息 列:scrapy -help 2. version: 查看版本信息,可见-v参数查看各组件的版本信息 列:scrapy version –v 3. startproject:用于创建一个工程,并创建一个完整的工程目录 列:scrapy startprojec...原创 2018-05-06 00:02:41 · 3161 阅读 · 0 评论