自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 爬虫--视频网站的工作原理

2.切片以后用户拉动进度条时,只需要加载对应的那一块视频或者加载那一块视频及后面的几块视频即可,这样拉动进度条时播放速度也会非常快。是文本的话就可以编码 即类似于open(xxx, mode="w", encoding="utf-8")3.通过各种手段(不仅仅是编程手段,也可能用到ps、pr等工具) 把ts文件合并为一个mp4文件。1.用户视频 -> 转码(把视频做处理:2k、1080、标清等) ->切片处理(把单个文件进行划分,例如一小时的视频分成60份,每份一分钟)。

2024-06-26 10:46:05 219

原创 爬虫--用协程爬取西游记

【代码】爬虫--用协程爬取西游记。

2024-06-25 17:08:48 915

原创 爬虫--aiohttp模块应用

这是因为aiohttp 内部使用了 _ProactorBasePipeTransport ,程序退出释放内存时自动调用其 _ProactorBasePipeTransport.__del__方法导致二次关闭事件循环。一般的协程程序是不会使用_ProactorBasePipeTransport 的,所以asyncio.run() 还是可以正常运行。而且这种情况仅在Windows上发生。只是会报错但是依然能执行程序。,但是程序可以正常运行。

2024-06-25 13:10:52 844

原创 爬虫--多任务异步协程

而当前使用了协程,程序执行时间仍为9s+,是因为函数中的time.sleep(x)是同步操作,会造成io中断,当程序出现同步操作时,异步就中断了。该程序如果是没有用到协程,可以看出三个函数最少要消耗9s,加上程序执行的时间就需要9s多了。上述所说,都是在单线程的条件下 协程是程序来完成的,并不是操作系统完成的。,await就是将当前线程挂起,即await会切换到另一个任务,当前进程该睡就睡。一般情况下,当程序处于IO操作的时候,线程都会处于阻塞状态。该程序睡得最长的是f3函数,睡了4秒。

2024-06-24 21:19:25 921

原创 爬虫--协程的概念

【代码】协程的概念。

2024-06-24 15:16:55 702

原创 爬虫--线程池、进程池

【代码】线程池、进程池。

2024-06-24 13:55:55 676

原创 爬虫--多线程、多进程

第二种中创建多线程的方式中,只需要在MyThread中加入一个“def __init__(self, name)”函数,其中参数name就是创建线程时传进来的参数用于区分不同线程。super(MyThread,self).__init__() 的作用是重构run函数时必须调用父类的初始化方法,self.name=name是获得创建线程时传进来的参数。这里一定要注意参数后面必须价格“,”,因为参数必须是元组形式。t1 = Thread(target=func, args=("周杰伦",))

2024-06-24 13:54:49 354

原创 爬虫--抓取网易云评论信息

评论信息的文件是get,在get文件里面找到url,可以看到url后面有个“csrf_token=”,这个是我们没有登录,如果登录的话“=”后面就会有东西。请求方式是post。请求到get的时候initiator里面是执行哪些js脚本的过程,Request call stack下面的脚本是从下往上执行,最上面的是最后执行的脚本。第二个参数e就是复制第二个参数打开console,往里面一运行就发现参数是'010001',第三个和第四个参数同第二个参数。就会进入到该界面,可以发现加密的数据是在这几行中进行的。

2024-06-24 11:18:31 3092

原创 爬虫---代理简介

【代码】爬虫---代理简介。

2024-06-23 15:14:44 2461

原创 爬虫--防盗链使用案例

可以发现划线处数字就是上述图片里面的systemTime,而cont-后面的数字是下图的contId,故只需提取到srcUrl里面的systemTime将其替换为contId就能获取到视频下载链接并将其下载到本地啦!防盗链(反爬的一种方式):溯源,就是访问videoStatus.jsp中headers里的url的上一级是点击https://www.pearvideo.com/video_1794833这个链接访问的,故需要进行溯源到上一级链接。溯源是在headers里面的Referer里面找到上一级链接。

2024-06-23 14:38:06 1483

原创 爬虫--处理cookie_登录小说网

我们可以使用session进行请求 -> session可以认为是一连串的请求,在这个过程中cookie不会丢失。# print(resp.cookies) # 看cookie。# 带着cookie 去请求到书架url -> 书架上的内容。# 刚才的那个session中是有cookie的。# 登录 -> 得到cookie。# 必须得把上述两个操作连起来。# 2.拿到书架上的数据。

2024-06-23 10:51:46 512

原创 爬虫--xpath解析入门2

把parser解析器放到tree = etree.parse("b.html")里面:tree = etree.parse("b.html", parser=parser)parser = etree.HTMLParser(encoding="utf-8") #parser:解析器。文件名+网页类型+解析器(指定编码)for循环中./即从当前文件下往下查找,类似于当前文件是在li,在li标签中继续寻找,相对查找,a[@href='tanke']就是查a标签href属性为tanke的内容是什么。

2024-06-22 16:34:54 884

原创 爬虫--xpath解析入门1

【代码】爬虫--xpath解析入门1。

2024-06-22 15:50:29 681

原创 爬虫--bs4基本使用_抓取优美图库

由下图可以看到这些图片class属性其实都不是唯一的,故需要向外层找标签,找到该层div标签时,发现该div标签的class属性是唯一的,故使用该div标签的class 属性进行搜寻a标签(即图片),将范围第一次缩小,找到a标签以后将所有的a标签存储在一个alist变量中。因为class是python语言中的一个关键字,而在html中class是一个标签的属性,故需要在“class_="feed-section"”中的class后面加一个下划线解决该问题。安装bs4 pip install bs4。

2024-06-22 11:20:44 447

原创 爬虫--手刃豆瓣电影TOP250

打开豆瓣电影,F12进入网页源代码,然后ctrf+f搜索肖申克的救赎,找到<li>标签。提取有效数据使用(?),xxx相当于一个想要提取数据的一个名字。如果不设置浏览器上的“User-Agent”参数,代码能运行但提取不到数据。运行完以后会生成一个文件 top250_movie.csv。只匹配电影名字、年份、电影评分和评分人数四项。csv是纯文本格式,具有一系列用逗号分隔的值。是处理空格回车等问题。

2024-06-21 15:02:09 936

原创 爬虫--re模块的简单使用

【代码】re模块的简单使用。

2024-06-21 10:24:21 494

原创 字符串--r、f、u前缀的用途与差异

f-string是Python 3.6及以上版本引入的一种新的字符串格式化方式,它允许在字符串中嵌入表达式,并在运行时进行计算和替换。在Python 2中,这个前缀用于指定一个字符串是Unicode类型,以便在处理不同编码的文本时避免出现问题。尽管在Python 3中u前缀不再是必需的,但在某些情况下,为了保持代码的兼容性或明确性,开发者仍然可能会使用它。:f-string提供了一种简洁、易读的字符串格式化方式,特别适用于在字符串中嵌入变量或表达式的场景。在原始字符串中,反斜杠。

2024-06-21 10:23:23 524

原创 爬虫--正则表达式常用事例

用正则表达式限制只能输入中文:οnkeyup="value=value.replace(/[^"u4E00-"u9FA5] /g,’’)" onbeforepaste="clipboardData.setData(’text’,clipboardData.getData(’text’).replace(/[^"u4E00-"u9FA5]/g,’’))"验证一个月的31天:"^((0?"01"~"09"和"1"~"31"。[1-9]|1[0-2])$"正确格式为:"01"~"09"和"1"~"12"。

2024-06-20 14:19:39 772

原创 爬虫--requests入门

鼠标滚轮往下滚动,XHR会多出现一个数据包,且可以发现参数中的“start”总是以20进行递增。1.requests最简单的使用,搜索周杰伦相关信息。参数过多时,可以将url后面的参数重新封装。

2024-06-20 12:31:40 391

原创 爬虫--Web请求、http、request入门

1.最简单的小爬虫实例。2.Web请求过程剖析。

2024-06-19 13:56:51 781

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除