- 博客(15)
- 收藏
- 关注
原创 实践六:防盗链知识点——视频
二、通过这个异步工具的网址来爬取这个接口的源代码(还需添加referer来绕过防盗链拦截),在其中找到被替换的“虚假URL”,使用contID来替换便是真正的URL。其中的video_image是视频的封面图片地址,而最后的strurl则是视频的链接地址,但是我们可以发现,这个地址是被修改过的,正确的地址应该是。这样修改后,服务器会认为请求是 “从li视频自身页面发起的”,从而返回真实的视频信息,绕过接口的防盗链拦截。)时,服务器会认为这个请求是 “用户从l视频页面正常点击发起的”,从而返回真实的视频信息。
2025-11-08 02:19:49
955
原创 实践九:爬取网站电影简单版
line=line.strip() #先去除空白空格换行符。二、根据m3u8的内容,对其内的每一个ts进行爬取,先只爬取20个。print(f"完成了第{num}个!一、通过抓包工具找到m3u8文件,然后下载。print("下载完毕!
2025-11-08 02:19:23
738
原创 实践八:异步实战—爬取小说
tasks.append(asyncio.create_task(getcontent(book_id,cid,title))) #将每个章节的爬取任务添加到任务列表中。tasks.append(asyncio.create_task(getcontent(book_id,cid,title))) #将每个章节的爬取任务添加到任务列表中。content=dic["data"]["novel"]["content"] #从响应数据中提取小说章节内容。四、将爬取每一个章节任务都划入到tasks中。
2025-11-08 02:19:11
1410
原创 实践七:新发地菜价
f=open("xinfadi.csv","w",encoding="utf-8",newline="") # 打开文件,指定编码为utf-8,newline=""表示不添加额外的换行符。"最低价": f"{product.get('lowPrice', '0')}元/{product.get('unitInfo', '件')}", # 拼接单位。writer.writerow(["产品名称", "类别", "最低价", "最高价", "均价", "产地", "发布日期", "单位", "规格"])
2025-11-08 02:19:02
1459
原创 实践四:爬取猪八戒信息
name=div.xpath("./div/div[3]/div[2]/div/span//text()") #服务商的名称。name=div.xpath("./div/div[3]/div[2]/div/span//text()") #服务商的名称。price=div.xpath("./div/div[3]/div[1]/span/text()") [0] #服务商的价格。name="".join(name) #将列表中的字符串拼接起来."":表示不使用空格拼接。#拿到每一个服务商的div。
2025-11-07 17:41:53
690
原创 实践三:电影天堂信息
resp=requests.get(url,verify=False,headers=headers) #发送get请求,verify=False表示忽略ssl证书验证错误。print(f"电影名称:{res.group('movie').strip()},下载链接:{res.group('download')}")print(f"电影名称:{res.group('movie').strip()},下载链接:{res.group('download')}"))</ul>",re.S))<br />.*?
2025-11-07 17:41:22
730
原创 爬虫的基础知识
代理(代理服务器,Proxy Server)是位于客户端和目标服务器之间的 “中间节点”,所有客户端的网络请求会先发送到代理服务器,再由代理转发给目标服务器;服务器的响应也会先返回给代理,再由代理转发给客户端。可以把它理解成 “网络请求的‘中转站’或‘中间人’”,核心作用是转发请求、隐藏真实身份、控制访问规则等隐私保护:隐藏真实 IP当你通过代理访问目标网站时,网站看到的是代理服务器的 IP,而不是你自己的真实 IP。比如你不想让某网站记录你的真实位置,就可以通过代理访问,从而保护隐私。
2025-11-07 17:41:05
1985
原创 实践二:豆瓣top250电影排名
f=open('top250.csv','w',encoding='utf-8',newline='') #以utf-8编码打开top250.csv文件,newline=''表示不添加额外的换行符。with open('top250.csv', 'w', encoding='utf-8-sig', newline='') as f: # utf-8-sig解决Excel中文乱码。year = i.group('year').strip() # 清理年份格式(如去掉括号)# 必须添加Cookie!
2025-11-07 14:55:00
611
原创 无监督学习:其一聚类
K-means算法的基本原理是将数据集划分为K个簇,使得每个数据点都属于与其最近的簇中心所对应的簇,且簇的中心(质心)是簇内所有数据点的均值(K-medoids使用数据点作为中心)。算法通过迭代优化来更新簇的中心点,直到达到收敛条件,即簇中心点不再发生变化或达到预定的迭代次数。初始化:随机选择K个数据点作为初始簇中心(使用K-means++等算法来优化初始簇中心的选择)(通过手肘法、轮廓系数法等方法来确定最佳的K值)分配:计算每个数据点到各个簇中心的距离(欧氏距离、曼哈顿距离。
2024-10-24 21:28:44
1024
原创 LSTM长短期记忆网络
闻道有先后,术业有专攻“。该博客用于国创项目应用,还处于写ing的阶段,后面会持续更新。的核心在于其循环结构,这一结构允许信息在不同时间步之间传递。然而,RNN在处理长期依赖(时间序列上距离较远的节点)时会遇到困难,因为计算距离较远的节点之间的联系时会涉及雅可比矩阵的多次相乘,这会导致梯度消失或梯度膨胀的问题。是一种特殊的RNN模型,它被设计用来解决RNN在处理长序列时,从而能够记住较长时间间隔的信息。在学习LSTM前,先了解一下RNN循环神经的基本逻辑。
2024-10-16 20:59:07
1029
原创 CRITIC算法(权重确定一)
CRITIC算法将数据稳定性作为一种数据,选定的指标也是有一定的联系的。CRITIC权重确定算法是一种基于的客观赋权法,因为数据波动性和相关性都是数据的信息,可以拿来计算权重。其实跟数据的离散程度相似,跟集中情况相似,可以使用标准差表示,因为它所能提供的信息量也就越大,应该给该指标分配更多的权重而便是使用相关系数表示,说明关系越紧密(说明它所提供的信息与其他指标的信息有较大的相似性,存在信息上的重叠,因此应该减少对该指标分配的权重),
2024-10-16 08:55:41
3785
1
原创 Matplotlib数据可视化
本人所著博客皆起到笔记与后期方便查看引用为目的,所写内容偏向于我自己,而Matplotlib库博大精深,后期肯定会继续修改添加,还有不少东西没有用上。但是我最想说的还是,“闻道有先后,术业有专攻“,要深刻了解这句话的含义。这里提前说一下导入matplotlib和导入matplotlib.pyplot的区别,因为高中时期导入的大多是matplotlib,避免混淆。导入matplotlib是导入库的主模块,它提供了库的整体框架和配置,但不包含直接用于绘图的函数。导入。
2024-10-15 14:43:48
1170
原创 Pandas统计分析
本人所著博客皆起到笔记与后期方便查看引用为目的,所写内容偏向于我自己,而Pandas库博大精深,后期肯定会继续修改添加,还有不少东西没有用上。但是我最想说的还是,“学到有先后,术业有专攻“,要深刻了解这句话的含义。Pandas基于NumPy库,专为解决数据分析任务而创建。Pandas提供了高效操作大型数据集所需的工具,并纳入了大量库和一些标准的数据模型。
2024-10-10 21:38:31
828
原创 Numpy数值计算
本人所著博客皆起到笔记与后期方便查看引用为目的,所写内容偏向于我自己,而Numpy库博大精深,后期肯定会继续修改添加,还有不少东西没有用上。但是我最想说的还是,“学到有先后,术业有专攻“,要深刻了解这句话的含义。Numpy能够创建数组(矩阵),可以进行函数运算、数值积分、线性代数运算、傅里叶变换和随机函数生成。
2024-10-10 10:45:22
1991
原创 深度学习入门解析
于24年7月15号晚提书学习,提笔于7月29号晚10点,8月9号落笔结题,后续可能还会有时修改。全程26天,体验过各种心理历程和情绪变化,这也是一种奇特的体验,但总归写完了。在正式开始前,请容许我引用一段我喜欢的诗词。语文,失去了高中过渡的作用后,便是那么的文雅。我还是那么喜欢手抄知识点,也就有了本博客的产生,是习惯使然也是熟读该书的必然。还是喜欢将我的成果分享给大家。接下来我会按照该书大题框架给出解析,由于能力受限并无更多延申,本博客可以帮助你更好入门理解。
2024-08-09 13:49:03
1738
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅