- 博客(13)
- 收藏
- 关注
原创 爬虫之User-Agent和Cookies
User-Agent 是一个HTTP请求头,它向服务器发送信息以标识发出请求的客户端软件及其版本。这个信息可以包括浏览器类型、操作系统等。对于爬虫来说,设置 User-Agent 可以帮助你模拟真实的浏览器行为,避免被目标网站识别为自动化程序而封锁。同时,通过在 User-Agent 字符串中添加联系信息,可以让网站管理员知道你的爬虫来源,有助于沟通和问题解决。Cookies 是存储在用户浏览器中的小型文本文件,用于保存状态信息或记录用户活动的数据。
2025-02-16 00:58:35
1944
原创 爬虫常用架构
通过控制浏览器(Chrome、Firefox)渲染页面,解决 JavaScript 动态加载问题。对动态渲染页面(JavaScript)支持较弱(需配合 Splash 或 Selenium)。内置中间件(Middleware)、管道(Pipeline)等扩展机制,支持插件。支持多浏览器(Chromium、Firefox、WebKit),API 更现代化。提供完整的爬虫生命周期管理(请求调度、数据解析、存储等)。需配合解析库(如 lxml、pyquery)使用。支持模拟用户操作(点击、滚动、表单提交)。
2025-02-15 22:01:54
1765
转载 Django基础学习笔记
│ manage.py 【项目管理的脚本,不要修改,eg:启动、创建app、数据库管理等】├─django_study_demo 【与项目同名的文件夹】│ asgi.py 【和wsgi.py一起,接收网络请求的】【不用修改】【Django接收异步的】│ settings.py 【项目的配置文件,eg:数据库连接信息、注册app等】【常操作】
2025-01-12 21:48:21
28
原创 爬虫实战2(动态页面)
http://www.esjson.com/jsonviewer.html//JSON在线可视化视图|(ES JSON在线工具)https://www.lddgo.net/convert/curl-to-code//在线curl命令转换码。https://movie.douban.com/explore//豆瓣网。将运行结果json代码复制。
2024-05-17 11:32:23
976
原创 爬虫实战1
f'最低温:{low_temperature}\n天气:{weather}\n风向:{wind}')# print(f'日期:{date}\n最高温:{high_temperature}\n''最高气温':high_temperature,'最低气温':low_temperature,df.to_excel('南宁5月天气.xlsx')'天气':weather,'日期':date,
2024-05-17 09:39:26
445
原创 深度学习#第9章/加载编码工具
token_type_ids:第一个句子和特殊符号的位置是0,第二个句子的位置是1。#attention_mask:是补零的位置是0,其他位置是1。#对抽取的特征只取第一个字的结果做分类即可。#有一半的概率把后半句替换为一句无关的话。#计算5个批次即可,不需要全部遍历。#输出各项数据的情况,便于观察。#input_ids:编码之后的数字。#使用预训练模型抽取数据特征。#第9章/不训练预训练模型,不需要计算梯度。#按批次遍历训练集中的数据。#按批次遍历测试集中的数据。#模型切换到训练模式。
2024-05-14 10:27:07
297
1
原创 深度学习#第12章/加载编码工具
计算loss并使用梯度下降法优化模型参数。#计算5个批次即可,不需要全部遍历。#输出各项数据的情况,便于观察。#下游任务模型切换到运行模式。#按批次遍历训练集中的数据。#按批次遍历测试集中的数据。#定义测试数据集加载器。#模型切换到训练模式。#第12章/加载预训练模型。#第12章/加载编码工具。#第12章/定义计算设备。#第12章/数据整理函数。#第12章/加载数据集。#第12章/数据加载器。
2024-05-14 10:26:19
326
1
原创 python可视化
plt.step(v1, v2, where='mid', color='blue', label='燃料消耗量')# df = pd.read_excel(r'D:\21数据1-3班数据可视化\轿车燃料消耗图.xlsx')# df=pd.read_excel(r'D:\21数据1-3班数据可视化\orders.xlsx')plt.legend(['轿车燃料消耗'],loc='upper left',fontsize=15)# color='g',label='门店销售额')
2024-04-19 08:35:35
365
3
原创 python可视化3.22
plt.xticks(group,['组A','组B','组C','组D','组E'])bar.add_xaxis(['数学','语文','物理','生物','体育','英语'])bar.add_yaxis('班级A',[134,125,127,89,95,87])bar.add_yaxis('班级B',[131,128,129,87,92,88])# group=['组1','组2','组3','组4','组5'] #x轴。# plt.legend([p1,p2],['男生','女生'])
2024-03-22 10:26:01
230
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人