使用scrapy shell时设置cookies和headers

有时为了测试xpath,需要临时下载个页面,这时使用命令行进行测试是最方便的,但是很多网站页面需要认证,不能直接使用scrapy shell命令进行页面的抓取,所以需要重新对请求进行构造,设置cookies和headers。

首先在当前装有scrapy的python环境中安装ipython

# python环境下
pip install ipython
# conda环境下
conda install ipython

 首先进入scrapy shell,会自动使用ipython

scrapy shell

 

 

 

 把cookies转成字典格式

# 指定请求目标的 URL 链接
url = 'https://novel18.syosetu.com/n7016er/31/'
# 自定义 Headers 请求头(一般建议在调试时使用自定义 UA,以绕过最基础的 User-Agent 检测)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
# 构造需要附带的 Cookies 字典
cookies = {"key_1": "value_1", "key_2": "value_2", "key_3": "value_3"}
# 构造 Request 请求对象
req = scrapy.Request(url, cookies=cookies, headers=headers)
# 发起 Request 请求
fetch(req)
# 在系统默认浏览器查看请求的页面(主要为了检查是否正常爬取到内页)
view(response)
# 网页响应正文 byte类型
response.body
# 网页响应正文 str类型  
response.text  
# xpath选择器
repsonse.xpath()  

 

### 大模型入门 GitHub 项目资源 对于希望深入了解大模型并获取实践机会的学习者来说,GitHub 上存在多个有价值的开源项目和资源。以下是几个推荐的选项: #### 开源项目分享和技术交流平台 - **kekewind/llm-action** 提供了一个专注于大型语言模型的技术社区,在这里可以找到有关大模型的技术原理讲解以及实际操作案例[^1]。 #### 综合性框架和支持多种预训练模型的库 - **datawhalechina/hugging-llm** 是由 DataWhale 社区维护的一个项目,它不仅包含了丰富的文档资料,还提供了易于使用的工具来加载、评估不同的预训练模型[^2]。 #### 初学者友好型教程及指南 - 对于想要系统化学习如何安装配置环境、部署运行乃至优化调整参数的新手而言,《开源模型食用指南》中的 self-llm 教程尤为适用。该项目特别考虑到了国内用户的背景特点,采用中文编写,并紧密结合 AutoDL 这样的本土云服务平台进行了详细介绍[^3]。 #### 实践导向的学习材料 为了使理论知识能够迅速转化为动手能力,《大模型应用开发极简入门:基于 GPT-4 和 ChatGPT》这本书籍则是一个不错的选择。书中通过具体实例向读者展示了怎样利用这些先进的AI技术构建实用的应用程序[^4]。 以上提到的各项资源各有侧重,可以根据个人兴趣和发展方向挑选最适合自己的方式进行探索。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值