《新浪微博爬虫》第一节:模拟登陆

本教程详细介绍了如何使用Requests和Scrapy框架模拟登录新浪微博。首先通过预登陆获取必要的参数,然后进行正式登录,处理可能出现的验证码或二维码登录流程,最后成功登录并保存Cookie。整个过程涉及Ajax请求、RSA加密、短信验证码和二维码登录。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫基于Requests + Scrapy

Requests获取Cookie,Scrapy框架通过Cookie登录爬取。

本次模拟登录使用request的会话机制维持登录状态

模拟登录流程分析:

  1. 手动登录,使用浏览器develop功能分析登录流程
  2. 根据上一步的分析结构,手动构建请求参数
  3. 处理验证等过程,完成登录
  4. 登录成功保存Cookie到文件

一. 预登陆

预登陆
当键入账号后,新浪会发送ajax请求,请求参数包括Unix Timestamp ,账号使用base64计算后的su和固定参数,其中的client参数根据网上博客比较后发现是不同版本的登录JavaScript,是动态更新的。
请求发送后,返回值是包含一个json对象,包括服务器要求的一些参数。将里面的[servertime,nonce,pubkey,rsakv,pcid]提取出来,用于下一步正式登录。

二.正式登录

正式登陆
点检登录后,发送ajax POST请求,请求参数包含固定参数,和密码rsa加盐后的sp值,和上面获取到的参数共同构建成FormData。
postdata = {
‘entry’: ‘weibo’,
‘gateway’: ‘1’,
‘form’: ”,
‘savestate’: ‘7’,
‘qrcode_flag’: ‘false’,
‘use

资源下载链接为: https://pan.quark.cn/s/22ca96b7bd39 在 IT 领域,文档格式转换是常见需求,尤其在处理多种文件类型时。本文将聚焦于利用 Java 技术栈,尤其是 Apache POI 和 iTextPDF 库,实现 doc、xls(涵盖 Excel 2003 及 Excel 2007+)以及 txt、图片等格式文件向 PDF 的转换,并实现在线浏览功能。 先从 Apache POI 说起,它是一个强大的 Java 库,专注于处理 Microsoft Office 格式文件,比如 doc 和 xls。Apache POI 提供了 HSSF 和 XSSF 两个 API,其中 HSSF 用于读写老版本的 BIFF8 格式(Excel 97-2003),XSSF 则针对新的 XML 格式(Excel 2007+)。这两个 API 均具备读取和写入工作表、单元格、公式、样式等功能。读取 Excel 文件时,可通过创建 HSSFWorkbook 或 XSSFWorkbook 对象来打开相应格式的文件,进而遍历工作簿中的每个 Sheet,获取行和列数据。写入 Excel 文件时,创建新的 Workbook 对象,添加 Sheet、Row 和 Cell,即可构建新 Excel 文件。 再看 iTextPDF,它是一个用于生成和修改 PDF 文档的 Java 库,拥有丰富的 API。创建 PDF 文档时,借助 Document 对象,可定义页面尺寸、边距等属性来定制 PDF 外观。添加内容方面,可使用 Paragraph、List、Table 等元素将文本、列表和表格加入 PDF,图片可通过 Image 类加载插入。iTextPDF 支持多种字体和样式,可设置文本颜色、大小、样式等。此外,iTextPDF 的 TextRenderer 类能将 HTML、
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值