Python模拟登录实战，采集整站表格数据！

最新推荐文章于 2024-04-11 09:14:35 发布

原创

最新推荐文章于 2024-04-11 09:14:35 发布 · 277 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #xpath #csv #javabean #curl

本文介绍了如何使用Python模拟登录并爬取含有表格数据的网站，通过requests库进行POST请求，结合pandas库提取网页表格，以及利用cookies处理会话，最后将数据保存到CSV文件。

本节主要内容有：

通过requests库模拟表单提交
通过pandas库提取网页表格

上周五，大师兄发给我一个网址，哭哭啼啼地求我：“去!把这个网页上所有年所有县所有作物的数据全爬下来，存到Access里!”

我看他可怜，勉为其难地挥挥手说：“好嘞，马上就开始!”

目标分析

大师兄给我的网址是这个：https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg

打开长这样：

根据我学爬虫并不久的经验，通常只要把年月日之类的参数附加到url里面去，然后用requests.get拿到response解析html就完了，所以这次应该也差不多——除了要先想办法获得具体有哪些年份、地名、作物名称，其他部分拿以前的代码稍微改改就能用了，毫无挑战性工作，生活真是太无聊了

点击 View Summary 后出现目标网页长这样

那个大表格的数据就是目标数据了，好像没什么了不起的——

有点不对劲

目标数据所在网页的网址是这样的：https://www.ctic.org/crm/?action=result ，刚刚选择的那些参数并没有作为url的参数啊!网址网页都变了，所以也不是ajax

这和我想象的情况有巨大差别啊

尝试获取目标页面

让我来康康点击View Summary这个按钮时到底发生了啥：右键View Summary检查是这样：

实话说，这是我第一次遇到要提交表单的活儿。以前可能是上天眷顾我，统统get就能搞定，今天终于让我碰上一个post了。

点击View Summary，到DevTools里找network第一条：

不管三七二十一，post一下试试看

import requests 
  
url = 'https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg' 
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 
           'AppleWebKit/537.36 (KHTML, like Gecko) ' 
           'Chrome/74.0.3729.131 Safari/537.36', 
           'Host': 'www.ctic.org'} 
data = {'_csrf': 'SjFKLWxVVkkaSRBYQWYYCA1TMG8iYR8ReUYcSj04Jh4EBzIdBGwmLw==', 
        'CRMSearchForm[year]': '2011', 
        'CRMSearchForm[format]': 'Acres', 
        'CRMSearchForm[area]': 'County', 
        'CRMSearchForm[region]': 'Midwest', 
        'CRMSearchForm[state]': 'IL', 
        'CRMSearchForm[county]': 'Adams', 
        'CRMSearchForm[crop_type]': 'All', 
        'summary': 'county'} 
response = requests.post(url, data=data, headers=headers) 
print(response.status_code)

果不其然，输出400……我猜这就是传说中的cookies在搞鬼吗?《Python3网络爬虫实战》只看到第6章的我不禁有些心虚跃跃欲试呢!

首先，我搞不清cookies具体是啥，只知道它是用来维持会话的，应该来自于第一次get，搞出来看看先：