利用Python和R采集与分析地震数据

鹿卿

于 2015-02-01 22:37:46 发布

阅读量3.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：数据分析文章标签： python 数据采集数据分析可视化

本文链接：https://blog.youkuaiyun.com/scwfx/article/details/43377667

本文介绍如何利用Python自动化采集国家地震台网的地震数据，并使用R进行数据清洗、分析和可视化。通过解析网页源代码，用正则表达式提取表格中的信息，处理不规范的时间列，最后将数据保存到CSV文件，以便于后续的R分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这一次我们将要采集与分析的是国家地震台网的数据，原网页为http://data.earthquake.cn/datashare/globeEarthquake_csn.html。仍然使用python来自动化采集数据，使用R来进行数据分析。我们需要提取原网页中table中的地震数据。

其网页源文件中数据显示的格式如下，使用re模块的正则表达式来提取数据，需要注意标题行和数据行格式的不同，另外数据行中“时间”这一列是不规范的，设计匹配规则时为了一次性抓取数据，需要较强的兼容规则。

数据保存在csv文件中，python数据采集源代码：

<span style="font-size:14px;">#encoding:utf-8
'''
Created on 2015年1月31日
@author: Guo
'''
import urllib2,re,csv
url='http://data.earthquake.cn/datashare/globeEarthquake_csn.html'
page=urllib2.urlopen(url).read().decode('gb2312').encode('utf-8')#原网页编码方式为gb2312需要先解码后编码为平台可显示的utf-8字符格式
pattern=re.compile('<