天文数据集获取与分析指南
1. 数据获取工具介绍
1.1 Git与代码管理
Git 凭借其强大的功能,已成为 Python 社区中事实上的标准代码管理工具。众多核心 Python 包都借助 Git 进行管理,同时利用 http://github.com 网站来辅助协作。建议大家在项目中考虑使用 Git,投入时间学习使用它,定会有所收获。
1.2 AstroML 数据集工具
许多天文数据示例和应用需要真实的数据集来测试性能。虽然网上有大量高质量的天文数据,但查找合适的数据集并非易事,需要了解数据位置并熟悉 SQL 等数据库工具。为此,我们在 AstroML 包中创建了一套数据集加载器。
这些加载器通过直观的接口下载和管理大量天文数据。由于数据集较大,不会与源代码捆绑分发,而是通过 astroML.datasets 中的脚本从网页上获取。每个数据集仅在首次调用关联函数时下载到本地,后续调用将使用缓存版本。
例如,使用 fetch_imaging_sample
函数处理 SDSS 成像测光数据。该函数接受一个可选的字符串参数 data_home
,调用时会先检查 data_home
目录中是否已保存数据文件(若未指定 data_home
,默认目录为 $HOME/astroML_data/
,也可通过设置 $ASTROML_DATA
环境变量指定默认位置)。若文件不存在,会自动从网络下载并缓存。
获取所有数据集获取函数的完