数据导入与清理:从R、JSON到持久化
1. 导入R数据
1.1 背景与准备
R统计包在数据处理和分析方面功能强大,与Python和pandas有相似之处。但目前将R数据(如rds或rdata文件)读取到Python的工具较少,分析师常先将数据保存为CSV文件再加载到Python。我们将使用 pyreadr ,它无需安装R。
在开始前,需安装 pyreadr 包,可在终端或Powershell中输入 pip install pyreadr 进行安装。同时,要从GitHub仓库下载本操作使用的rds文件。
1.2 操作步骤
- 加载必要的库 :
import pandas as pd
import numpy as np
import pyreadr
import pprint
- 获取R数据 :
nls97r = pyreadr.read_r('data/nls97.rds')[None]
nls97r.dtypes
nls97r.head(10)
- 设置值标签和列标题的字典 :
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



