利用Python进行数据分析_第六章:…

这篇博客介绍了如何利用Python进行数据处理,包括读取CSV、固定宽度格式(FWF)和剪贴板数据,以及读写JSON、Excel文件。还涉及了从HTML网页抓取数据,解析XML和HTML,以及处理二进制数据格式如HDF5。此外,文章提到了SQLite数据库的使用,并预告了接下来关于数据库的深入讲解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

利用Python进行数据分析_第六章:数据加载、存储与文件格式

读取文本格式的数据:
read_csv默认分隔符是逗号。
read_table默认分隔符是制表符(“\t”)。

read_fwf读取定宽列格式数据(没有分隔符)
read_clipboard读取剪贴板中的数据。将网页转换为表格时很有用。

header=none:pandas为其分配默认的列名。否则用:names=[“”,“”]。

读取时,列索引参数:index_col=‘’。

skiprows跳过文件的第一行、第三行、第四行:读取文件时,参数:skiprows=[0,2,3]。

pd.isnull返回布尔值。

读取文件时,参数:na_values=[‘NULL’]来接受一组用于表示缺失值的字符串。

利用Python进行数据分析_第六章:数据加载、存储与文件格式 利用Python进行数据分析_第六章:数据加载、存储与文件格式 利用Python进行数据分析_第六章:数据加载、存储与文件格式

读取文件时,只读取几行:nrows=5,读取5行。

逐块读取文件:设置参数chunksize(行数):chunksize=1000。

将数据写出到文本格式:to_csv方法,我们可以将数据写到一个以逗号分隔的文件中。参数:sys.stdout打印文本结果。缺失值:na_rep=‘NULL’。header=False。列cols=[‘a’,‘b’]。

Series系列:from_csv更方便读取csv文件。

手工处理分隔符格式:直接使用Python内置的csv板块,将任意已打开的文件或文件型的对象传给csv.reader。

手工输出分隔符文件:你可以用csv.writer。

利用Python进行数据分析_第六章:数据加载、存储与文件格式 利用Python进行数据分析_第六章:数据加载、存储与文件格式 利用Python进行数据分析_第六章:数据加载、存储与文件格式

JSON数据:(JavaScriptObjectNotation的简称)

json.loads:将JSON字符串转换成Python形式
json.dumps将Python对象转换成JSON格式。

(原生的高效导出:to_json。解码:from_json)

XML和HTML:Web信息收集:

lxml.html处理html,再用lxml.objectify做一些XML处理。

urllib2打开url,用的是urllib2中的urlopen。parse是解析。tag是标签。

使用文档根节点的findall。
get方法(针对URL)。text_content方法(针对显示文本)。

对于标题行,就是th单元格;
而对于数据行,则是td单元格。

略………………

二进制数据格式(略………………)

使用HDF5格式(略………………)

读取excel文件:(需要安装xlrd和openpyxl包)
直接用pd.ExcelFile函数。
存在在工作表中的数据:df.parse(‘sheet1’)。

使用HTML和Web API(略……)

使用数据库:
SQLite数据库:sqlite3模板
重点,新来一篇博客讲解数据库。

存取MongoDB中的数据:(略……)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值