Task01:数据加载
输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。
读写文本格式的数据
因为其简单的文件交互语法、直观的数据结构,以及诸如元组打包解包之类的便利功能,Python在文本和文件处理方面已经成为一-]招人喜欢的语言。
pandas提供了-些用于将表格型数据读取为DataFrame对象的函数。其中read_ csv和read_ table 可能会是你今后用得最多的。
pandas中的解析函数
函数 | 说明 |
---|---|
read_CSV | 从文件、URL.文件型对象中加载带分隔符的数据。默认分隔符为逗号 |
read_ table | 从文件、URL.文件型对象中加载带分隔符的数据。默认分隔符为制表符(“\t”) |
read_ fwf | 读取定宽列格式数据(也就是说,没有分隔符) |
read_ clipboard | 读取剪贴板中的数据,可以看做read_ .table的 剪贴板版。在将网页转换 |
这些函数在将文本数据转换为DataFrame时所用到的一些技术。这些函数的选项可以划分为以下几个大类:
索引:将一个或多个列当做返回的DataFrame处理,以及是否从文件、用户获取列名。.
类型推断和数据转换:包括用户定义值的转换、缺失值标记列表等。
日期解析:包括组合功能,比如将分散在多个列中的日期时间信息组合成结果中的单个列。.
迭代:支持对大文件进行逐块迭代。
不规整数据问题:跳过- -些行、页脚、注