目录
python以其简明的风格和强大的库支持在大数据时代占得一席宝地。特别是在cv网格化大数据处理、音频、自然语言等领域,均有很多应用。基于python的深度学习发展正如火如荼。先掌握好如何在python中使用几大数据结构是打好基础的第一步。
CSV
CSV 文件是最常用的数据存储方法。大部分 Kaggle 比赛中的数据都存储在 CSV 文件中。Python 中有内置的 CSV 库来支持读写操作,通常情况下,我们会先将数据读入表中。
在下面的代码中,当调用 csv.reader()函数时,可以访问所有的 CSV 数据。而 csvreader.next()函数的功能是从 CSV 中读取一行,当多次连续调用时,会自动读取下一行。也可以使用 for 循环遍历 csv 的每一行,同样用 csv.reader()函数读取每一行。这里需要注意,要确保每行中的列数相同,否则,在处理时,可能会遇到错误。
读CSV
import csv
filename = "my_data.csv"
fields = []
rows = []
# Reading csv file
with open(filename, 'r') as csvfile:
# Creating a csv reader object
csvreader = csv.reader(csvfile)
# Extracting field names in the first row
fields = csvreader.next()
# Extracting each data row one by one
for row in csvreader:
rows.append(row)
# Printing out the first 5 rows
for row in rows[:5]:
print(row)
写CSV
同样,用 Python 写入 CSV 文件也很容易。先在单个列表中设置字段名称,并在列表中写入数据。这次创建一个 writer()对象,使用这个方法将数据写入文件,与读取 CSV 数据的方式非常相似。