天池赛学习笔记——使用sklearn+机器学习进行分类/回归任务之(一)数据读取和分析

最新推荐文章于 2024-07-18 18:25:04 发布

原创最新推荐文章于 2024-07-18 18:25:04 发布 · 1.2k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #阿里天池 #sklearn #数据读取 #学习笔记

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文介绍了如何使用pandas的read_csv函数加载CSV文件，并提供了数据统计、可视化的方法，包括绘制密度图和散点矩阵图等。

一、数据读取

在数据处理时,最常见的文件格式是.csv和.txt我们主要使用pandas的read_csv来读取数据。
read_csv的文档网址为:http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table

read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)

其参数众多,在这里只介绍常用的几个参数：

filepath_or_buffer: 读取csv或者txt文件的路径,URL等.
sep:指定分隔符,str,对于read_csv默认',';对于read_table,默认\t.
delimiter:定界符,备选分隔符,str,默认'None',若指定该参数,则sep参数失效.
header:int or list or ints,默认’infer’,第几行开始作为列名,以及开始读取数据, 第一行为列名则设置为'0',无列名则设置为'None'.Row number(s) to use as the column names, and the start of the data.
index_col:int or sequence or False,默认None,用作行索引的列编号或者列名，如果给定一个序列则有多个行索引.Column to use as the row labels of the DataFrame.
encoding:str, 默认'None',指定字符集类型,通常指定为'utf-8'.
names:array-like, 默认'None',要使用的列名,可替代原列名(如果有的话).list of column names to use. If file contains no header row, then you should explicitly pass header=None.

常见的定界符如下表：

符号	匹配
\s	任何空白字符
\t	制表符
\f	换页符
\r	回车符
\n	换行符
\v	垂直制表符

代码示例：

import pandas as pd
filename = 'data.csv' #读取的文件名
names = ['a','b','c','d','e','f','g','h','class'] #每一列列名
data = pd.read_csv(filename,names=names) #读取数据,命名数据框为data

统计数据信息

话不多说,直接上代码.

print(data.shape) #显示维度,行*列
print(data.head(5)) #显示前5行
print(data.dtypes) #查看数据每一个字段的数据类型
print(data.describe()) #显示所有数据的条数,mean,std,min,25%分位数,50%分位数,75%分位数,max的信息
print(data.groupby('class').size()) #对于分类算法,查看每类样本的个数,观察正反例是否平衡
print(data.skew()) #所有数据属性的高斯偏离程度,结果显示了左偏还是右偏,0时代表偏差很小

数据可视化

data.plot
data.plot函数的详细介绍可见他人博客: //blog.youkuaiyun.com/brucewong0516/article/details/80524442
这里只做代码举例：

data.plot(kind='density',subplots=True,layout=(3,3),sharex=False) #密度图

kind参数代表了可视化图的类型,主要类型有以下几种：

参数	类型
`'line'`	折线图
`'bar'`	条形图
`'hist'`	横向条形图
`'box'`	柱状图
`'kde'`	箱线图
`'density'`	密度图
`'pie'`	饼图
`'scatter'`	散点图
`'kde'`	Kernel的密度估计图

相关矩阵图
相关矩阵图是用来展现两个不同属性相互影响的程度,如果两个属性朝着相同方向变化,那么是正向变化。

import numpy as np
import matplotlib.pyplot as plt 

corr = data.corr() #获得相关系数
figure = plt.figure()
ax = figure.add_subplot(111)
cax = ax.matshow(corr, vmin=-1, vmax=1)
figure.colorbar(cax)
ticks = np.arange(0, 8, 1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
plt.show()