最近做的项目的数据处理及可视化小结

本文介绍如何使用Pandas进行数据处理,包括提取标识符及利用Matplotlib绘制散点图和热图。文章详细解释了to_csv()的使用方法及去除不必要的列,并对比了map、applymap和apply的不同之处。

  使用pandas进行数据处理,主要有对某列数据事先进行提取,提取其中的identifier。用到的操作就是df['column'] = df['column'].apply().

  使用to_csv()操作时输出的文件中会有first extra column,如果想要去除这一列,可以使用to_csv('',mode='w',index=False)

  figure out the difference of map,applymap,apply.

  对数据处理完之后用到的就是matplotlib package,这时需要使用 command ipython --pylab打开matplotlib GUI后端,然后就可以使用绘图功能了。

  这次处理主要是将数据处理成散点图和热图。

  散点图(scatter map)是使用plt.scatter(x,y)来将点描绘到图上。

  热图(heat map)是https://gist.github.com/teechap/9c066a9ab054cc322877中介绍的方法,这个主要的优点是不需要了解和使用numpy的数据,直接传入三维的list就可以将绘制出热图。因为暂时对heatmap 代码中绘制的函数还不太熟悉,所以暂时对使用到的函数的初步理解记录在此。

  plt.colormesh(x,y,z,cmap).这里面x,y是list,表示的是x,y轴的刻度。z是一个多维的list。e.g:list x中有3个数据,list y中有4个数据,那么list z就是4X3。然后对于cmap是有一些固定的value让你选择的。具体可以去看camp 参数的document.

转载于:https://www.cnblogs.com/wyh-hde/p/7115136.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值