
数据科学
我是小蚂蚁
努力提高自己,加油。
展开
-
pandas.DataFrame()的基本操作
感觉上pandas的DataFrame就像numpy中的矩阵,不过它拥有列名和索引名,实际操作起来会更方便一些。import numpy as npimport pandas as pdfrom pandas import Series, DataFrame# 使用 浏览器 打开 某网址#import webbrowser#link = 'https://www.tiobe.com/...原创 2018-10-22 10:01:47 · 9385 阅读 · 5 评论 -
pandas中concatenate和combine_first的用法
concatenate主要作用是拼接series和dataframe的数据。combine_first可以做来填充数据。import numpy as npimport pandas as pdfrom pandas import Series, DataFrame# 设置一个随机种子,方便调试np.random.seed(666)# Seriesarr1 = np.arang...原创 2018-11-08 09:04:31 · 5738 阅读 · 0 评论 -
pandas时间序列操作方法pd.date_range()
在pandas中拥有强大的时间序列操作方法。直接上demo:import numpy as npimport pandas as pdfrom pandas import Series, DataFramefrom datetime import datetimenp.random.seed(666)# 生成时间对象t1 = datetime(2009, 10, 1)pri...原创 2018-11-11 15:10:37 · 17516 阅读 · 1 评论 -
pandas中pd.cut()的功能和作用
pd.cut()的作用,有点类似给成绩设定优良中差,比如:0-59分为差,60-70分为中,71-80分为优秀等等,在pandas中,也提供了这样一个方法来处理这些事儿。直接上代码:import numpy as npimport pandas as pdfrom pandas import Series, DataFramenp.random.seed(666)score_list...原创 2018-11-12 09:08:22 · 98822 阅读 · 16 评论 -
pandas中的pd.pivot_table()透视表功能
和excel一样,pandas也有一个透视表的功能,具体demo如下:import numpy as npimport pandas as pdfrom pandas import Series, DataFrame#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_ro...原创 2018-11-14 16:30:47 · 10270 阅读 · 3 评论 -
plt.plot()的使用方法以及参数介绍
前言偶然的一次操作,对plt.plot()中,仅仅传入了一个列表,然后逻辑就和预想的出现了偏差。plt.plot()plt.plot() 参数介绍:x, y : array-like or scalarThe horizontal / vertical coordinates of the data points. x values are optional. If not given...原创 2019-05-21 09:07:48 · 212814 阅读 · 4 评论 -
plt.subplot()使用方法以及参数介绍
plt.subplot()plt.subplot(nrows, ncols, index, **kwargs)第一个参数:*args (官网文档描述)Either a 3-digit integer or three separate integers describing the position of the subplot. If the three integers are nr...原创 2019-05-25 08:56:12 · 242327 阅读 · 14 评论 -
pandas中Series和Dataframe的画图方法
前言在pandas中,无论是series还是dataframe都内置了.plot()方法,可以结合plt.show()进行很方便的画图。Series.plot() 和 Dataframe.plot()参数data : Serieskind : str‘line’ : line plot (default)‘bar’ : vertical bar plot‘barh’ : horizo...原创 2019-05-26 11:04:29 · 9378 阅读 · 0 评论 -
plt.imshow()将灰度图像进行彩色映射
前言有网友在博文Tensorflow+VGG16实现卷积神经网络特征图可视化留言,表达了两个疑问:在对第5层卷积层输出的特征图进行叠加可视化的时候,256个特征图的值叠加,肯定会超出图像的最高值255,为什么还能正常显示。特征图都是灰度图像,为什么可视化的特征图都是彩色的。关键在于 plt.imshow()使用 plt.imshow() 方法进行画图,该方法有个非常实用的功能,可以将...原创 2019-04-25 10:12:43 · 18074 阅读 · 8 评论 -
subplots()使用方法举例说明
plt.subplots()plt.subplots() 和 plt.subplot() 功能作用非常相似。matplotlib.pyplot.subplots(nrows=1, ncols=1, sharex=False, sharey=False, squeeze=True, subplot_kw=None, gridspec_kw=None, **fig_kw)部分参数介绍:nrow...原创 2019-05-24 08:50:21 · 30710 阅读 · 4 评论 -
matplotlib画出直方图和密度图方法
前言matplotlib处理经常能够用到的折线图、柱状图等,还可以画出直方图和密度图。plt.hist()方法matplotlib.pyplot.hist(x,bins = None,range = None,density = None,weights = None,cumulative = False,bottom = None,hist type =‘bar’,align =‘mid’...原创 2019-06-03 08:40:46 · 15389 阅读 · 0 评论 -
使用seaborn设置图像显示效果参数
前言Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,并且更加炫酷。demoimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series, DataFrameimport seaborn as snsx = ...原创 2019-06-03 14:51:04 · 6723 阅读 · 0 评论 -
使用seaborn实现直方图和密度图
前言见过使用matplotlib画的直方图之后,再来领略一下seaborn的强大之处。sns.distplot()一个方法搞定两个图seaborn.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, ...原创 2019-06-04 08:30:01 · 4788 阅读 · 0 评论 -
使用seaborn实现柱状图和热力图
前言seaborn还可以运用其强大的画图能力,构建出热力图和柱状图,非常美观。seaborn热力图sns.heatmap(df) 传入的是一个dataframe,这个参数必须要有。其他参数也是相当的多,详情请参考:官方文档传送门sns.barplot() 柱状图sns.barplot(x , y ) x是横轴坐标,y是纵轴坐标,其他参数同样也是相当的多,详情请参考:官方文档传送门上...原创 2019-06-04 15:05:11 · 2246 阅读 · 0 评论 -
pandas中pd.groupby()的用法
在pandas中的groupby和在sql语句中的groupby有异曲同工之妙,不过也难怪,毕竟关系数据库中的存放数据的结构也是一张大表罢了,与dataframe的形式相似。import numpy as npimport pandas as pdfrom pandas import Series, DataFramedf = pd.read_csv('./city_weather.c...原创 2018-11-13 09:01:29 · 26621 阅读 · 2 评论 -
pandas中的数据去重处理
数据去重可以使用duplicated()和drop_duplicates()两个方法。DataFrame.duplicated(subset = None,keep =‘first’ )返回boolean Series表示重复行参数: subset:列标签或标签序列,可选仅考虑用于标识重复项的某些列,默认情况下使用所有列keep:{‘first’,‘last’,False},默认’fir...原创 2018-11-10 10:08:43 · 27974 阅读 · 5 评论 -
pandas.Series()的几种创建方法
前些日子的数学建模,最近的kaggle比赛,再到现在做的一个小项目,发现pandas真是一个好东西,可惜之前不太会用,需要用的时候就去上网搜,效率极其低下,现在把这一部分知识过一遍,以便日后使用。今天的主题:pandas.Series()的几种创建方法。import numpy as npimport pandas as pd# 使用一个列表生成一个Seriess1 = pd.Serie...原创 2018-10-20 15:43:17 · 26102 阅读 · 1 评论 -
pandas.DataFrame()中的iloc和loc用法
简单的说:iloc,即index locate 用index索引进行定位,所以参数是整型,如:df.iloc[10:20, 3:5]loc,则可以使用column名和index名进行定位,如:df.loc[‘image1’:‘image10’, ‘age’:‘score’]实例:import numpy as npimport pandas as pdfrom pandas impo...原创 2018-10-25 10:12:14 · 118048 阅读 · 0 评论 -
pandas中Series()和DataFrame()的区别与联系
区别:series,只是一个一维数据结构,它由index和value组成。dataframe,是一个二维结构,除了拥有index和value之外,还拥有column。联系:dataframe由多个series组成,无论是行还是列,单独拆分出来都是一个series。代码演示:import numpy as npimport pandas as pdfrom pandas import...原创 2018-10-23 08:58:38 · 24086 阅读 · 1 评论 -
pandas中的多级index操作
在pandas中可以为series和dataframe设置多个index,也就是说可以有多级index和column。这样可以对pandas的操作更加灵活。import numpy as npimport pandas as pdfrom pandas import Series, DataFramenp.random.seed(666)# series 中的 indexs1 = S...原创 2018-10-29 09:00:30 · 7612 阅读 · 0 评论 -
pandas中的reindex用法
pandas中的reindex方法可以为series和dataframe添加或者删除索引。如果新添加的索引没有对应的值,则默认为nan。如果减少索引,就相当于一个切片操作。import numpy as npimport pandas as pdfrom pandas import Series, DataFramenp.random.seed(666)# series reind...原创 2018-10-26 09:09:02 · 64280 阅读 · 3 评论 -
pandas的数学计算操作df.sum()、df.min()、df.max()、df.decribe()
常用的数学计算无非就是加减,最大值最小值,方差等等,pandas已经内置了很多方法来解决这些问题。import numpy as npimport pandas as pdfrom pandas import Series, DataFrames1 = Series([1, 2, 3], index=['A', 'B', 'C'])print(s1)'''A 1B 2...原创 2018-10-31 09:03:33 · 32856 阅读 · 2 评论 -
DataFrame读取写入文件的方法
DataFrame有非常丰富的IO方法,比如DataFrame读写csv文件excel文件等等,操作很简单。下面在代码中标记出来一些常用的读写操作方法,需要的时候查询一下该方法就可以了。import pandas as pdfrom pandas import Series, DataFrameimport webbrowserlink = 'http://pandas.pydata.o...原创 2018-10-24 08:34:06 · 11746 阅读 · 0 评论 -
pandas中关于nan的处理
在pandas中有个另类的存在就是nan,解释是:not a number,不是一个数字,但是它的类型确是一个float类型。对于pandas中nan的处理,简单的说有以下几个方法。import numpy as npimport pandas as pdfrom pandas import Series, DataFramen = np.nanprint(type(n)) # &lt...原创 2018-10-27 09:23:53 · 52406 阅读 · 1 评论 -
pandas中的map和replace操作
map可以做一个映射,对于操作大型的dataframe来说就非常方便了,而且也不容易出错。replace的作用是替换,这个很好理解。import numpy as npimport pandas as pdfrom pandas import Series, DataFrame# create a dataframedf1 = DataFrame({'城市':['北京', '上海', ...原创 2018-10-30 10:42:09 · 3895 阅读 · 0 评论 -
pandas中Series和Dataframe的排序操作
对pandas中的Series和Dataframe进行排序,主要使用sort_values()和sort_index()。DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’)by:列名,按照某列排序axis:按照index排序还是按照colu...原创 2018-11-01 08:53:58 · 6044 阅读 · 0 评论 -
pandas中DataFrame修改index、columns名的方法
一般常用的有两个方法:1、使用DataFrame.index = [newName],DataFrame.columns = [newName],这两种方法可以轻松实现。2、使用rename方法(推荐):DataFrame.rename(mapper = None,index = None,columns = None,axis = None,copy = True,inplace = Fa...原创 2018-11-06 09:23:38 · 208142 阅读 · 12 评论 -
pandas中df['one_col'].apply()方法的用法
apply有点像map的用法,可以传入一个函数。import numpy as npimport pandas as pdfrom pandas import Series, DataFramedf = pd.read_csv('apply_demo.csv').head()print(df.size) # .size 如果是series返回行数,如果是dataframe返回行数乘以...原创 2018-11-09 09:06:08 · 5573 阅读 · 0 评论 -
pandas中pd.merge()的用法
使用过sql语言的话,一定对join,left join, right join等非常熟悉,在pandas中,merge的作用也非常类似。直接上例子:import numpy as npimport pandas as pdfrom pandas import Series, DataFramedf1 = DataFrame({'key':['X', 'Y', 'Z'], 'data_s...原创 2018-11-07 10:48:36 · 32617 阅读 · 2 评论 -
使用seaborn强大的调色能力
前言seaborn 还拥有强大的调色能力,并且操作简单seaborn.color_palette()使用调色板的方法seaborn.color_palette(palette=None, n_colors=None, desat=None)Return a list of colors defining a color palette. 返回的是一个调色板定义的一个颜色列表。这个方法的...原创 2019-06-05 08:09:58 · 2041 阅读 · 0 评论