
数据分析
精神抖擞王大鹏
精神抖擞王大鹏
展开
-
数据分析常用处理方法总结
一. 查看每列的数据结构def print_col_info(dataset): '''print info of every column in dataset: detailed info includes: 1, values 2, value type num''' col_num=dataset.shape[1] for i in ran...原创 2019-12-04 17:21:47 · 454 阅读 · 0 评论 -
Python数据分析与挖掘实战总结
Python数据分析与挖掘实战第三章 数据探索3.1 数据质量分析3.1.1 缺失值分析3.1.2 异常值分析3.2 数据特征分析3.2.1 统计量分析3.2.2 贡献度分析3.2.2 相关性分析第三章 数据探索3.1 数据质量分析3.1.1 缺失值分析缺失值的处理分为三种情况:删除存在缺失值的记录;对可能的数据进行插值:拉格朗日插值,牛顿插值法:3.1.2 异常值分析首先可以...原创 2019-03-29 22:06:46 · 7338 阅读 · 2 评论 -
Boss直聘职位信息爬取+分析
BOSS直聘职位信息爬取分析原创 2019-03-06 19:29:32 · 2761 阅读 · 3 评论 -
Python数据分析与挖掘操作总结(持续更新...)
一.实现一个功能:1.求出平均值;2.并在其列筛选出其大于平均值的数;二.将分开的文件合并操作:三.排序四.找到多页面下的文章后,按照专栏名字进行对应,记录保存名字后的那些文章;五.实现某列的去重,只保留其中一行的数据内容:使用drop_duplicates方法来实现数据去重,实现方式如下:test = test.drop_duplicates("标题"六.删除某一列中含有’万’字...原创 2018-11-10 20:20:52 · 746 阅读 · 0 评论 -
Padnas实现数学建模比赛结果统计
一.前言数模结果已出,如果你在了解自己成绩的同时,也想了解下同校别人的成绩,或者还想再了解下别校获奖的情况。靠一个个ctrl+f查,不如利用pandas来实现下...原创 2018-11-10 22:05:49 · 508 阅读 · 0 评论 -
matplotlib绘制图形时中文乱码处理
#matplotlib绘制图形时中文乱码处理from pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei']原创 2018-09-18 11:51:19 · 1054 阅读 · 0 评论 -
Matplotlib不同绘图模块案例总结
先占个坑,这周更原创 2018-09-18 11:49:59 · 384 阅读 · 0 评论 -
Pandas,numpy数据类型之间的互换(持续更新)
1.将Pandas类型转换为numpy类型,通过.values来转换:np = pd.values 2.将numpy类型转换为list类型,通过.tolist()方法转换:list = np.tolist()原创 2018-08-21 11:43:29 · 3421 阅读 · 0 评论 -
Pandas为某列赋值操作
Pandas新添加一列A,为A列赋值,值为B列的value: 1.若两列的行数相同,则可以直接进行赋值: test_X['multiple'] = test['multiple'] 2.若两列的行数不同,则可以采用左连接的方式进行赋值:后期整理。。...原创 2018-08-19 23:33:24 · 26419 阅读 · 0 评论 -
Pandas消除空值
今天遇到一个需求如下:需要删除读取的csv的文件中,某一列为空的行,想到Dataframe中有dropna方法来删除空值,于是查文档操作如下: test1000 = test1000.dropna(subset=['prediction_pay_price']) subset的参数是列名,可以指定多列; 如果要删除列的话,则可以:...原创 2018-08-16 14:09:06 · 3310 阅读 · 0 评论 -
Python 数据分析Numpy入门
# 5个常用的py库:numpy,pandas,Scipy(实现了线性代数,傅里叶变换,信号和图像处理),matplotlib,skitlearn# 矩阵:矩阵的数组,即二维数组,其中向量和标量都是矩阵的特例# 向量:是指1*n或者n*1的矩阵# 标量:1*1的矩阵# 数组:n维的数组,是矩阵的延伸# 矩阵:二维数组; 向量:1*n或者n*1# 数组的创建和访问import num...原创 2018-08-10 10:44:00 · 307 阅读 · 0 评论 -
Python 数据分析Pandas入门
Pandas是数据科学领域非常重要的工具,它主要可以做数据分析的处理,Pandas主要有两个主要的数据结构,一个是Series,一个是Dataframe. 一.Series创建: 1.通过py list来创建series: s1 = pd.Series([1,2,3,4]) Series中有两部分内容,第一个内容是数据value,第二个是索引ind...原创 2018-08-13 16:27:07 · 728 阅读 · 2 评论 -
Python 数据分析Pandas进阶
一.Series和DataFrame的简单数学运算 1.Series的运算: 有值的则相加,没值对照的相加的为nan; 2.Dataframe的运算: dataframe之间的相加运算和Series一样,不同的是sum运算:df3 = DataFrame([[1,2,3],[4,5,np.nan],[7,8,9]],index=['A...原创 2018-08-14 21:01:36 · 966 阅读 · 0 评论 -
Python 数据分析Matplotlib入门
1.简单绘图 让图像显示出来的方法: 方法一: plt.plot(a,b) plt.show() 方法二: %matplotlib inline plt.plot(a, b) # %timeit 表示代码执行的时间 %timeit # 第三个参数表示线段的类型, plt.plot(a, b, '--')...原创 2018-08-15 16:43:00 · 561 阅读 · 0 评论 -
Python pandas中的cumsum和cumprod的用法及实际用途
累加cumsum和累乘cumprod主要是用来看数据的变化趋势. 累加是通过流量得到存量,比如每天销售量的多少,得到今年的销售量总量; 累乘是通过变化率来得到存量,比如有每天的数据变动趋势,通过累乘来得到当前的数据; 累加的用法: 通过df.cumsum() 来求df的累计次数; ...原创 2018-08-15 16:56:03 · 24504 阅读 · 0 评论