
数据科学包
哎呦-_-不错
读书太少而想太多
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据科学包16-matplotlib的三个实例
文章目录1.函数积分图2.散点图-条形图结合3.球员能力图1.函数积分图# 函数积分图import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.patches import Polygondef func(x): return -(x-2)*(x-8) + 40# 将0-10区间等分50份 返回array数组x = np.linspace(0,10)y = func(x)# 构造绘图窗口与坐标轴fig,原创 2020-07-18 20:49:58 · 245 阅读 · 0 评论 -
数据科学包15-matplotlib详细介绍
文章目录matplotlib详细介绍1.颜色和样式1)如何调整颜色2)如何调整点型3)如何调整线型4)样式字符串2.三种方式1)pylab方式2)pyplot方式3)面向对象方式3.子图-subplot4.多图-可以创建多个Figure5.网格6.图例7.坐标轴范围的调整8.坐标轴刻度的调整9.添加坐标轴-双坐标轴10.注释11.文字-图形中纯粹的文字标注12.Tex公式13.区域填充14.形状-画填充好的形状15.样式-美化16.极坐标matplotlib详细介绍1.颜色和样式1)如何调整颜色#原创 2020-07-17 21:30:16 · 391 阅读 · 0 评论 -
数据科学包14-matplotlib-6种图形的基本画法
文章目录matplotlib-6种图形的基本画法1.numpy补充2.散点图3.折线图4.条形图5.直方图1D直方图2-D直方图(双变量直方分布图)6.饼状图7.箱形图matplotlib-6种图形的基本画法1.numpy补充# 使用numpy生成100以内的随机数组;#将数组存储到文件,在从该文件中读取数组;#对数组进行排序求最大值、最小值、均值、方差import numpy as npx = np.random.randint(0,100,10)# 将数组存储到文件np.savetxt原创 2020-07-16 21:56:57 · 507 阅读 · 0 评论 -
数据科学包13-实例2:时间事件日志
文章目录时间事件日志1.数据读取2.数据清洗1)数据选择2)数据解析3.数据分析1)时间总览2)精力分配3)专注力4)动态时间分配时间事件日志1.数据读取2.数据清洗1)数据选择只关心己完成或己达成的事件,即 status != 0 的事件只需要 List Name 和 Title 字段2)数据解析解析事件类别和和花费的时间3.数据分析1)时间总览平均每天投资在自己身上的时间是多少?-> 全部时间 / 总天数2)精力分配3)专注力长时间学习某项技能的能力原创 2020-07-15 21:44:39 · 221 阅读 · 0 评论 -
数据科学包12-实例1:股票数据分析
文章目录股票数据分析1.股票波动幅度分析增长曲线增长倍数当前增长倍数及复合增长率平均年化增长率股票数据分析1.股票波动幅度分析增长曲线增长倍数最大增长倍数及最大年化复合增长率计算最低价和最高价之间的收盘价比较,以及增长的倍数和年化复全增长率,这个反应的是一个股票最好的情况下的投资收益情况。当前增长倍数及复合增长率计算上市时的收盘价与当前的收盘价比较,增长的倍数和年化复全增长率。平均年化增长率计算每年的增长率,然后再求平均值。也可以计算每月的增长率,再求平均值,可以看到更短的原创 2020-07-15 20:04:18 · 413 阅读 · 0 评论 -
数据科学包11-数据可视化
文章目录数据可视化1.线型图SeriesDataFrame2.柱状图3.直方图4.概率密度图5.带密度估计的规格化直方图6.散布图7.饼图-百分占比8.高级绘图函数数据可视化Pandas 的数据可视化使用 matplotlib 为基础组件本节主要介绍 Pandas 里提供的比 matplotlib 更便捷的数据可视化操作。1.线型图Series 和 DataFrame 都提供了一个 plot 的函数,可以直接画出线形图SeriesDataFrame2.柱状图3.直方图原创 2020-07-15 18:58:21 · 234 阅读 · 0 评论 -
数据科学包10-pandas高级内容之时间序列
文章目录时间序列1.python里的datetime模块1)时间差2)字符串和 datetime 转换2.Pandas 里的时间序列3.日期范围1)生成时间范围2)时间频率4时期及算术运算1)时间序列2)时间的频率转换-asfreq3)季度时间频率4)Timestamp和Period相互转换5.重采样1)OHLC重采样2)通过groupby重采样3)升采样和插值4)时间重采样5)性能6)时间日期解析从文件中读取日期序列自定义时间日期解析函数时间序列时间戳 tiimestamp:固定的时刻 ->原创 2020-07-15 17:14:08 · 241 阅读 · 0 评论 -
数据科学包9-pandas高级内容之数据IO
文章目录数据IO1.索引及列名2.缺失值处理查看帮助文档3.逐块读取数据-读取数据更快4.保存数据到磁盘5.二进制数据6.其他格式简介数据IO从磁盘读取数据、将数据保存到磁盘上索引:将一个列或多个列读取出来构成 DataFrame,其中涉及是否从文件中读取索引以及列名类型推断和数据转换:包括用户自定义的转换以及缺失值标记日期解析迭代:针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别不规整数据问题:跳过一些行,或注释等等1.索引及列名处理不规则的分隔符原创 2020-07-15 11:38:09 · 224 阅读 · 0 评论 -
数据科学包8-pandas高级内容之聚合统计
文章目录聚合统计1.数据聚合1)内置聚合函数2)自定义聚合函数agg3)一次性应用多个聚合函数4)给不同的类应用不同的聚合函数-使用 dict 作为参数来实现5)重置索引2.分组运算和转换1)分组数据变换-transform2)距平化-与平均值的差异值3)自定义数据处理apply4)apply 应用示例聚合统计1.数据聚合分组运算,先根据一定规则拆分后的数据,然后对数据进行聚合运算,如前面见到的 mean(), sum() 等就是聚合的例子。聚合时,拆分后的第一个索引指定的数据都会依次传给聚合函数进行原创 2020-07-15 10:13:04 · 274 阅读 · 0 评论 -
数据科学包7- pandas高级内容之分组运算
文章目录分组运算1.分组计算1)对series进行分组2)对DataFrame进行分组3)分组中元素个数统计-size4)对分组进行迭代5)分组转化为字典6)按列分组2.其他分组方法1)通过字典进行分组2)通过函数来分组3)通过索引级别进行分组分组运算1.分组计算分组计算三步曲:拆分 -> 应用 -> 合并拆分:根据什么进行分组?应用:每个分组进行什么样的计算(计算规则)?合并:把每个分组的计算结果合并起来。1)对series进行分组2)对DataFrame进行分组原创 2020-07-14 21:36:06 · 192 阅读 · 0 评论 -
数据科学包6-pandas基础之索引
文章目录pandas基础之索引1)行索引2)列索引3)索引类4)重复索引5)多级索引-层次化索引(1)series多层索引(2)DataFrame 多层索引(3)索引交换及排序(4)按照索引层次进行统计(5)索引与列的转换-set_index,reset_indexpandas基础之索引1)行索引2)列索引3)索引类4)重复索引5)多级索引-层次化索引可以使数据在一个轴上有多个索引级别。即可以用二维的数据表达更高维度的数据,使数据组织方式更清晰,二维数据可读性好。它使用 pd.Mu原创 2020-07-14 19:36:26 · 183 阅读 · 0 评论 -
数据科学包5- pandas基础之基础运算
文章目录pandas基础之基础运算1.重新索引1)series-reindex2)DataFrame-reindex2.丢弃部分数据---drop1)广播运算3.映射函数1)apply: 将数据按行或列进行计算2)applymap: 将数据按元素为进行计算4)排序和排名1)排序-sort_values2)排名5)数据唯一性及成员资格pandas基础之基础运算1.重新索引1)series-reindex2)DataFrame-reindex2.丢弃部分数据—drop1)广播运算原创 2020-07-14 18:14:08 · 229 阅读 · 0 评论 -
数据科学包4-pandas核心数据结构
文章目录pandas基础之核心数据结构1.series1)从ndarry创建2)从字典创建3)从标量创建series特性Series 是类 ndarray 对象Series 是类字典对象标签对齐操作name属性2.DataFrame1)从字典创建2)从结构化数据中创建3)从字典创建4)从元祖字典创建5)从series创建DataFrame的特性1)列选择/增加/删除2)使用 assign() 方法来插入新列3)索引和选择4)数据对齐5)使用 numpy 函数3.Panelpandas基础之核心数据结构1原创 2020-07-14 16:08:43 · 344 阅读 · 0 评论 -
数据科学包3-pandas快速入门2
文章目录一、在 ipython notebook 环境下 pandas的快速入门1.打开ipython notebook 操作2.处理丢失数据1) 构造出二维的DataFrame ,其中包含一些空数据2) 删除任何缺少数据的行-返回复制的3) 填充丢失的数据--返回复制的4) 判断一个数据集里面是否包含有空数据3.数据运算1)空数据不参与运算2)平均值3)累加值4)广播及shift函数5)将函数用于数据-apply6)直方图化7)字符串的处理方法3.数据合并1)SQL合并2)插入一行4.数据分组统计5数据整原创 2020-07-13 20:30:38 · 291 阅读 · 0 评论 -
数据科学包2-pandas快速入门1
文章目录一、pandas1.pandas简介1).pandas能做什么2).ipython简介3).python命令行与ipython命令行的区别2.Pandas核心数据结构创建1)Series创建2)DataFrame创建通过传递带有日期时间索引和带标签的列的numpy数组来创建二维数组通过传递字典对象来创建二维数组3.查看数据1)head查看框架顶部 tail查看框架底部行2)显示行索引与列索引3)显示值---numpy数组4)显示数据整体情况---显示数据的快速统计摘要5)数据转置6)通过列标签来原创 2020-07-13 19:41:01 · 382 阅读 · 0 评论 -
数据科学包1---numpy
文章目录一、numpy1.numpy作用2.numpy$pandas安装3.numpy属性4.numpy创建array5.numpy的基础运算6.numpy索引7.numpy array合并8.numpy 的array分割9.numpy的copy&decopy一、numpy1.numpy作用相比于python中的字典、列表等计算快,并且使用C语言编写的,涉及矩阵的计算2.numpy$pandas安装在使用anaconda和pycharm时,将 Anconda 的解释器添加进 Pychar原创 2020-07-12 17:48:46 · 168 阅读 · 0 评论