
数据分析
文章平均质量分 67
码上行舟
接受自己的普通,然后全力以赴的出众
展开
-
pandas案例——预处理部分地区数据
数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。原创 2023-01-18 18:08:25 · 2255 阅读 · 1 评论 -
pandas数据聚合与分组运算
在本章中你将会看到,由于Python和pandas强大的表达能力,我们可以执行复杂得多的分组运算(利用任何可以接受pandas对象或NumPy数组的函数)。任何被当做分组键的函数都会在各个索引值上被调用一次,其返回值就会被用作分组名称。在Pandas中,分组是指使用特定的条件将原数据划分为多个组,聚合在这里指的是,对每个分组中的数据执行某些操作,最后将计算的结果进行整合。将函数作为分组键会更加灵活,任何一个被当做分组键的函数都会在各个索引值上被调用一次,返回的值会被用作分组名称。原创 2023-01-18 17:53:57 · 766 阅读 · 0 评论 -
pandas数据预处理之数据转换
Python实现连续数据的离散化处理主要基于两个函数,pandas.cut和pandas.qcut,前者根据指定分界点对连续数据进行分箱处理,后者则可以根据指定箱子的数量对连续数据进行等宽分箱处理,所谓等宽指的是每个箱子中的数据量是相同的。哑变量又称虚拟变量、名义变量,从名称上看就知道,它是人为虚设的变量,用来反映某个变量的不同类别。数据分析和统计的预处理阶段,经常的会碰到年龄、消费等连续型数值,我们希望将数值进行离散化分段统计,提高数据区分度,那么会使用到pandas中的 cut() 方法。原创 2023-01-17 17:43:59 · 1283 阅读 · 2 评论 -
pandas数据合并
在合并数据的操作中,除了 concat() 函数,另一个常用的函数就是 merge() 了,这两个函数也经常被拿来比较,其实只要弄懂了函数中重要参数的作用理解了每个函数的用法,自然就知道在哪种情况下使用哪一个函数,需要对函数中的哪个参数进行怎样的设置了。在函数的官方文档里就有写到pd.merge()的作用是用数据库样式的连接合并DataFrame或者已命名的Series。concat()函数可以沿着一条轴将多个对象进行堆叠,其使用方式类似数据库中的数据表合并。使用纵向堆叠与内连接的方式进行合并。原创 2023-01-17 17:17:35 · 259 阅读 · 0 评论 -
pandas数据清洗
数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要对使数据分析更加准确,就需要对这些没有用的数据进行处理。原创 2023-01-16 17:53:15 · 700 阅读 · 0 评论 -
pandas文件读取
Pandas 的一项重要功能是能够编写和读取 Excel、CSV 和许多其他类型的文件并且能有效地进行处理文件。支持从本地文件系统或URL读取的xls,xlsx,xlsm,xlsb和odf文件扩展名。当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。read_csv() 函数的功能是可以让文件或者文件中url地址以及文件新对象中加载带有分隔符的数据,它默认分隔符是逗号。一本文理科与二本文理科最高分数线是多少,最低的分数线是多少,相差多少?原创 2023-01-16 17:47:05 · 3249 阅读 · 1 评论 -
pandas常用的统计计算
pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。跟对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的。Pandas为我们提供了非常多的描述性统计分析的指标方法,比如总和、均值、最小值、最大值等。原创 2023-01-15 10:46:34 · 750 阅读 · 0 评论 -
pandas排序
使用sort_index()方法,通过传递axis参数和排序顺序,可以对DataFrame进行排序。默认情况下,按照升序对行标签进行排序。像索引排序一样,sort_values()是按值排序的方法。它接受一个by参数,它将使用要与其排序值的DataFrame的列名称。按索引对DataFrame进行分别排序。原创 2023-01-15 10:34:13 · 331 阅读 · 0 评论 -
pandas算术运算与数据对齐
如果某个索引值在DataFrame的列或Series的索引中找不到,则参与运算的两个对象就会被重新索引以形成并集。当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值(比如0)。相加时,没有重叠的位置就会产生NA值。纠正错误数据是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置则补NaN,最后也可以填充NaN。原创 2023-01-14 17:29:01 · 273 阅读 · 0 评论 -
pandas索引
通过分层索引,我们可以像处理二维数据一样,处理三维及以上的数据。分层索引(Multiple Index)是 Pandas 中非常重要的索引类型,它指的是在一个轴上拥有多个(即两个以上)索引层数,这使得我们可以用低维度的结构来处理更高维的数据。下面介绍几种创建分层索引的方式。索引(index)是 Pandas 的重要工具,通过索引可以从 DataFame 中选择特定的行数和列数,这种选择数据的方式称为“子集选择”。索引可以加快数据访问的速度,它就好比数据的书签,通过它可以实现数据的快速查找。原创 2023-01-14 17:18:32 · 3583 阅读 · 0 评论 -
pandas数据结构
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。data:一组数据(ndarray、series, map, lists, dict 等类型)。Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。index:数据索引标签,如果不指定,默认从 0 开始。copy:拷贝数据,默认为 False。原创 2023-01-13 17:41:02 · 302 阅读 · 0 评论