
数据分析
文章平均质量分 76
胜天半月子
这个作者很懒,什么都没留下…
展开
-
Matplotlib | 绘制图像的几种方法总结
【代码】Matplotlib | 绘制图像的几种方法总结。原创 2024-12-10 21:05:10 · 367 阅读 · 0 评论 -
Pandas | skill | 将groupby分组后的数据使用堆叠图像展示
【代码】Pandas | skill | 将groupby分组后的数据使用堆叠图像展示。原创 2024-12-09 21:49:50 · 332 阅读 · 0 评论 -
Seaborn | 绘制数据分布的两个函数distplot和countplot
distplot和countplot是seaborn。原创 2024-12-06 22:37:04 · 494 阅读 · 0 评论 -
Pandas | 检查布尔序列函数any() 和 all()的区别
在 Python 中使用pandas库时,.any()和.all()是两个用于检查布尔序列(如pandas的Series)的函数,它们的行为和用途有所不同:通常用于检查两列元素是否一致或者个别一致的情况.any().any()TrueTrue.any()TrueFalse.any()False.all().all()TrueTrue.all()TrueFalse.all()False。原创 2024-12-05 21:57:45 · 491 阅读 · 0 评论 -
Pandas | 特征列大量数据异常需要填充数据时注意事项
根据概率 随机选取某一值填充 导致最后比例不均衡。原创 2024-11-09 21:23:24 · 273 阅读 · 0 评论 -
Pandas | 手动编写函数实现独热编码(OneHotEncoder)
不过需要注意的是,对于sklearn的独热编码转化器来说,尽管其使用过程会更加方便,但却无法自动创建转化后的列名称。此时就需要将OneHotEncoder中drop参数调整为’if_binary’,以表示跳过二分类离散变量列。因此很多时候我们在进行独热编码转化的时候会考虑只对多分类离散变量进行转化,而保留二分类离散变量的原始取值。原创 2024-11-08 20:36:07 · 431 阅读 · 0 评论 -
Pandas | 数据分析时将特定列转换为数字类型 float64 或 int64的方法
是处理数据转换时非常有用的工具,尤其是在数据清洗和预处理阶段,它可以帮助确保数据类型的一致性。更多详细信息和用法可以参考。根据上述方法,将空字符串替换为NaN,这就方便使用isnull函数进行后续处理。库中的一个函数,用于将参数转换为数字类型。这个函数的默认返回类型是。’ ’ 【有个空格的哦】,具体取决于提供的数据。# 空字符当成有数据处理了。原创 2024-11-08 12:29:59 · 2182 阅读 · 0 评论 -
Pandas | 理性判断数据是否存在缺失值的一种方法
但根据实际情况来看,空格可能确实是代表着数据采集时数据是缺失的,因此我们仍然需要将其识别然后标记为缺失值,此时可以通过比较数据集各列的取值水平是否和既定的一致来进行检查。在此过程中,我们需要检验是否存在采用别的值来表亓缺失值的情况。就像此前所说我们通过isnull只能检验出None(Python/原生对象)和np.Nan(numpy/pandasi在读取数据文件时文件内部缺失对象的读取后表示形式)对象。如果列中的元素是列表或类似的可迭代对象,会将这些元素分解成单独的行,每个元素占据一行,从而增加行数。原创 2024-11-07 21:44:04 · 585 阅读 · 0 评论 -
Pandas | idxmax() 和 argmax()的区别
返回值类型idxmax()返回索引标签。argmax()返回整数位置。适用对象idxmax()适用于 pandas 的 Series 和 DataFrame。argmax()适用于 numpy 数组和 pandas 的 Series(注意:在 pandas 的新版本中,argmax()已被弃用,建议使用使用场景使用idxmax()当你需要知道最大值所在的标签时。使用argmax()当你需要知道最大值在数组或 Series 中的位置时。原创 2024-10-25 18:27:34 · 847 阅读 · 0 评论 -
Pandas | agg() | 对分组(GroupBy)后的数据应用聚合函数的强大工具
你还可以在agg()result这将对'C'和'D'列应用自定义函数,计算每个组的最大值和最小值之差。原创 2024-10-23 20:27:25 · 1331 阅读 · 0 评论 -
Pandas | statas | 统计学中单样本t检验的使用
置信区间(Confidence Interval)是统计学中一个非常重要的概念,它表示在一定的置信水平(如95%)下,用于估计总体参数(如均值、比例或差异)可能落在的数值范围。置信区间提供了对总体参数的不确定性的量化,反映了样本数据的变异性和样本量。单样本t检验(One-sample t-test)是一种统计方法,用于确定单个样本的均值是否与已知的或假设的总体均值有显著差异。假设我们有一个样本,样本均值,样本标准差为 (s),样本量为 (n),我们想要计算均值的95%置信区间。我可以提供更多的帮助或解释。原创 2024-10-23 10:38:51 · 1305 阅读 · 0 评论 -
Pandas | statas | 统计学中Levene检验和双样本t检验的使用
Levene检验的检验统计量是基于各组数据的中位数绝对偏差(MAD)的。在这种情况下,您可以使用假设方差齐性的双样本t检验(Student’s t-test)来进一步分析两个样本的均值是否存在显著差异。函数执行双样本t检验时,可以通过设置函数的参数来决定执行的是Student’s t-test(假设方差相等)还是Welch’s t-test(不假设方差相等)。在这种情况下,使用假设方差齐性的双样本t检验(如Student’s t-test)来进一步分析两个样本的均值是否存在显著差异。原创 2024-10-22 18:57:54 · 1692 阅读 · 0 评论 -
Pandas | seaborn | countplot函数的使用
是 Seaborn 库中的一个函数,用于绘制分类变量的计数或频率条形图。这个函数非常适合用来展示不同类别的频数,或者比较不同组别中的类别分布。默认情况下会将计数显示在y轴上,条形的高度代表每个类别的频数。如果你想要显示百分比而不是计数,可以使用。会为每个类别(性别)绘制一个条形图,并且通过颜色区分不同的组别(星期几)。参数来创建一个更复杂的图表,其中y轴显示的是百分比。如果你想要比较不同天的顾客性别分布,可以使用。原创 2024-10-22 11:13:06 · 769 阅读 · 0 评论 -
Pandas | nlargest在实际情况中的应用
nlargest。原创 2024-10-15 11:02:44 · 781 阅读 · 0 评论 -
Pandas | 通过PUBG数据集进行数据分析并理解函数使用
在这种情况下,‘count’ 聚合函数计算每个组中非NA/null值的数量,然后将这个计数应用到每个组内的每个元素上。在Pandas中,groupby 方法用于对数据进行分组,而 transform 和 count 是对分组后的数据进行操作的两种不同方法。你可以根据你的具体需求和数据的大小选择最适合的方法。在Pandas中,你可以使用几种不同的方法来判断一个DataFrame的某一列是否没有重复值。是基于整数位置的索引器,它接受行和列的整数位置作为输入。是基于标签的索引器,它接受行和列的标签作为输入。原创 2024-10-14 22:05:30 · 1133 阅读 · 0 评论 -
kaggle | 较快-下载来自kaggle数据源的方法记录
一开始认为我的是打开cmd直接安装的,一测试发现不是。原创 2024-10-14 18:26:25 · 1883 阅读 · 0 评论 -
Pandas | 使用pandas对爱彼迎数据集分析,加深对数据的理解和函数使用
但object类型也可以包含其他Python对象,如列表、字典、自定义对象等。原创 2024-10-13 16:25:20 · 900 阅读 · 0 评论 -
Anconda 快速常用命令简洁版
查看完虚拟环境后,可能需要进入环境查看是否安装某些依赖或者更改删除某些依赖。查询当前Anaconda repository中是否有你想要安装的包。conda create -n 名称 python=版本号。查询看当前虚拟环境中安装了哪些依赖。的位置表示我现在所处于的虚拟环境。激活可以理解为进入环境的钥匙。,更名后按新名字启动环境。所显示的列表中,前面。*的表示当前活动环境。原创 2024-07-25 22:09:04 · 676 阅读 · 0 评论 -
数据分析-Excel基础函数的使用
使用Excel进行数据分析,了解常用的函数为下一步进行数据报表的生成奠定基础原创 2024-06-13 10:36:39 · 1627 阅读 · 0 评论