python相关
文章平均质量分 62
python相关
赶紧去巡山
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pandas【27】和SQL对比
【代码】pandas【27】和SQL对比。转载 2025-04-07 16:40:53 · 69 阅读 · 0 评论 -
pandas【26】excle数据导入数据库
SQLAlchemy 是 Python 的 SQL 工具包和对象关系映射器(ORM),它为应用程序开发者提供了完整的 SQL能与灵活性。如果参数if_exists=‘replace’:插入新值之前drop表。可以看到,因为表中已经有数据了,再插入相同的数据,会导致数据重复。转载 2025-04-03 18:30:40 · 90 阅读 · 0 评论 -
pandas【25】找出最影响结果的哪些特征--SelectKBest
sklearn.feature_selection.f_classif: 根据方差分析(ANOVA)的原理,以F-分布为依据,利用平方和与自由度所计算的祖居与组内均方估计出F值,适用于分类问题。sklearn.feature_selection.f_regression: 基于线性回归分析来计算统计指标。inverse_transform(X): 根据选出来的特征还原原始数据,但对于被删除的属性值全部用0代替。sklearn.feature_selection.chi2: 计算卡方统计量,适用于分类问题。转载 2025-04-03 17:26:32 · 124 阅读 · 0 评论 -
pandas【24】groupby聚合之后对不同列数据进行统计
电影评分数据集(UserID,MovieID,Rating,Timestamp):agg(新列名=函数)、agg(新列名=(原列名,函数))、agg({"原列名":函数/列表})agg函数的两种形式,等号代表"把结果赋值给新列",字典/元组代表"对这个列运用这些函数"官网文档:https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.core.groupby.DataFrameGroupBy.agg.html。转载 2025-04-03 14:52:52 · 137 阅读 · 0 评论 -
pandas【23】计算同比环比
虽然这个方法的名字听起来像是计算百分比变化,但实际上它计算的是分数变化(也称为每单位变化或相对变化)。如果你需要百分比变化,请将这些值乘以100。pandas.Series.diff的作用是计算pandas.Series对象中元素与前一个元素(或指定周期的元素)之间的差值。采用的是成都2022-2024连续3年的天气数据,计算最高温每月平均值的环比、同比。shift用于移动数据,但保持索引不变。转载 2025-04-03 10:45:32 · 346 阅读 · 0 评论 -
pandas【22】excel复杂多列到多行转换
可以看到,因为excel中Suppler、SupplerPN的列名重复了,pandas读入的时候,自动在后面加了。这样的标号,进行区分。转载 2025-04-01 17:21:41 · 69 阅读 · 0 评论 -
pandas【21】爬取网页
爬虫2。转载 2025-04-01 15:44:01 · 48 阅读 · 0 评论 -
pandas【20】explode实现一行变多行统计
实际问题:一个字段包含多个值,如何将这个值拆分成多行,然后实现统计?读取数据Genres这列表示电影的题材。从输出可以看到,一个电影属于多个题材。转载 2025-04-01 15:12:50 · 71 阅读 · 0 评论 -
pandas【19】折线图/sklearn/降低存储Categorical
对象类型的内存开销:对于 object 类型的列(如字符串),Pandas 存储的是指向实际数据的指针,而不是数据本身。因此,实际内存占用可能会更高。可以看到, Gender这一列变成了category类型,整个DateFrame现在内存占用513.8 KB,降低了很多。输出memory usage: 236.1+ KB。可以看到,内存占用755.5 KB。可以看到,数据的使用没有受到影响。可以看到,性能提升非常明显。转载 2025-04-01 14:12:53 · 51 阅读 · 0 评论 -
pandas【18】实现Excel的vlookup
vlookup后的异常值处理。转载 2025-04-01 11:11:19 · 185 阅读 · 0 评论 -
pandas【17】日期索引缺失处理
问题:按日期统计的数据,缺失了某天,导致数据不全该怎么补充日期?可以用两种方法实现:1、DataFrame.reindex,调整dataframe的索引以适应新的索引2、DataFrame.resample,可以对时间序列重采样,支持补充缺失值。转载 2025-03-31 18:14:17 · 108 阅读 · 0 评论 -
pandas【16】处理日期
Time series / date functionality — pandas 2.2.3 documentationhttps://www.bilibili.com/video/BV1uxkdYQEk2?p=21&vd_source=89092b89b9fd66fc76eb0e85bdd95dad转载 2025-03-31 17:44:38 · 61 阅读 · 0 评论 -
pandas【15】数据透视stack和pivot
案例:统计得到“电影评分数据集”,每个月份的每个分数被评分多少次:(月份,分数1-5,次数)pivot方法相当于对df使用set_index创建分层索引,然后调用unstack。对这样格式的数据,我想查看按月份,不同评分的次数趋势,是没法实现的。非常常见的统计场景,指定多个维度,计算聚合后的指标。目的:想要画图对比不同月份的不同评分数据趋势。需要将数据变换成每个评分是一列才可以实现。基于上一个图的格式再操作。转载 2025-03-31 17:06:19 · 58 阅读 · 0 评论 -
pandas【14】对每个分组应用apply函数
取每个分组的TOPN数据,并获取每个月最高温度的2天数据。数据归一在 【-1,1】区间。转载 2025-03-31 15:22:19 · 75 阅读 · 0 评论 -
pandas【13】数据转换函数
Pandas的数据转换函数:map, apply, applymap。2. apply用于Series和DataFrame的转换。3. applymap用于DataFrame所有值的转换。1. map用于Series值的转换。转载 2025-03-31 13:47:37 · 59 阅读 · 0 评论 -
pandas【12】分层索引set_index/multiIndex
1. 元组(key1,key2)代表筛选多层索引,其中key1是索引第一级,kew2二是第二级,比如keg1=JD,key2=2019-0-02。如果想筛选多级,就用元祖括起来,每个元素代表一级索引,元素可是以单个值,也可以是列表,是列表时,相当于并列筛选某个值。布尔值,指定设置索引后是否删除原来的列,默认为 True(删除)。布尔值,用于检查新生成的索引是否有重复项,默认为 False。布尔值,指定是否将新索引添加到现有索引,默认为 False。用于创建索引的列名或列名列表,可以是单个列名或多个列名。转载 2025-03-31 11:17:58 · 201 阅读 · 0 评论 -
pandas【11】分组统计
2.4 可以直接查询group的某几列,生成series或dataframe。1、单列groupby,查询所有数据列的统计。3.3不同的列用不同的统计方法:传入一个字典。三、实例:对北京2018年天气表进行按月统计。也可以把元组传入get_groupby。2)因为B列不是数值,被忽略了。二、用for遍历groupby。2.2、取消索引,注意看区别。3.1查看所有列的多种统计。3.2查看选定列的多种统计。2.3遍历多个列聚合的分组。3、同时查看多种数据统计。2.2获取单个分组的数据。转载 2025-03-30 17:41:12 · 57 阅读 · 0 评论 -
pandas【10】excel拆分与合并
1)使用df.iloc方法,将一个大的dataframe,拆分成多个小dataframe。2)将使用dataframe.to_excel保存每个小Excel。2.分别读取到dataframe,给每个df添加一列用于标记来源。4.将合并后的dataframe输出到excel。1.遍历文件夹,得到要合并的Excel文件列表。3.将一个大Excel等份拆成多个Excel。3.使用pd.concat进行df批量合并。2.读取源Excel到Pandas。转载 2025-03-30 17:01:39 · 74 阅读 · 0 评论 -
pandas【9】数据合并concat/_append
批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列。原创 2025-03-30 16:10:44 · 338 阅读 · 0 评论 -
pandas【8】str与merging
left和right参数是必传参数,分别传入一个DataFrame或Series对象,合并的顺序与传入的顺序一致。如果两个DataFrame的列名完全相同,使用outer合并方式,效果是将两个DataFrame按行合并到一起。merge()默认的合并方式是inner(取交集),列名完全相同时取交集合并的结果是空DataFrame。merge()方法也可以实现按行合并(纵向)的效果,需要两个DataFrame的列名完全一样,且要指定合并方式为outer。原创 2025-03-30 14:57:38 · 432 阅读 · 0 评论 -
pandas常用信息【7】数据排序
时,返回值为 None,直接在原数据上进行操作。时,返回为修改过的数据,原数据不变。转载 2025-03-28 18:02:32 · 79 阅读 · 0 评论 -
pandas【6】缺失值处理
fillna-------------------------------举例开始------------------------------------------------------------------------------axis : 删除行还是列,{0 or 'index',1 or 'columns’}, default 0。how : 如果等于any则任何值为空都删除,如果等于all则所有值都为空才删除。inplace : 如果为True则修改当前df,否则返回新的df。原创 2025-03-28 17:41:17 · 431 阅读 · 0 评论 -
pandas【5】数据统计函数
Pandas数据统计函数。2.唯一去重和按值计数。3. 相关系数和协方差。转载 2025-03-28 16:31:44 · 41 阅读 · 0 评论 -
pandas【4】新增数列
Pandas怎样新增数据列?在进行数据分析时,经常需要按照一定条件创建新的数据列,然后进行进一步分析。转载 2025-03-28 16:04:43 · 96 阅读 · 0 评论 -
pandas【3】查询数据
2.df.iloc方法,根据行、列的数字位置查询。注意观察降维dataFrame>Series>值。1.df.loc方法,根据行、列的标签值查询。.loc既能查询,又能覆盖写入,强烈推荐!以上查询方法,既适用于行,也适用于列。1.使用单个label值查询数据。3.使用数值区间进行范围查询。3. df.where方法。4. df.query方渎。2.使用值列表批量查询。4.使用条件表达式查询。转载 2025-03-28 15:33:47 · 69 阅读 · 0 评论 -
pandas【2】DataFrame/Series
Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成.每列可以是不同的值类型(数值、字符串、布尔值等)如果查询多行、多列,返回的是pd.DataFrame。如果只查询一列、一列,返回的是pd.Series。查询多行,结果是一个pd.DataFrame。仅有数据列表即可产生最简单的Series。DataFrame是一个表格型的数据结构。从DataFrame中查询出Series。可以被看做由Series组成的字典。二. DataFrame。原创 2025-03-28 14:53:24 · 229 阅读 · 0 评论 -
pandas【1】read_csv
如果设置为None(默认值),CSV文件中的行索引将用作DataFrame的索引。如果设置为某个列的位置(整数)或列名(字符串),则该列将被用作DataFrame的索引。是一个非常常用的函数,用于从 CSV 文件中读取数据并将其转换成 DataFrame对象。: 指定哪一行作为列名,默认为0,即第一行,如果没有列名则设为None。可以接收3种类型,文件路径,读取文件的bytes, 读取文件的str。函数具有多个参数,可以根据不同的需求进行灵活的配置。读取指定的列,可以是列名或列编号。,则可以使用该参数。转载 2025-03-27 17:40:40 · 292 阅读 · 0 评论 -
windows/linux 环境下修改conda环境和安装包的路径
安装完成后。原创 2025-03-26 10:41:08 · 938 阅读 · 0 评论
分享