自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 数据特征的判断

print(problem_type(df_titanic['Survived'])) # 输出:分类问题。print(problem_type(df_sales['Sales'])) # 输出:回归问题。sns.histplot(df['Sales'], bins=50) # 销售额分布。如何根据现有的数据来判断是分类问题还是回归问题,比如生死预测,销售预测。纠正:例如预测“客户流失概率”是分类问题,尽管输出是连续概率值。等),虽然用数字表示,但本质是分类。

2025-03-27 12:11:04 837

原创 Machine Learning中的模型选择

选择机器学习模型的关键步骤:明确问题类型。分析数据特点。选择候选模型。评估模型性能。考虑模型复杂度、计算资源和可解释性。实验与调优。选择最终模型。

2025-03-13 11:00:36 778

原创 Pandas对Excel进行数据透视

有一个Excel,我们需要对表中的两列数据进行数据透视。将结果输出到一个新的excel;先对Excel进行数据透视,

2025-03-06 15:07:03 77

原创 Pandas实现Excel的vlookup并且在指定列后面输出

vlookup后的异常值处理。

2025-03-06 14:44:35 435

原创 Pandas新增数据列V2

在进行数据分析时,经常需要按一定条件创建新的数据列,然后进一步分析数据。直接赋值,apply, assgin, 分条件赋值。按条件先选择数据,然后对这部分数据赋值新列。高低温差大于10度,则认为温差大。3. df.assgin方法。4. 按条件选择分组分别赋值。3. df.assign方法。4. 按条件选择分组分别赋值。2. df.apply方法。2.df.apply方法。

2025-03-06 10:57:02 136

原创 Pandas使用apply函数给表格添加多列

【代码】Pandas使用apply函数给表格添加多列。

2025-03-05 17:50:02 76

原创 Pandas使用stack和pivot实现数据透视

3. 使用pivot简化透视, pivot方法相当于对df使用set_index创建分层索引,然后调用unstack。案例:统计得到“电影评分数据集”,每个月份的每个分数被评分多少次:(月份,分数1-5,次数)2. 使用unstack实现数据二维透视,目的想要画图对比不同月份的不同评分数据趋势。4. stack,unstack,pivot的语法。Pandas的stack和pivot实现数据透视。

2025-03-05 15:37:10 157

原创 Pandas怎样对每个分组应用apply函数

原始数据如下:每个用户的评分不同,有的乐观评分高,有的悲观评分低,按用户做归一化处理。取每个分组的TOPN数据,并获取每个月最高温度的2天数据。

2025-03-05 12:09:04 134

原创 Pandas的数据转换函数

Pandas的数据转换函数:map, apply, applymap。2. apply用于Series和DataFrame的转换。3. applymap用于DataFrame所有值的转换。1. map用于Series值的转换。

2025-03-04 17:52:26 123

原创 Pandas的分层索引MultiIndex

元组(key1,key2)代表筛选多层索引,其中key1是索引第一级,kew2二是第二级,比如keg1=JD,key2=2019-0-02。列表(key2)代表同一层的多个key, 只中key1和key2是并列的同级索引,比如key1=JD,key2=BIDU。如果想筛选多级,就用元祖括起来,每个元素代表一级索引,元素可是以单个值,也可以是列表,是列表时,相当于并列筛选某个值。四, DataFrame有多层索引MultiIndex筛选数据。二,Series有多层索引MultiIndex进行筛选数据。

2025-03-04 14:49:03 155

原创 Pandas怎样实现groupby 分组统计

2. 多个列groupby,查询所有数据列的统计。('A','B')成对变成了二级索引。group by :先对数据分组,然后在每个分组上应用聚合函数,转换函数。1,单个列groupby,查询所有数据列的统计。二,遍历groupby的结果理解执行流程。5. 不同列使用不同的聚合函数。一,分组使用聚合函数做数据统计。4. 查看单列的结果数据统计。三, 实例分组探索天气数据。3. 同时相看多种数据统计。1. 遍历单个列聚合的分组。2. 遍历多个列聚合的分组。# 方法1 :预过滤。

2025-03-03 22:23:36 323

原创 Pandas 批量拆分与合并Excel文件

0 2025-01-01 3°C -6°C 晴~多云 西北风 1-2级 59 优 2。2 2025-01-03 2°C -2°C 晴~多云 西风 4-8级 28 良 1。3 2025-01-04 0°C -4°C 晴~多云 东风 2-5级 30 良 1。二, 合并多个小excel到一个大excel。

2025-03-03 12:10:18 322

原创 Pandas实现数据的合并之Concat

Append语法:DataFrame.append(other,ignore_index=False)append只有按行合并,没有按列合并,相当于concat按行的简写形式。3. 使用join=inner过滤掉不匹配的列。一,使用Pandas.concat合并数据。4. 使用axis=1相当于添加新列。## 列表可以只有Series。## 列表是可以混合顺序的。

2025-02-28 13:12:26 150

原创 Pandas的merge语法

pandas中的merge()函数类似于SQL中join的用法,可以将不同数据集依照某些字段(属性)进行合并操作,得到一个新的数据集。3. 理解left join, right join,inner join, outer join的区别。2.2 one - to - many 一对多关系的merge。2.3 many-to-many 多对多关系的merge。注意,数据会被复制,数目以多的一边为准。分别读取数据,并查看df中的前3行。4. 如果出现非key的字段重名。注意:结果数量会出现乘法。

2025-02-27 21:25:58 910

原创 Pandas的索引index的用途

execution_time = timeit.timeit(code_to_test, globals=globals(), number=1000) # number 是执行次数。CategoricallIndex, 基于分类数据的Index,提升性能。print(df.loc[78]) ##使用index进行查询。print(df.count()) ## 查看数据有多少条。print(df.head()) ## 查看前5行数据。4. 使用index更多更强大的数据结构支持。

2025-02-26 16:23:18 476

原创 Pandas的axis参数

df = df.mean(axis=0) ##指定按哪个axis,就是这个axis要动起来,其它axis保持不动。df = df.mean(axis=1) ##指定按哪个axis,就是这个axis要动起来,其它axis保持不动。df = df.drop('A',axis=1) ## 删除columns=A列。df = df.drop(1,axis=0) ## 删除index=1的行。3. 按axis=0/index 执行mean聚合操作。4. 按axis=1/colmns执行mean聚合操作。

2025-02-26 15:29:27 477

原创 Pandas字符串处理

在前页几节中我们学到了字符串的处理如下:## 将bWendu这列中的字符串°C替换成空,然后把数据类型转换成int32,便于数据继续处理。

2025-02-26 14:20:26 750

原创 Pandas对数据排序

0 1/1/2025 -25 -6 晴~多云 西北风 1-2级 59 优 2。2 1/3/2025 -11 -2 晴~多云 西风 4-8级 28 良 1。4 1/5/2025 3 -1 小雨 东风 3-5级 25 良 1。

2025-02-25 22:58:27 922

原创 Pandas缺失值处理

有空行,空列的数据Pandas使用这些函数处理缺失值例子:特殊Excel的读取,清洗,处理1. 读取excel的时候,忽略前几个空行import pandas as pdfile_path = r'C:\TELCEL_MEXICO_BOT\A\student.xlsx'studf = pd.read_excel(file_path,skiprows=2) 注意:skiprow=2表示读取时先略过前两行,因为excel中的前两行是空的,然后会从第三行开始读取print(stu

2025-02-25 15:22:32 775

原创 Pandas数据统计函数

1. 汇总类统计2. 唯一去重和按值计数3. 相关系数和协方差0 . 读取csv数据print(df.head()) #查看前5行数据0 1/1/2025 -25°C -6°C 晴~多云 西北风 1-2级 59 优 21 1/2/2025 2°C -9°C 阴 东南风 3-4级 48 优 1。

2025-02-25 12:06:37 901

原创 Pandas新增数据列V1,后面出V2了,这个可以不用看了

1. 直接赋值2. df.apply方法3. df.assgin方法4. 按条件选择分组分别赋值0. 读取csv数据到dataframeprint(df.head()) #df.head()先读取数据有前5行0 1/1/2025 -25°C -6°C 晴~多云 西北风 1-2级 59 优 2。

2025-02-24 23:01:30 997

原创 Pandas数据查询

0 1/1/2025 3°C -6°C 晴~多云 西北风 1-2级 59 优 2。1 1/2/2025 2°C -9°C 阴 东南风 3-4级 48 优 1。2 1/3/2025 2°C -2°C 晴~多云 西风 4-8级 28 良 1。

2025-02-24 15:44:53 921

原创 Pandas的数据结构

Pandas的数据结构-- dataframe是一个二维或多维的数据,Series是一个一维的数据-- 二维降维成一维数据类似于python中的字典,这样处理数据比二维数据的datafram更加快速和便捷。

2025-02-23 22:31:31 829

原创 Pandas读取excel数据

查看数据的形状,返回(行数,列数)# 指定文件的完整路径。#查看每列的数据类型。

2025-02-23 10:25:15 291

原创 Pandas读取纯文本txt数据

# 如果没有标题行的,可以再指定一个标题行的列名names=[‘a','b'],比如Data1 = pd.read_csv(file_path,header=None,sep='\t',names=[‘a','b']), 这样写就会自己定义两个标题行a,b。#使用pd.read_csv读取数据,并以\t进行分隔,head=0指从0行开始读取数据.#查看数据的形状,返回(行数,列数)# 指定文件的完整路径。#查看每列的数据类型。

2025-02-23 10:21:07 496

原创 获取csv表格中的数据

获取csv数据

2022-09-06 20:13:36 750

原创 Python安装步骤

Python安装教程

2022-09-02 20:53:07 970

原创 多个csv表合并到指定excel某行某列

多个csv表合并到另一个excel中的某一行某一列

2022-09-01 21:39:49 209

原创 合并CSV文件后并插入到指定excel表某行某列

合并CSV后保存到excel表

2022-09-01 21:36:57 344 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除