小龙在山东
本博客为个人整理的技术笔记,仅用于学习。
展开
-
Pandas DataFrame 拼接、合并和关联
拼接:使用,可以沿着行或列方向拼接 DataFrame。合并:使用pd.merge(),可以根据一个或多个键进行不同类型的合并(左连接、右连接、全连接、内连接)。关联:使用join()方法,通常在设置了索引的 DataFrame 上进行关联操作。原创 2025-01-27 20:30:00 · 140 阅读 · 0 评论 -
基于swifter多内核的加速Pandas DataFrame操作运行
swifter是提高pandas性能的第三方包,主要是apply函数。原创 2024-08-23 23:00:00 · 221 阅读 · 1 评论 -
基于pandarallel的Pandas并行操作
Pandarallel提供了一种简便的方式来并行操作Pandas,并且支持进度条显示,支持Windows和Linux。原创 2024-04-18 20:30:00 · 212 阅读 · 0 评论 -
Pandas读取mysql报错:UserWarning: pandas only supports SQLAlchemy connectable (engine/connection)
Pandas连接mysql用到了read_sql()方法,参数con必须是可以被连接的。以前con直接是,能正常读取数据,最近测试不行了,报下面的错误,就改为以下三种方式了,测试可用。原创 2024-04-02 10:06:57 · 1269 阅读 · 0 评论 -
Pandas求百分比:单列、多列、格式化
先用sum()求出一列的总和,然后用两种方法分别求出百分比。一种是直接除,另一种用apply,应用到每一列。另外还用到了format来格式化,带上百分号。原创 2024-02-06 07:45:00 · 436 阅读 · 0 评论 -
pandas绘制饼图:百分比、定制标签、关闭图例、支持中文
使用plot来绘图,kind指定绘图类型是饼图,y轴是size,y轴标签是空,legend图例关闭,标题是饼图。使用plt.pie方法来绘制饼图,其中labels用来设置标签,autopct格式化,这里显示了百分比。原创 2024-01-30 19:00:00 · 529 阅读 · 0 评论 -
Pandas展开数据
使用 Pandas 的 explode 函数来展开 ‘data’ 列中的嵌套列表。原始 DataFrame 中,每一行包含一个列表,使用 explode 后,这些列表会被展开,使得每一行中的每个元素都成为单独的一行。然后,打印处理后的 DataFrame。原创 2024-01-29 21:00:00 · 122 阅读 · 0 评论 -
Pandas DataFrame转换为字典
Pandas实现列表个数统计并转换为字典,首先把列表转换成Series对象,然后调用Series的value_counts方法,用来统计每个元素的个数,最后调用to_dict方法,把Series对象转换为字典。原创 2024-01-29 20:45:00 · 310 阅读 · 0 评论 -
Pandas求最大值的一行
Pandas求最大值的一行,这里先求得最大值,然后通过loc方法得到所在行。原创 2024-01-29 20:30:00 · 263 阅读 · 0 评论 -
Pandas数据可视化:折线图、条形图、直方图、箱形图、核密度图、面截图、饼图、散点图、六边形图
plot()方法可以绘制图形,常见参数如下:(1)x:用来设置所绘制图形的x轴数据。(2)y:用来设置所绘制图形的y轴数据。(3)kind:用来设置所绘制图形的样式,默认为:line(折线图)、bar(垂直条形图)、barh(横向柱状图,即横向条形图)、hist(直方图)、box(箱形图)、kde(核密度估计图)、density(同 kde)、area(面积图)、pie(饼图)、scatter(散点图)、hexbin(六边形箱体图,即六边形图)。原创 2024-01-26 07:00:00 · 505 阅读 · 0 评论 -
Pandas DataFrame重命名索引 index 键和值
Pandas的索引是一个很重要的概念,Series和DataFrame都有索引,索引对象有很多方法和变量,这里列举了修改索引键值的几个例子。原创 2024-01-01 00:15:10 · 738 阅读 · 0 评论 -
Pandas替换元素、字符串
Pandas有多种方法替换元素,可以使用loc、numpy.where、mask、apply等。原创 2023-12-15 20:00:00 · 507 阅读 · 0 评论 -
Flask、Pandas实现文件下载
Flask实现文件下载可以用send_file函数,接收BytesIO比特流对象,也可以重命名下载文件,是否可以作为附件下载。注意:output比特流要初始化指针到开头。原创 2023-12-02 21:20:37 · 247 阅读 · 0 评论 -
pandas美化表格并导出到Excel
Dataframe.style可以美化Pandas样式。导出样式到Excel的功能只有openpyxl渲染引擎支持。原创 2023-12-02 21:11:57 · 675 阅读 · 0 评论 -
Pandas在Excel同一个sheet里插入多个Dataframe和行
Pandas默认的to_excel是直接把完成的Datafrme写入一个sheet里,这并不能满足我们在一个sheet里插入多个Dataframe或多行的需求。为了实现插入多行或多Dataframe的目的,我们需要新建一个ExcelWriter对象,然后依次插入数据。这里我们以插入2个Dataframe和三行单元格为例。原创 2023-12-02 20:11:28 · 590 阅读 · 0 评论 -
pandas.get_dummies函数:把离散信息转换成onehot矩阵
pandas.get_dummies函数用来把可以分类信息转换成0和1矩阵。原创 2023-12-02 13:45:00 · 480 阅读 · 0 评论 -
Pandas 获取年、季度、月第一天、最后一天,加一秒、加一天、午夜时间
标准化(午夜时间)本月初下个月初月底减去一秒加一天年第一天年最后一天参考pandas.Timestamp.htmlpandas.Series.dt.normalizepandas.tseries.offsets.MonthEnd.htmlpandas.tseries.offsets.MonthBegin.html原创 2023-11-24 21:00:00 · 1036 阅读 · 0 评论 -
Pandas数据导入和导出:CSV、Excel、MySQL、JSON
【代码】Pandas数据导入和导出:CSV、Excel、MySQL SQL。原创 2023-10-26 23:45:00 · 1081 阅读 · 0 评论 -
Pandas数据清洗:处理缺失值
在Pandas中,可以使用dropa方法条件过滤缺失值,用isnull标记哪些是缺失值,用notnull方法标记哪些不是缺失值,用fillna方法填充缺失值。原创 2022-10-04 14:21:37 · 365 阅读 · 0 评论 -
Pandas分组函数groupby、聚合函数agg和转换函数transform
by: 指定根据哪个/哪些字段分组,默认值是None,按多个字段分组时传入列表。by参数可以按位置参数的方式传入。axis: 设置按列分组还是按行分组,0或index表示按列分组,1或columns表示按行分组,默认值为0。level: 当DataFrame的索引为多重索引时,level参数指定用于分组的索引,可以传入多重索引中索引的下标(0,1…)或索引名,多个用列表传入。原创 2023-10-28 00:12:14 · 855 阅读 · 0 评论 -
Pandas数据过滤的多种方式
【代码】Pandas数据过滤的多种方式。原创 2023-11-18 09:00:00 · 556 阅读 · 0 评论 -
Pandas ImportError: Unable to import required dependencies: numpy
D:\anaconda3\lib\site-packages\numpy\__init__.py:140: UserWarning: mkl-service package failed to import, therefore Intel(R) MKL initialization ensuring its correct out-of-the box operation under condition when Gnu OpenMP had already been loaded by Python原创 2020-11-18 15:39:48 · 7527 阅读 · 3 评论 -
Pandas.Series转JSON
Series.to_json()参考:https://pandas.pydata.org/docs/reference/api/pandas.Series.to_json.html原创 2022-01-24 17:38:05 · 1950 阅读 · 0 评论 -
Pandas排序和排名(四种排名方法)
Pandas用rank排名,有四种排序方法,默认使用average在相等分组中,为各个值分配平均排名值;使用min和max在相等分组中的最小和最大排名值;使用first按值在原始数据中出现顺序分配排名值。Series和DataFrame支持索引和元素值排序,分别用sort_index和sort_values。原创 2022-10-04 18:56:29 · 1999 阅读 · 0 评论 -
Pandas数据透视表:pivot_table()和crosstab()
Pandas使用pivot_table()方法和crosstab()方法实现透视表。原创 2023-10-28 17:53:14 · 15239 阅读 · 0 评论 -
Pandas的Series和DataFrame之间的运算
【代码】Pandas基础用法。原创 2022-10-04 00:25:24 · 827 阅读 · 0 评论 -
Pandas 数据关联join() 报错:ValueError: You are trying to merge on int64 and object columns.
使用join进行数据关联,这里用了一个命名的id作为关联主键,左侧是数值类型,右侧是字符串类型。原创 2023-11-23 18:30:00 · 567 阅读 · 0 评论 -
Pandas时间序列、时间戳对象、类型转换、时间序列提取、筛选、重采样、窗口滑动
时间序列数据是指在时间间隔不变的情况下收集的时间点数据,可以用来分析事物的长期发展趋势,并对未来进行预测。原创 2023-10-29 07:42:53 · 432 阅读 · 0 评论 -
pandas增加列的七种方法
【代码】pandas添加新列的六种方法。原创 2023-11-24 08:30:00 · 2252 阅读 · 0 评论 -
Pandas行列级批处理函数apply、元素级批处理函数applymap或map
Pandas可以使用apply将函数作用到DataFrame某个轴,用applymap将一个规则应用到DataFrame中的每个元素,用map将一个规则应用到某一列。原创 2022-10-04 20:44:26 · 327 阅读 · 0 评论 -
pandas字符串操作:大小写转换、连接、分割、包含等
【代码】pandas字符串操作:大小写转换、连接、分割、包含等。原创 2023-11-18 10:00:00 · 474 阅读 · 0 评论 -
Pandas清洗数据:重复数据
在Pandas中可以使用duplicated方法查找重复数据,用drop_duplicates方法清除重复数据。原创 2022-10-04 14:36:46 · 927 阅读 · 0 评论