
Python学习笔记
羊羊麾下的发电站
?
展开
-
Python_Dataframe_对某列内容进行编辑
剔除某列前后几个字符——map剔除(保留)某列前后几个字符需要用到map函数,主要思路为,在map中将列类型转为字符串(str)进而进行剔除活保留操作。替换某列指定内容——replace替换某列指定内容需要用到replace函数,主要思路为,先将列类型转换为字符串(str)进而进行内容替换。...原创 2022-07-28 11:15:05 · 1722 阅读 · 1 评论 -
Python_复制(拷贝)_深拷贝和浅拷贝
在Python中有时需要对各种参数进行复制(拷贝)工作,但若简单的用以下代码进行内容复制操作会出现以下问题:在后续对data1的操作会同时改变data的内容。这是因为此时python中默认此类复制操作为浅拷贝,在系统内data和data1共用同一个内存,导致对data1的改动会映射到data中。data = data1解决方法需要利用.copy()函数,其中,deep=True 表示深拷贝,即data1和data分别占用内存,此时data和data1相互独立,对data1的改动不会映射到原创 2022-05-12 20:25:35 · 1102 阅读 · 0 评论 -
Python_Dataframe_对某列特定值进行操作
删除某列特定值对应行——dropna删除某列特定值所对应的行思路为,找出目标列的特定值,将特定值转换为nan值,利用dropna()函数删除对应行,需要用到numpy包。其中,1、dropna(axis=0) 表示定位到dataframe中nan值位置,当axis=0时删除行,axis=1时删除列。import numpy as npdata[data.目标列名 == x] = np.nan # 选定值转nan,目标列名为列索引名称,x为目标值data = data.dro原创 2022-05-11 17:30:05 · 3813 阅读 · 0 评论 -
Python_无监督学习_基于轮廓系数法的K-means聚类实现
K-means算法属于无监督学习,根本思想是将数据集中数据分为k组,计算各组元素到其聚类中心的欧氏距离。在K-means方法中主要需要解决的问题是确定合适的分组数k,此时引入轮廓系数,通过计算不同分组数k下的轮廓系数确定最佳的k值。Python中实现基于轮廓系数法的K-means聚类需要用到sklearn库中的相关部分和Pandas包。from sklearn.cluster import KMeansfrom sklearn.metrics import silhouette_score原创 2022-05-05 10:14:33 · 3923 阅读 · 2 评论 -
Python_Dataframe_表格合并实现excel中VLOOKUP函数
利用Python实现海量数据的间的合并工作——pandas.merge在excel中需要利用VLOOKUP函数进行两个表格的关联列合并操作。Python中的pandas.merge()函数拥有更加强大的功能,函数需要利用Pandas包。其中,import pandas as pddata = pd.merge(data1, data2[['列名1', '列名2', '列名3']], how='inner', on=['列名3'], left_index=False, right_i原创 2022-05-03 01:00:01 · 2274 阅读 · 0 评论 -
Python_Dataframe_去除重复数据
去除重复数据——drop_duplicates去除指定单列或多列中的完全重复的项通过drop_duplicates()函数实现,需要利用Pandas包。其中:1、subset=[] 表示整个dataframe基于[]内选定列进行数据重复内容识别,可以添加多列数据进行识别。(1)添加一列列名时表示对选中的单列数据进行重复数据识别,(2)添加多列时则表示识别多列数据同时重复的情况;2、keep='' 表示对选中的重复数据操作策略,可选择的参数为'first...原创 2022-04-30 18:57:12 · 17311 阅读 · 0 评论 -
Python_数据读取_读取单个csv文件和批量读取csv文件
csv读取操作原创 2022-04-29 10:54:54 · 6477 阅读 · 0 评论