
python数据处理
文章平均质量分 68
进行数据处理相关的内容
lys_828
up、up、down、up。wechat联系方式即为博客名称,邮箱为xianl828@163.com
展开
-
【python数据处理】根据某一字段或多个字段多行空值合并另一字段中的多行数据
由于Excel文件易损坏,可以考虑把文件存放在数据库中后续如果更新期刊信息也可以进行数据的追加,数据的安全性也更高一些,代码和执行结果如下(需要现在Mysql数据库中创建一个safety and accident数据库)由于2022年中科院期刊分区出来后,需要对目前领域类的期刊重新进行收集和归类,目前收集到的文献存放在word中,具体如下(只截取部分期刊信息)接着把整个分组后的结果重新设置索引,并提取大区分类的编号转化为整型数值,代码和执行结果如下(输出结果只截取部分)打开该文件,最终结果解决问题。原创 2023-01-03 22:45:03 · 765 阅读 · 0 评论 -
【python数据处理】pandas中替换掉索引index中的指定数据
pandas中的index内容替换原创 2022-12-12 09:51:30 · 2374 阅读 · 0 评论 -
【python数据处理】针对列表元素进行计数的多种方法
0 测试数据 1 使用第三方模块 1.1 借助numpy模块 1.2 借助pandas模块 2 借助本地collections模块 3 仅使用python基础语法进行计数 3.1 借助字典数据结构 3.2 借助集合数据结构原创 2022-10-24 07:24:14 · 3679 阅读 · 0 评论 -
【python数据处理】替代Excel三维地图依据经纬度坐标的绘制热力地图的方式
由于某人访问了某地,即便是调整电脑中的区域为别的国家或者地区时候,excel三维地图选择时候依然会弹出很抱歉,三维地图当前不在你的国家/地区使用。这个“当前”不知道要持续多久,所以需要找到一个方式替代excel进行三维地图的绘制。输出的图形文件如下:右侧有下载按钮,可以点击下载图形也可以直接截图保存本地。需要版本在0.5x,而不是最新版的1.x版本。原创 2022-08-19 15:28:13 · 1873 阅读 · 0 评论 -
【python数据处理】pandas根据多列连续重复值的总和数量判断向新一列添加内容
手动反爬虫:原博地址 https://blog.youkuaiyun.com/lys_828/article/details/1252883191 需求假定s是取值与一条1月-12月份的数据,表现了这12个月份人员贷款的状态。输出结果如下:(核实为第一条贷款人员12个月的信息)对列表中的数据进行遍历,然后根据元素的下标依次进行相邻位置的判断,并且要求元素是为“正常”,所以需要添加一个数值累加器,获取连续重复的次数,代码如下输出结果如下:(判断“正常”连续重复元素共5次,与实际情况相符)读入文件,为了方便处理原创 2022-06-14 23:53:47 · 1540 阅读 · 1 评论 -
【python数据处理】将DataFrame数据拆解成为一行一行由字典键值对组成的列表
将DataFrame数据拆解成为一行一行由字典键值对组成的列表问题解决拓展问题解决import pandas as pdimport numpy as npdf = pd.DataFrame({'key1':list('abcdef'), 'key2':['hee','fv','w','hija','123',np.nan]})df.to_dict('records')输出结果如下(直接对DataFrame对象进行to_dict,处理的手段采用record原创 2022-04-01 21:29:37 · 2350 阅读 · 0 评论 -
jieba基本使用过程
jieba分词0 引言1 jieba库安装2 jieba库文件查看3 基本使用4 词性标注5 自定义词典和加载自定义词语6 关键词提取与位置查找0 引言今天起正式开始对于文本挖掘相关知识的学习,之前都是东学一点,西学一点,没有一个体系,希望接下来可以好好把这方面的知识梳理一下,方便学以致用。今天梳理知识点就是jieba分词,采用逐步梳理的方式进行python环境使用的是miniconda里面的jupyter notebook1 jieba库安装关于jieba这个库的介绍,就不多说了,主要就是和分词原创 2020-11-24 21:17:48 · 16789 阅读 · 0 评论 -
大数据预处理:缺失值处理、数据标准化、0-1缩放、归一化、二值化、独热编码和标签编码
数据预处理:数据标准化、0-1缩放、归一化、独热编码和标签编码、缺失值处理前言一、缺失值处理二、数据标准化三、0-1缩放四、归一化五、独热编码六、标签编码总结前言在进行数据分析之前,需要了解数据的情况,有时候拿到的数据并不是想象中的完美数据,那么就需要进行预处理,才能使用。为了系统的缕清预处理的一般的步骤,这里进行系统详细的梳理,这里使用sklearn工具包和手写代码验证的方式进行一、缺失值处理最常见的数据情况就是缺失部分数据,那么怎么处理缺失值?有没有固定的公式呢?处理方式:1) 删除:缺失样本原创 2020-10-18 12:06:57 · 8230 阅读 · 2 评论 -
【python数据处理】DataFrame根据列表中的元素提取已知字段数据中包含元素的数据并形成一列
DataFrame根据指定范围的元素提取已有列数据中包含元素的数据并形成一列1 问题解释2 测试数据3 测试代码3.1 已有的数据3.2 指定范围的数据3.3 匹配数据4 结果验证手动反爬虫,禁止转载:原博地址 https://blog.youkuaiyun.com/lys_828/article/details/117573985 知识梳理不易,请尊重劳动成果,文章仅发布在优快云网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 问题解释题目读完可能不是很好理解这个问题,那么就列举一个示例数据原创 2021-06-04 22:37:31 · 3628 阅读 · 1 评论 -
pandas层次性索引MultiIndex变化操作
pandas层次性索引MultiIndex变化操作需求背景问题求解手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在优快云网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!需求背景1、有没有方法可以向如图”平仓订单数“的下级插入2个占比字段?即跟”平仓订单数“下的亏损、盈利字段同级别2、有没办法把列的级别调整为如图所示表格?问题求解由于没有真实的数据,这里就是使用0-15共16个数据创建四行四列的数据,创建的数据结果如下impor原创 2021-01-03 22:19:21 · 1409 阅读 · 0 评论 -
筛选同一表格下的多个sheet里的内容并保存在对应的sheet中
筛选同一表格下的多个sheet里的内容并保存在对应的sheet中1 目标需求2 处理步骤3 步骤详解3. 全部代码1 目标需求报表中含有多个sheet,而且几乎很多sheet表中都有相同要筛选的同种数据,因此就有需要将同一文件下多sheet表中内容进行筛选然后重新保存在文件中,数据样例如下,目标是提取每个sheet下Sample Type字段下的Unknown Sample对应的行数据,然后保存在该sheet下目标结果:2 处理步骤① 读取Excel表格内容② 提取Excel表格中所有的sh原创 2020-07-07 10:20:23 · 2915 阅读 · 2 评论 -
【python】将单元格中的多个数据拆分为多行数据(explode方法使用)
单元格多数据拆分1. 背景与需求2. 问题解决2.1 官方示例2.2 实际操作2.2.1 采坑2.2.2 问题纠错3. 问题解决4. 小结1. 背景与需求在处理数据中,往往需要做多维特征提取(一对多),如下:一个企业会有多个擅长领域,为了作多维度数据特征分析,需要将‘企业画像’中单元格的数据进行拆分成为一行一个特征的数据样式,且其他列数据保持不变,简单的demo(以随机两个公司为例)如下2. 问题解决这里需要使用pandas中的explode方法,注意此方法是在0.25.0版本之后才有,所以确原创 2020-05-23 17:19:30 · 14469 阅读 · 9 评论 -
【python】正则表达式的分组及在pandas中的实用操作
正则表达式的分组及在pandas中的实用操作1. 正则表达式分组1.1 分组的模式1.2 分组的实际操作1.2.1 邮箱号码匹配1.2.2 标签信息匹配2. pandas中的应用操作3. 小结之前的博客中已经讲解了相关的正则表达式的一些基础的内容,可见:正则1,正则2,正则3,正则4这里补充一下正则表达式分组的相关内容以及结合pandas使用时候的实际操作1. 正则表达式分组1.1 分组的模式字符功能(ab)将括号中的字符作为一个分组\num引用分组的num匹配到的字原创 2020-05-23 13:11:10 · 3004 阅读 · 4 评论 -
【python】将自定义常用的一些函数封装成可以直接调用的模块方法
将常用一些的函数封装成可以直接调用的模块方法1. 背景2. 具体步骤3. 扩展1. 背景在实际的操作过程中,经常会用到一个功能,如果每次编写代码的时候都进行重新编写或者打开已经编写好的函数进行复制粘贴,这样就显得很麻烦,有没有什么方法可以像导入python模块的那样,直接把要用的函数以模块名+方法的形式调用呢?答案当然是可以的,比如做数据分析时候经常要使用的功能是:实现某一路径下的所有xlsx的合并,文件如下直接给出合并的函数,保留数据格式筛选的接口,将合并后的数据保存在fltered_data文原创 2020-05-17 17:05:42 · 18847 阅读 · 13 评论 -
【python办公自动化】将Word文本和Pdf表格数据提取并整合到同一个Exeel下的多sheet中
数据整合1. 背景及前期准备1.1 背景介绍1.2 需要安装的库2. 数据处理2.1 数据提取2.2 具体过程2.2.1 docx数据的处理2.2.2 docx数据的处理完整代码2.2.3 pdf数据的处理及完整代码3. 最终结果1. 背景及前期准备1.1 背景介绍在参加比赛过程中,需要获取江苏省科学技术奖近十年的数据,因此需要在官网上获取相应的数据,再查找数据的过程中发现,官网中给出的数据,并不是完整的可以直接拿来用的比如:① 2018-2019年的人员及项目名单是pdf的形式给出,② 201原创 2020-05-16 17:37:29 · 1307 阅读 · 2 评论 -
【python数据处理(2)】pandas按照某些行列的数据要求,在新的一列输出要求数据
举例在日常处理表格的时候,经常会遇到一些要求类似这样的:销售方面,按照A,B产品的销量额做标记;在考核方面,按照某些指标进行最后的评定等等操作实例这里就是以上面的表格数据为例,假设进行录取评定,要求选取语文分数大于80,数学和英语分数大于90分且专业课分数不低于120的人,操作过程代码和图形如下:导入库和创建表格数据:import pandas as pddf = p...原创 2019-12-26 15:10:00 · 2598 阅读 · 10 评论 -
【python数据处理(3)】批量Excel数据表格合并汇总并生成为一个新的表格保存本地
1. 背景实际操作中,往往会处理一些相同格式的Excel表格数据,比如某商家都是按照每月进行产品A和B的数据的统计,有时为了季度或者年度数据的或者,就需要将多个Excel中的表格数据汇总到一起(不是覆盖),并且表格的标题还不变,也就产生了题目的要求,方便之后的数据处理假设表格中内容如下:(标题相同,但是数据不同,以第一个文件中数据为例)2. 代码编写主要是使用到了pandas里面的co...原创 2020-03-17 22:33:35 · 9564 阅读 · 1 评论 -
【python数据处理(1)】如何将pandas中的Periodindex中的时间数据提取出来,并转化成时间数值列表数据?
使用period_range生成时间序列标签import numpy as npimport pandas as pddf = pd.DataFrame({'rate':np.random.randn(10)},index = pd.period_range('2001','2010',freq = 'Y'))print(df.index)#输出'''PeriodIndex(...原创 2019-12-26 11:20:05 · 4893 阅读 · 0 评论