
数据处理笔记
记录日常使用的一些数据处理技巧
急着吃饭的李先生
苟全性命于乱世,不求闻达于诸侯。
展开
-
常用复制代码片段_webank
小结,方便复制原创 2022-10-14 17:47:52 · 321 阅读 · 1 评论 -
(5)两表各字段映射填充
需求:当前库里面的人物画像表(暂称表1)有不少空值,现在外部采购了一批数据(暂称表2),要求使用这批数据对库表进行映射填充;现状:库内表的建设初期就是从该外部机构购买的,后期本公司又新增了一些人物,外部机构也新增了一些人物,库内表的大致情况如下:我们发现有很多特征列都出现了空值,这时候可以用外部采购数据进行填充,充分探索和观察了库内数据的基本面貌之后制定了如下四种填充方式:性别,出生地填充规则:空值填充语言技能,获得证书:空值填充,非空值则判断是否已存在,若不存在则追加,使用"|"符号隔开姓名原创 2020-05-26 21:36:15 · 686 阅读 · 0 评论 -
(4)比较两个列表各字段的数据类型及空值数量
import pandas as pdimport numpy as npimport osos.listdir()['.ipynb_checkpoints', '比较两个列表各字段的数据类型及空值数量.ipynb', '表1.xlsx', '表2.xlsx']biao1 = pd.read_excel("./表1.xlsx")# 为了便于展示,特意将表2代号字段数据类型设定为strbiao2 = pd.read_excel("./表2.xlsx",converters={"代号":str}原创 2020-05-15 22:14:29 · 499 阅读 · 0 评论 -
(3)两列冗余数据清洗
import pandas as pdimport numpy as npimport osos.listdir()['.ipynb_checkpoints', '两列冗余数据清洗.ipynb', '人物画像.xlsx']renwu = pd.read_excel("./人物画像.xlsx")renwu需求:我们可以看到以上数据城市这个字段出现了信息冗余,需要将多余的国家信息清洗掉renwu["城市"] = renwu[["国家","城市"]].apply(lambda x:x[1]原创 2020-05-15 20:54:34 · 305 阅读 · 0 评论 -
(2)长间隔符文本的转换与读取
import pandas as pdimport numpy as npimport osos.listdir()['.ipynb_checkpoints', 'Untitled.ipynb', '文本数据.txt']wenben = pd.read_table("./文本数据.txt",sep="@",engine="python",encoding="utf8")wenben需求:我们可以看到,该数据读取出来的时候身边都出现了"|“符号,不够read_excel函数读取文本的时候原创 2020-05-15 20:17:14 · 333 阅读 · 1 评论 -
(1)单表实现多值合并操作
如下表需求:上表有多条数据实际上为同一个人,要求根据姓名把所有数据合并拼接,如有重复数据还需横向去重import pandas as pdimport numpy as npimport osos.listdir()['.ipynb_checkpoints', 'Untitled.ipynb', '人物画像.xlsx']renwu = pd.read_excel("./人物画像.xlsx")renwu# 设计拼接函数def pingjie(df): return "|"原创 2020-05-15 19:33:59 · 469 阅读 · 1 评论