缺失值填充

最新推荐文章于 2025-12-05 17:02:52 发布

原创最新推荐文章于 2025-12-05 17:02:52 发布 · 311 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习与实现 #python

机器学习与实现专栏收录该内容

11 篇文章

订阅专栏

# 读取“银行贷款审批数据.xlsx”表，自变量为x1~x15，决策变量为y（1-同意贷款，0-不同意贷款）

# 其中x1~x6为数值变量，x7~x15为名义变量

# 请对x1~x6中存在的缺失值用均值策略填充，x7~x15用最频繁值策略填充

# 最后返回填充处理后的X（即x1~x15），以及决策变量Y(即y)

def return_values():

import pandas as pd

import numpy as np

from sklearn.impute import SimpleImputer

data=pd.read_excel('银行贷款审批数据.xlsx')

numerical_vars = data.iloc[:, 0:6] # x1 到 x6

categorical_vars = data.iloc[:, 6:] # x7 到 x15

# 对数值变量（x1 - x6）使用均值策略填充缺失值

numeric_imputer = SimpleImputer(strategy='mean')

numeric_imputer.fit(numerical_vars)

a1 = numeric_imputer.transform(numerical_vars)

# 对名义变量（x7 - x15）使用最频繁值策略填充缺失值

categorical_imputer = SimpleImputer(strategy='most_frequent')

categorical_imputer.fit(categorical_vars)

a2 = categorical_imputer.transform(categorical_vars)

X=np.hstack((a1,a2))

Y=data.iloc[:,-1]

return(X,Y)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qwerthoykd

关注关注

10
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

（头歌）【基础】数据清洗与转换——金融欺诈数据处理

qq_64377245的博客

10-07

1215

sklearn.preprocessing.OrdinalEncode可以用于常规的转码，调用其fit_transform()，即可完成数据的转码，并返回numpy数组类型的转换结果。scikit-learn含有多种数据规范化工具，例如sklearn.preprocessing的StandardScaler，可以将数据规范化为均值为0，方差为1。最常规的数据编码方式为，将有限个符号转码为0，1，2，等数值。基本策略包括，将缺失值填充为0，1，最大值，最小值，平均值，中位数，或者概率最大的，即众数。

缺失值填充的几种方法

1 条评论

优快云-Ada助手 2025.07.05
恭喜你这篇博客进入【优快云每天最佳新人】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619773189。

缺失值填充对比分析

weixin_56938151的博客

03-10

559

本文分别使用均值、0值、回归随机森林对缺失值进行填充，通过比较三种填充方法均方误差，来决定选择哪种方法进行缺失值填充！

11.12 案例：缺失值填充

Leroi64的博客

05-20

716

缺失值是数据的“破洞”，不补会影响模型“穿衣效果”。方法越复杂，越像“定制裁缝”，但需要更多布料（计算资源）和量体数据（变量相关性）。关键别让补丁太显眼（过拟合）或颜色不对（偏差）！

python缺失值填充

04-26

1万+

1. 用固定值填充对于特征值缺失的一种常见的方法就是可以用固定值来填充。 data['分数'] = data['分数'].fillna('-1') 2. 用均值填充对于数值型的特征，其缺失值也可以用未缺失数据的均值填充。 data['分数'] = data['分数'].fillna(data['分数'].mean())) 3. 用众数填充与均值类似，可以用未缺失数据的众数来...

数据处理笔记6:缺失值填充

越开源越幸运

12-28

1万+

参考: http://118.31.76.100:100/math/statics_topic/deal-na/ 缺失值，不仅包括数据库中的NULL值，也包括用于表示数值缺失的特殊数值（比如，在系统中用-999来表示数值不存在）。漠视这些数值的特殊性，直接拿来进行挖掘，那么很可能会得到错误的结论。常数来填充常常不是一个好方法。最好建立一些模型，根据数据的分布来填充一个更恰当的数值。（例如根据其它变量对记录进行数据分箱，然后选择该记录所在分箱的相应变量的均值或中位数，来填充缺失值，效果会更好一些）

python缺失值填充方法

ZGP1234的博客

06-11

1万+

knn填充/平均数/中位数填充

pandas缺失值填充

weixin_46969441的博客

08-22

1万+

pandas缺失值填充作用：填充缺失值 DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs) 主要参数： value:需要用什么值去填充缺失值 axis:确定填充维度，从行开始或是从列开始 method：填充缺失值所用的方法。 limit:确定填充的个数，如果limit=2，则只填充两个缺失值。 method参数讲解（1）ffill:用缺失值前面

数据清洗-缺失值填充-随机森林填充

qq_63913621的博客

09-15

2527

随机森林 (Random Forest)是一种基于决策树的集成学习方法，由 Leo Breiman 和 Adele Cutler 在 2001 年提出。它通过构建多个决策树来完成分类或回归任务，并利用这些决策树的集成结果来提高模型的准确性和稳定性。随机森林的基本思想是将多个相对较弱的学习器（即决策树）结合起来，从而形成一个强大的集成模型。

数据分析方法 1.缺失值填充

01-20

缺失值填充是数据预处理的关键步骤，因为不完整的数据可能导致误导性的分析结论。本篇文章将详细探讨缺失值的类型、处理方法以及不处理的后果。首先，我们需要了解缺失值的三种类型： 1. 完全随机缺失（MCAR）：...

数据处理之缺失值填充

12-21

这些方法会用每个缺失值前一个或后一个非缺失值进行填充。例如，`data.fillna(method='ffill')`会将缺失值替换为它前面的非缺失值。 3. **均值、众数、中位数填充**：根据数据的特性，可以选择用均值、中位数或众数...

50、【Ubuntu】【Gitlab】拉出内网 Web 服务：http.server 单/多线程分析（二）

HIT_Weston的博客

12-04

1082

本文分析了Python的http.server模块在单线程和多线程模式下的性能表现。通过测试发现，单线程模式下（Python<3.7）并发请求会被阻塞，后发请求需要等待前一个请求完成；而多线程模式下（Python≥3.7）可以同时处理多个请求。作者通过slow_server.py脚本模拟耗时操作，使用time curl命令测试响应时间，验证了线程模型的差异。文章还指出Python 3.7是一个重要分水岭，官方将默认命令行服务器升级为多线程以提升用户体验。技术细节参考了CPython源码，并提供了Git

推荐 | JoyAgent-JDGenie：开箱即用的端到端多智能体产品

lpfasd123的博客

12-05

如果你在寻找一款真正可落地的多智能体产品，用来“搜索-分析-生成报告”、“数据问答与诊断”、“代码解释与图表生成”，同时希望易部署、易扩展、易二次开发——JoyAgent-JDGenie 是非常值得试用与推荐的选择。只需填好少量配置，即可获得端到端的流式体验与交付能力。

大模型应用：大模型 MapReduce 全解析：核心概念、中文语料示例实现.12

minhuan的专栏

12-03

1095

本文介绍了MapReduce编程模型及其在大模型训练中的应用。MapReduce通过"分治-并行-聚合"思想处理大规模数据，传统Hadoop MapReduce侧重结构化数据计算，而大模型MapReduce则针对自然语言处理任务。文章详细对比了两者在架构、处理对象和核心算力等方面的差异，并提供了中文词频统计的Python实现示例，包括单机版和分布式版本。分布式实现利用多进程模拟集群计算，展示了数据分片、Map、Shuffle和Reduce的完整流程。

零基础学JAVA--Day41(IO文件流+IO流原理+InputStream+OutputStream)

最新发布

Dxxyyyy的博客

12-05

533

文件在程序中是以流的形式来操作的流：数据在数据源（文件）和程序（内存）之间经历的路径输入流：数据从数据源（文件）到程序（内存）的路径输出流：数据从程序（内存）到数据源（文件）的路径。

【Android逆向工程】第19章：协议分析与接口还原

w987333120的博客

12-03

384

本文介绍了网络协议分析的关键技术与工具。主要内容包括HTTP/HTTPS协议分析流程、常用抓包工具配置（Charles/Burp Suite）、协议格式解析方法以及签名算法还原技术。通过示例展示了完整的请求/响应分析过程，涵盖请求行、请求头、请求体的解析方法，特别关注签名相关字段的识别。文章还提供了Python代码示例演示如何自动分析HTTP请求结构，帮助逆向工程师理解业务逻辑、还原接口签名算法并实现自动化脚本。

【Android逆向工程】第8章：Frida 高级应用：函数追踪与 RPC 调用

w987333120的博客

12-01

366

本文介绍了Frida框架的核心功能与应用技巧，包括函数调用栈追踪、RPC机制、批量Hook、内存操作和脚本模块化等关键技术。重点讲解了Thread.backtrace()和DebugSymbol.fromAddress()的用法，提供Java和Native函数的调用栈追踪示例，并展示了调用栈过滤与分析方法。最后通过实战案例演示登录流程追踪和RPC调用，同时给出常见问题解决方案。这些技术可有效提升逆向分析效率，适用于移动应用安全测试场景。

使用 DeepSeek 提升工作效率

Deng872347348的博客

12-03

658

摘要：本文系统介绍了如何利用DeepSeek AI工具提升工作效率。文章首先分析职场痛点，指出DeepSeek在技术文档、代码开发、数据处理等专业场景的优势。随后详细解析核心功能模块，包括文本生成、代码支持、数据分析和知识管理，并明确其适用边界。重点提供了可直接复用的指令模板，涵盖技术文档撰写、脚本开发、数据可视化等典型场景，如自动生成API文档、Python数据分析脚本等。最后给出集成办公软件的最佳实践，并针对不同行业提供适配方案，强调AI工具"增强而非替代"的定位，帮助用户将重复性工

对缺失值填充

09-26

在数据处理中，针对缺失值有多种填充方法，不同方法适用于不同场景，没有绝对的优劣之分，在数据预处理时可多尝试几种方法，选择表现最佳的方式[^1]。以下是一些常见的缺失值填充方法： ### 简单填充法 - **均值填充**：对于数值型数据，可计算该列非缺失值的均值，然后用均值填充缺失值。 ```python import pandas as pd df = pd.read_excel('data.xlsx') df['col_name'].fillna(df['col_name'].mean(), inplace=True) ``` - **中位数填充**：同样针对数值型数据，计算该列非缺失值的中位数进行填充。 ```python import pandas as pd df = pd.read_excel('data.xlsx') df['col_name'].fillna(df['col_name'].median(), inplace=True) ``` - **众数填充**：对于分类数据，使用该列出现次数最多的值（众数）进行填充。 ```python import pandas as pd df = pd.read_excel('data.xlsx') df['col_name'].fillna(df['col_name'].mode()[0], inplace=True) ``` ### 模型填充法 - **KNN填充**：该方法借助其他非缺失数据寻找最邻近的数据，然后进行加权平均求值填充。使用前需先处理缺失值较少的数据。 ```python from fancyimpute import KNN import pandas as pd import numpy as np # 处理缺失值较少的数据 # ... # 假设已经得到特征数据 X X_filled = KNN(k=3).fit_transform(X) ``` ### 插值填充法 - **线性插值**：根据数据的线性趋势对缺失值进行填充。 ```python import pandas as pd df = pd.read_excel('data.xlsx') df['col_name'] = df['col_name'].interpolate(method='linear') ```