自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 数据挖掘中的数据预处理:从 “原始数据” 到 “可用信息”

数据预处理是数据挖掘的关键环节,占项目60%以上的时间,直接影响模型效果。文章系统介绍了数据预处理的四个核心步骤:数据清洗处理缺失值、异常值和重复数据;数据集成解决多源数据的实体识别和冲突;数据变换通过归一化、标准化等方法重塑数据分布;数据规约通过特征选择和抽样压缩数据规模。文中结合实例代码展示了各环节的具体实现方法,并强调预处理的质量决定了后续分析的效果,需根据数据特点和业务目标灵活组合多种技术。

2025-10-10 23:39:31 617

原创 Python 数据挖掘

明确你要挖掘和分析的事情和目的后,第二步就是数据的采集,对于数据的采集一定要精确,因为数据挖掘是要从原始数据中找出规律,如果原始数据采集不正确,则很难从中探索其规律,主要注意数据的完整和正确。在餐馆里,仅仅靠人工进行推荐菜品,不仅效率低,可能对于顾客的体验感差,对于菜品的选择和顾客时间段对菜品的选择,这一类数据则可以进行相对应的数据挖掘,针对出新客,回头客,等多类型客户针对性的提供。第四步就是数据的预处理,当采样的数据维度过大的时候,要进行降维的处理和缺失值处理,这些都是数据预处理需要做的事情。

2025-09-26 09:27:01 1673

原创 计算机三级网络技术 攻略

本人于2024年3月23日考完三级 用时大概一个月 每天基本上2-3个小时的时间左右 大概时间 有时候 后期就刷卷子 几套刷完 也没有多少时间 其实考点是很固定的 这条指南并不能帮你掌握计算机网络技术 目的只是帮助同学们通过三级考试 这些题目其实没有哪一道是真正需要思考的出来答案 只是知识点陌生 不熟悉导致 相比更像个文科的东西 基本上 最短 一周就能完成备考 好的 闲话少说 先来聊一下经验贴 :本人第一次写文章 有错误地方 请指正 谢谢各位! 首先保底六十分过线 那么 我先 算一下 只要你

2025-09-25 15:25:06 957

原创 C的四则运算

d的意思就是 把逗号后面的加减乘除计算完自动放到""字符串里面。在{}插入输出 printf("%d",23+22);最后要注意的是加减乘除的符号不要写错。还是先把一个大体的框架做出来。举个例子 22+23等于多少。

2023-02-06 18:01:00 103 1

原创 dev C 第一个程序 Hello World!

""中就是字符串在里面写下hello world就表示输出 hello world。要输出hello world 就要用到 printf("")在{ }里面可以插入你要写的代码放在return前面就行。在运行 就能终端输出hello world!开始先不去管这个 框架是啥 记住就行。\nd的意思是输出后换行类似于回车。

2023-02-06 17:49:42 508

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除