- 博客(5)
- 收藏
- 关注
原创 数据挖掘中的数据预处理:从 “原始数据” 到 “可用信息”
数据预处理是数据挖掘的关键环节,占项目60%以上的时间,直接影响模型效果。文章系统介绍了数据预处理的四个核心步骤:数据清洗处理缺失值、异常值和重复数据;数据集成解决多源数据的实体识别和冲突;数据变换通过归一化、标准化等方法重塑数据分布;数据规约通过特征选择和抽样压缩数据规模。文中结合实例代码展示了各环节的具体实现方法,并强调预处理的质量决定了后续分析的效果,需根据数据特点和业务目标灵活组合多种技术。
2025-10-10 23:39:31
617
原创 Python 数据挖掘
明确你要挖掘和分析的事情和目的后,第二步就是数据的采集,对于数据的采集一定要精确,因为数据挖掘是要从原始数据中找出规律,如果原始数据采集不正确,则很难从中探索其规律,主要注意数据的完整和正确。在餐馆里,仅仅靠人工进行推荐菜品,不仅效率低,可能对于顾客的体验感差,对于菜品的选择和顾客时间段对菜品的选择,这一类数据则可以进行相对应的数据挖掘,针对出新客,回头客,等多类型客户针对性的提供。第四步就是数据的预处理,当采样的数据维度过大的时候,要进行降维的处理和缺失值处理,这些都是数据预处理需要做的事情。
2025-09-26 09:27:01
1673
原创 计算机三级网络技术 攻略
本人于2024年3月23日考完三级 用时大概一个月 每天基本上2-3个小时的时间左右 大概时间 有时候 后期就刷卷子 几套刷完 也没有多少时间 其实考点是很固定的 这条指南并不能帮你掌握计算机网络技术 目的只是帮助同学们通过三级考试 这些题目其实没有哪一道是真正需要思考的出来答案 只是知识点陌生 不熟悉导致 相比更像个文科的东西 基本上 最短 一周就能完成备考 好的 闲话少说 先来聊一下经验贴 :本人第一次写文章 有错误地方 请指正 谢谢各位! 首先保底六十分过线 那么 我先 算一下 只要你
2025-09-25 15:25:06
957
原创 C的四则运算
d的意思就是 把逗号后面的加减乘除计算完自动放到""字符串里面。在{}插入输出 printf("%d",23+22);最后要注意的是加减乘除的符号不要写错。还是先把一个大体的框架做出来。举个例子 22+23等于多少。
2023-02-06 18:01:00
103
1
原创 dev C 第一个程序 Hello World!
""中就是字符串在里面写下hello world就表示输出 hello world。要输出hello world 就要用到 printf("")在{ }里面可以插入你要写的代码放在return前面就行。在运行 就能终端输出hello world!开始先不去管这个 框架是啥 记住就行。\nd的意思是输出后换行类似于回车。
2023-02-06 17:49:42
508
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅