陈梦瑛-优快云博客

原创大数据分析与应用中的数据预处理：从理论到电商实战的全流程指南

数据预处理是指对多源异构的原始数据，通过清洗、集成、转换、归约等一系列操作，剔除无效信息、统一数据格式、提炼有效特征，最终将其转化为适配分析模型的高质量数据的过程。未来，随着自动化预处理工具的发展，AI 驱动的智能清洗、自适应转换等技术将进一步降低预处理门槛，但掌握基础原理和手动处理能力，仍是数据分析师的核心竞争力。电商分析需关联用户基础信息与订单数据，数据集成就是将分散在不同文件、系统中的数据，按统一键值合并为完整数据集，类似做蛋糕时将面粉、鸡蛋等原料倒入同一容器。

2025-12-04 15:24:41 736

原创 Apache2服务器安装与主页自定义流程

Apache 的默认主页文件位于，我们需要编辑这个文件：# 输出示例：-rw-r--r-- .......... ... index.html2.用vi：是 Apache 的默认网站根目录，所有网页文件需存放在此目录下才能被浏览器访问进入vi后，按i切换到编辑模式，在页面标题处添加你的名字（比如 “xxx Default Page”）；修改完成后，按Esc退出底层模式，输入:wq保存并退出。查看 Apache 运行状态。

2025-11-17 14:58:29 822

原创 pandas:读取不同数据源的数据

本文介绍了数据读取的基本方法，针对文本文件、Excel文件和数据库三种常见数据源进行说明。重点演示了使用pandas库读取CSV文本文件(read_table和read_csv函数)和Excel文件(read_excel函数)的方法，包括参数设置如编码格式、分隔符等。同时介绍了使用to_csv()方法将数据写入CSV文件的操作，涉及目录检查、列选择等技巧。通过电影票房数据的实际案例，展示了从读取到写入的完整数据处理流程，为后续数据分析和建模提供了基础支持。

2025-06-30 11:21:32 881 1

用于Python中读取数据进行实战演练

2025-06-30

空空如也

TA创建的收藏夹 TA关注的收藏夹