自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

原创 大数据分析与应用中的数据预处理:从理论到电商实战的全流程指南

数据预处理是指对多源异构的原始数据,通过清洗、集成、转换、归约等一系列操作,剔除无效信息、统一数据格式、提炼有效特征,最终将其转化为适配分析模型的高质量数据的过程。未来,随着自动化预处理工具的发展,AI 驱动的智能清洗、自适应转换等技术将进一步降低预处理门槛,但掌握基础原理和手动处理能力,仍是数据分析师的核心竞争力。电商分析需关联用户基础信息与订单数据,数据集成就是将分散在不同文件、系统中的数据,按统一键值合并为完整数据集,类似做蛋糕时将面粉、鸡蛋等原料倒入同一容器。

2025-12-04 15:24:41 736

原创 Apache2服务器安装与主页自定义流程

Apache 的默认主页文件位于,我们需要编辑这个文件:# 输出示例:-rw-r--r-- .......... ... index.html2.用vi:是 Apache 的默认网站根目录,所有网页文件需存放在此目录下才能被浏览器访问进入vi后,按i切换到编辑模式,在页面标题处添加你的名字(比如 “xxx Default Page”);修改完成后,按Esc退出底层模式,输入:wq保存并退出。查看 Apache 运行状态。

2025-11-17 14:58:29 822

原创 pandas:读取不同数据源的数据

本文介绍了数据读取的基本方法,针对文本文件、Excel文件和数据库三种常见数据源进行说明。重点演示了使用pandas库读取CSV文本文件(read_table和read_csv函数)和Excel文件(read_excel函数)的方法,包括参数设置如编码格式、分隔符等。同时介绍了使用to_csv()方法将数据写入CSV文件的操作,涉及目录检查、列选择等技巧。通过电影票房数据的实际案例,展示了从读取到写入的完整数据处理流程,为后续数据分析和建模提供了基础支持。

2025-06-30 11:21:32 881 1

用于Python中读取数据进行实战演练

用于Python中读取数据进行实战演练

2025-06-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除