自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 基础分析(数据清洗与描述统计)- 一致性

针对数据质量问题,提出了分级处理策略:缺失值填充、异常值修正、映射规则建立等。特别强调对不完整时间数据的处理方案(如聚焦完整年份或按月聚合),为电商数据分析的可靠性提供保障。

2025-07-02 20:09:23 852

原创 基础分析(数据清洗与描述统计)- 准确性

2. 再探索别的汉字的时候,基于一个字一种写法的原则(比如 汉字的汉 就是这么写的),找到别的没有汉字的纯英文单词,去对比。类似 A汉test,别的评论里出现Abtest,推出:汉=b。A:A,Sheet2!1. 先借助customer_dataset里已经分析出来的结果(链接待放置),将已知的汉字替换掉review里的内容。可能存在用户未完成全部分期的情况(但数据难以捕捉,可暂忽略)。确定中文字符的英文代表,将已知的中文替换掉。这是用户实际支付的金额,反映真实支付意愿。有好的方法请评论区留言,感激不尽!

2025-07-01 13:59:44 519

原创 基础分析(数据清洗与描述统计)- 缺失值

电商数据分析中数据质量评估至关重要,Olist数据集评估显示:订单表存在关键字段缺失(如发货/送达时间),需逻辑判断填充;产品表出现零重量异常值,建议按品类均值修正;评论表含中英混杂内容暂保留。评估涵盖完整性(缺失值检查)、准确性(异常值识别)等6大维度,通过统计函数计算缺失率,确保分析结果可靠性。典型处理包括:用时间中间值填充缺失物流数据,条件均值替换产品重量零值,保持数据分布一致性。

2025-06-30 22:35:23 918

原创 数据集介绍

字段名类型含义外键关系string客户唯一ID**主键**,关联 `orders.customer_id`string客户自然ID(同一人可能有多个customer_id)无string客户地址邮编前缀关联 `geolocation.zip_code_prefix`string客户所在城市无string客户所在州(巴西2字母缩写,如SP)无。

2025-06-30 16:17:31 613

Dockerfile

Dockerfile

2022-12-02

docker-compose.yml

docker-compose.yml

2022-12-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除