6、数据探索指南与实践

数据探索指南与实践

在处理新数据集时,无论是否熟悉,都需要遵循一些基本问题进行初步分析。以下是这些关键问题及其实践示例。

数据探索的引导问题

在开始分析新数据集时,可通过以下问题进行初步分析:
1. 数据是否结构化 :检查数据是否以行/列结构呈现。大部分情况下数据是结构化的,如果是非结构化数据,通常需要将其转换为行/列结构,例如通过统计单词/短语数量将文本转换为行/列结构。
2. 每行代表什么 :明确每行实际代表的内容,这有助于快速理解数据。
3. 每列代表什么 :根据数据级别(定量/定性等)识别每列,此分类可能随分析进展而变化,但应尽早开始。
4. 是否有缺失数据点 :数据并非完美,可能因人为或机械错误导致数据缺失,数据科学家需决定如何处理这些差异。
5. 是否需要对列进行转换 :根据每列的数据级别/类型,可能需要进行特定转换。通常为了统计建模和机器学习,希望每列都是数值型的。

同时,我们要思考从初步推断统计中能得出什么结论,以更好地理解数据。

数据集1 - Yelp

这是餐厅点评网站Yelp提供的公共数据集,已移除所有个人身份信息。

读取数据
import pandas as pd
yelp_raw_data = pd.read_csv("yelp.csv")
yelp_raw_data.he
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值