pandas_profiling数据预览

使用pandas_profiling工具,仅需一行代码即可快速查看CSV文件中数据的全面概况,包括统计数据、缺失值分析等。

做数据分析前需要先看一下数据的概况,有一个很好用的工具pandas_profiling可以快速预览数据

只用一行代码,即可快速显示数据概况

效果图:


代码如下:

import pandas as pd
import pandas_profiling

df = pd.read_csv('churn.csv')

# windows pycharm执行代码,执行完在浏览器打开example.html
if __name__ == '__main__':
    pfr = pandas_profiling.ProfileReport(df)
    pfr.to_file("./example.html")

# 在jupyter执行代码,只用下边的一行即可
# pfr = pandas_profiling.ProfileReport(df)


EDA(探索性数据分析)是数据分析中必不可少的过程,使用`pandas_profiling`和`sweetviz`能自动生成数据基础分析报告,节省大量人工。二者功能类似,都能生成 HTML 分析报告,但`sweetviz`需要 Python3.6 及以上版本,且可比较两个数据集间的差异 [^1]。 ### 使用方法 #### 安装 使用`pip`进行安装: ```bash pip install pandas-profiling pip install sweetviz ``` #### `pandas_profiling`使用示例 ```python import pandas as pd from pandas_profiling import ProfileReport # 加载数据 data = pd.read_csv('your_data.csv') # 创建分析报告 profile = ProfileReport(data, title="Pandas Profiling Report") # 保存报告为 HTML 文件 profile.to_file("pandas_profiling_report.html") ``` #### `sweetviz`使用示例 ```python import pandas as pd import sweetviz as sv # 加载数据 data = pd.read_csv('your_data.csv') # 生成分析报告 report = sv.analyze(data) # 保存报告为 HTML 文件 report.show_html("sweetviz_report.html") # 比较两个数据集 data1 = pd.read_csv('data1.csv') data2 = pd.read_csv('data2.csv') comparison = sv.compare([data1, "Data1"], [data2, "Data2"]) comparison.show_html("comparison_report.html") ``` ### 案例 假设要分析一个包含学生成绩、性别、年龄等信息的数据集。 #### `pandas_profiling`案例 ```python import pandas as pd from pandas_profiling import ProfileReport # 示例数据 data = { 'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [20, 21, 20, 22], 'Gender': ['Female', 'Male', 'Male', 'Male'], 'Score': [85, 90, 78, 92] } df = pd.DataFrame(data) # 创建分析报告 profile = ProfileReport(df, title="Student Data Profiling Report") # 保存报告为 HTML 文件 profile.to_file("student_pandas_profiling_report.html") ``` #### `sweetviz`案例 ```python import pandas as pd import sweetviz as sv # 示例数据 data = { 'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [20, 21, 20, 22], 'Gender': ['Female', 'Male', 'Male', 'Male'], 'Score': [85, 90, 78, 92] } df = pd.DataFrame(data) # 生成分析报告 report = sv.analyze(df) # 保存报告为 HTML 文件 report.show_html("student_sweetviz_report.html") ```
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值