
数据科学
松阁~
这个作者很懒,什么都没留下…
展开
-
Summary of learning data analysis(四)
Summary of learning data analysis(四) 数据可视化 在进行数据可视化时,经常会使用到两个可视化库,seaborn库和matplotlib库 difference&connection seaborn库使用matplotlib库作为底层,正如某位大牛所言“matplotlib试着让表达简单的事情更加简单,表达困难的事情变得可能,那么seaborn就是让表达困难的事情变得简单”,使用matplotlib库最大的困难是其默认的各种参数,而seaborn则避免这个问题。简而原创 2020-08-25 22:30:03 · 446 阅读 · 0 评论 -
Summary of learning data analysis(三)
Summary of learning data analysis(三) 本次学习内容主要涉及利用一些方法如concat方法进行数据合并以及利用groupby进行分组统计,关于concat等合并方法在《利用Python进行数据分析(第二版)》中已做详细说明,其中的学习注释便不再搬运到此处,至于groupby函数的基本使用,与SQL语句中的groupby类似,不再赘述。本次博文仅贴写一些代码。 ## 导入基本库 import pandas as pd import numpy as np ## 数据加载 t原创 2020-08-23 17:02:36 · 243 阅读 · 0 评论 -
Summary of learning data analysis(二)
Summary of learning data analysis(二) 数据清洗及特征处理 1.缺失值观察与处理 ##缺失值观察 df.isnull.sum() #查看每个特征缺失值的个数 #df.isnull().mean() #查看每个特征下缺失值所占比例 #df.info() ##缺失值处理 ##常用dropna()和fillna()两函数 df_drop = df.dropna(subset=['Age']) #subset: 对特定的列进行缺失值删除处理 ##向下填充 d原创 2020-08-21 17:50:53 · 331 阅读 · 0 评论 -
Summary of learning data analysis(一)
Summary of learning data analysis(一) Problem 1:如何解决read_csv()和read_table()两函数读取csv格式文件造成的差异? solution 1:首先需要了解csv格式文件的特点:csv(Comma-Separated Values)文件是一种逗号分隔值的文件,而read_csv()函数读取以’,‘分割的文件到dataframe(以下简称df),read_table()函数读取以’/t’(即tab)分割的文件到df,两个函数的主要差别在于分隔符默原创 2020-08-19 05:02:14 · 296 阅读 · 0 评论