
数据分析
景韦
这个作者很懒,什么都没留下…
展开
-
dataframe对层次化索值引进行条件筛选
数据如下:print(sex_s)'''%Pclass Sex Survived 1 female 0 0.031915 1 0.968085 male 0 0.631148 1 0.3688522 female 0 0.078947 1 0.921053原创 2020-09-13 12:12:49 · 573 阅读 · 0 评论 -
pandas对每个分组分别统计百分比
数据如下:import numpy as npimport pandas as pdnp.random.seed(0)df = pd.DataFrame({'state': ['CA', 'WA', 'CO', 'AZ'] * 3, 'office_id': list(range(1, 7)) * 2, 'sales': [np.random.randint(100000, 999999) for _ in range(12)]})df=原创 2020-09-12 23:29:29 · 20656 阅读 · 2 评论 -
给numpy数组添加行或列的几种方法
d = np.array([[1, 2], [2, 3], [3, 4]])darray([[1, 2], [2, 3], [3, 4]])现在要添加一列[5, 6, 7],或者一行[5, 6]np.c_、np.r_# 添加列np.c_[d, [5, 6, 7]]array([[1, 2, 5], [2, 3, 6], [3, 4, 7]])# 添加行,注意维度np.r_[d, [[5, 6]]]array([[1, 2],原创 2020-05-17 23:53:40 · 20098 阅读 · 0 评论 -
python数据降维的几个常用操作
一、基于特征选择的降维基于sklearn的feature_selection进行特征选择SelectPercentile将变量集中的特征变量与目标变量根据指定函数进行分析打分,只保留用户指定百分比的最高得分的特征from sklearn import feature_selectionfrom sklearn.feature_selection import f_classif# 默认使用f_classif进行分析打分,precentile=30表示只保留30%的特征selector_1 =原创 2020-05-14 02:10:16 · 2248 阅读 · 0 评论 -
python将分类数据和顺序数据转换为标志变量
分类数据:某些数据属性只能归于某一类别的非数值型数据,如性别的男和女,颜色的红、黄、蓝顺序数据:只能归于某一有序类别的非数值型数据,如评价的好、中、差,学历的博士、硕士、学士标志方法处理分类和顺序数据将所有分类或顺序数据的值域从一列多值的形态转换为多列**只包含真值(True/False,0/1)**的形态,也称为真值转换。例如:性别(男、女)标志转换后变为“性别-男”和“性别-女”两列,每列只有0和1两种值评价(好、中、差)标志转换后变为“评价-好”、“评价-中”、“评价-差”三列,每列.原创 2020-05-11 23:17:30 · 876 阅读 · 0 评论 -
python数据清洗最基本的几个操作
一、缺失值处理1. 查找缺失值df.isnull():判断哪些元素有缺失值df.isnull().any():判断哪些列有至少有一个缺失值,.any(axis=1)判断行df.isnull().all():判断哪些列全部都缺失值,.all(axis=1)判断行2. pandas处理缺失值丢弃df.dropna():直接丢弃含有缺失值的列,axis=1丢弃行填充df.fillna( value=None, method=None, axis=None, inp原创 2020-05-11 23:15:46 · 465 阅读 · 0 评论 -
Ubuntu里搭建jupyter notebook
1. 安装pythonroot@McJevons:/home# apt install python3.8root@McJevons:/home# apt install python3.8-venv2. 建立并启动python虚拟环境root@McJevons:/home# mkdir data_science_env # 建立目录root@McJevons:/home# cd da...原创 2020-05-06 23:00:31 · 764 阅读 · 0 评论 -
DataFrame中涉及百分比的计算
数据分析时很多时候数据是百分比的字符串格式,在进行计算的时候需要进行相应处理.str.strip():删除字符串中的指定字符,参数为空时删除字符串前后空格.astype():将数据转换为指定数据类型如下数据,所有字段类型都是字符串,需要计算fund_size与stock_percent相乘的结果df['stock_money'] = df['fund_size'].astype( ...原创 2020-02-26 21:43:43 · 7541 阅读 · 0 评论 -
pyecharts快速上手(二):初始化、标题、图例、提示框配置
使用pyecharts快速上手(一):柱形图,折线图里的折线图来进行说明。from pyecharts.charts import Barfrom pyecharts.charts import Linefrom pyecharts import options as optsx_date = [ '2020-02-09', '2020-02-10', '2020-02-11',...原创 2020-02-18 22:44:44 · 16186 阅读 · 7 评论 -
pyecharts快速上手(一):柱形图,折线图
在此借用新冠疫情部分数据在武汉和黄石生活了十几年,还有很多亲戚也在那里,希望武汉加油!!黄石加油!!安装命令:pip install pyecharts引入库,准备数据from pyecharts.charts import Barfrom pyecharts.charts import Line# 日期作为x轴/横轴x_date = [ '2020-02-09', '20...原创 2020-02-18 14:32:27 · 2466 阅读 · 0 评论 -
对dataframe进行值计数
Series的value_counts()可以对值进行计数,但DataFrame没这个方法,不过可以使用apply来调用value_counts()方法,apply将DataFrame分解成Series并分别代入value_counts()中求得计数结果,并将计数结果重新再组合成DataFramedata=pd.DataFrame(np.random.randint(0,11,size=100)...原创 2019-04-19 00:19:03 · 10489 阅读 · 0 评论 -
numpy常用随机数函数
numpy.random模块里有各种随机数生成函数,介绍几个常用的:randint() 随机正整数randint(low, high=None, size=None, dtype='l')low high 取值范围,包括下限数值但不包括上限数值,若只有一个参数,表示取值范围上限size 生成随机数的数量或shape,缺省时只返回单个随机数In [10]: np.random.randin...原创 2019-02-21 12:29:20 · 2159 阅读 · 0 评论 -
DataFrame索引操作、切片选取、条件过滤、赋值
索引操作1. 修改索引顺序reindex(index=[ ],columns=[ ],method,fill_value,copy)根据传入的列表顺序对DataFrame重新索引,并返回一个新DataFrame,不影响原DataFrame。若传入列表中的值在原索引中并不存在,则在DataFrame的对应位置插入值为NaN的行/列。若只传入一个列表且未指定参数名,默认修改index即行索引。建...原创 2019-02-21 22:35:44 · 27418 阅读 · 2 评论 -
numpy简明学习笔记(一)建立数组、数组属性、运算
一维数组array将输入的数据(列表、元组等序列)转换为数组,默认使用输入的数据类型,使用dtype指定类型In [1]: import numpy as npIn [2]: l=[1,2,3,4]In [3]: arr=np.array(l)In [4]: arrOut[4]: array([1, 2, 3, 4])In [5]: arr=np.array([1,2,3,4...原创 2018-11-24 23:04:21 · 291 阅读 · 0 评论