
数据分析之路
文章平均质量分 96
SinHao22
渺沧海之一粟
展开
-
numpy生成随机数矩阵
转载转载 2020-11-21 09:49:12 · 4112 阅读 · 0 评论 -
heamy Stacking实例
GitHub地址转载 2020-11-01 12:15:32 · 248 阅读 · 0 评论 -
模型融合
这篇blog对模型融合的讲解非常易懂,记录一下模型融合转载 2020-10-31 19:29:18 · 143 阅读 · 0 评论 -
数据挖掘比赛基本框架
目录0.前言1.基本框架1.1数据探索性分析(EDA)1.1.1 查看数据基本信息1.1.2 查看缺失值情况1.1.3 查看唯一值情况并删除唯一值1.1.4 筛选出不同数据类型1.1.5 画图观察数值型数据分布情况1.2 数据特征工程1.2.1 处理缺失值1.2.2 处理时间数据1.2.3 对数据进行更精确的划分1.2.4 对类别变量进行处理1.2.5 处理异常值1.2.6 *数据分箱1.2.7 特征选择1.3 构建模型1.3.1 选择模型1.3.2 调参总结0.前言这篇博客主要目的是对近一个月来参加的原创 2020-10-28 12:37:09 · 1140 阅读 · 0 评论 -
Numpy 如何保存数组【转载】
转载转载 2020-10-17 20:25:07 · 468 阅读 · 0 评论 -
Pandas melt【宽数据转化为长数据】
转载转载 2020-10-17 14:57:52 · 817 阅读 · 0 评论 -
踩坑记录【一】——pandas求Series的众数和中位数返回值不一样
问题描述刚刚在做这样的工作:有一个含47个属性的包含缺失值(NAN)的数据集,我想用每个属性的众数来替代该属性中的NAN,自然而然地这样写:# 1.处理NAN值(统一用众数来填充)data_train[train_null_col] = data_train[train_null_col].fillna(data_train[train_null_col].mode())P.s:变量解释数据类型data_train原始数据集DataFrametrain_null_原创 2020-10-10 20:26:00 · 3570 阅读 · 1 评论 -
pandas通俗易懂——groupby函数
前言pandas中的groupby函数功能就如同字面意思,通过某个特征将数据组织起来。只不过其返回值不是DataFrame,而是另一种形式,所以没法直接将groupby的返回值输出出来,其返回值常与.mean()/.count()/.median()等搭配起来输出,下面通过例子说明。正文import pandas as pdfrom pandas import DataFramedf = DataFrame({'key1':list('ababa'), 'key2'原创 2020-10-05 10:52:49 · 5962 阅读 · 2 评论 -
seaborn常用的数据分析图表【转载】
前言seaborn真的是挺好用的一个可视化库了,基于matplotlib库,相比于matplotlib更加简洁,适合我这样的新手。但其定制性不如matplotlib,正如之前别人说的,matplotlib像是去饭店单独点菜,而seaborn更像是饭店里的套餐。不过seaborn的大多数功能已经能满足需求了。转载于知乎:知乎链接...转载 2020-10-04 10:11:36 · 236 阅读 · 0 评论 -
走上数据分析之路【三】——Pandas常用功能及函数【二】
前言接上次Pandas常用函数,一方面为了记录,另一方面方便以后查阅复习。Pandas应该会写好几个系列。正文【1】DataFrame的加减乘除:可以直接:df1 + df2; df1 - df2; df1 * df2; df1 / df2;但我觉得用df1.add(df2)更好,因为可以通过fill_value参数将nan值设置为特定值。例如:a = DataFrame(np.array([[np.nan, 2, 3],[4, 5, 6]]))b = DataFrame(np.arr原创 2020-09-28 21:10:20 · 302 阅读 · 0 评论 -
走上数据分析之路【二】——Pandas常用功能及函数【一】
前言写给自己,方便以后查阅正文import numpy as npimport pandas as pdfrom pandas import Series, DataFrameSeries(1)values和index属性【1】通过obj.values可以得到Series对象的以为ndarray数组a = Series([10, 11, 12, 13])a.values结果:array([10, 11, 12, 13], dtype=int64)【2】obj.index可以得原创 2020-09-22 20:16:56 · 244 阅读 · 0 评论 -
走上数据分析之路【一】——Numpy常用函数
前言主要是为了记录一些Numpy常用函数,方便以后自己查阅。正文1.创建ndarry(1)np.array()a = np.array([1, 2, 3])b = np.array([[1, 2, 3], [4, 5, 6]])(2)np.ones()、np.eye()、np.zeros()a = np.ones((3, 2))b = np.eye(5)c = np.zeros((3, 2, 5))2.索引与切片较为简单,忘了参考书P1003.通用函数(exp、sin…)参考原创 2020-09-21 18:20:06 · 205 阅读 · 0 评论