
数据分析
文章平均质量分 77
数据获取--数据存储与提取--数据预处理--数据建模与分析--数据可视化
少云清
纸上得来终觉浅,绝知此事要躬行
展开
-
05_特征工程—降维
文章目录一、降维1.1 降维必要性1.2 降维目的二、降维—PCA(无监督)2.1 PCA原理2.2 PCA 计算2.3 PCA的执行过程2.4 PCA案例2.5 PCA降维的SVD求解方式三、降维—LDA(有监督)3.1 LDA原理3.2 LDA问题求解四、PCA和LDA异同一、降维特征降维必须在特征选择做完以后才能进行。当特征选择完成后,可以直接可以进行训练模型了,但是可能由于特征矩阵过大,导致计算量比较大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。常见的降维方法除了基于原创 2022-05-30 22:42:38 · 571 阅读 · 1 评论 -
04_特征工程—特征选择
文章目录一、特征选择 - 背景二、特征选择方法三、过滤法3.1 特征选择—方差选择法3.2 特征选择—相关系数法3.3 特征选择—卡方检验四、包装法4.1 特征选择—递归特征消除法五、嵌入法5.1 特征选择—基于惩罚项的特征选择法5.2 特征选择—基于树模型的特征选择法一、特征选择 - 背景当做完特征转换后,实际上可能会存在很多的特征属性,比如:多项式扩展转换、文本数据转换等等,但是太多的特征属性的存在可能会导致模型构建效率降低,同时模型的效果有可能会变的不好,那么这个时候就需要从这些特征属性中选择出原创 2022-05-28 22:18:56 · 494 阅读 · 0 评论 -
03_特征工程—特征转换
文章目录一、特征转换概念二、分词2.1 分词2.2 Jieba分词2.2.1 jieba分词原理2.2.2 jieba分词使用三、特征转换 - 文本特征属性转换3.1 词袋法(BOW)3.2 词集法(SOW)3.3 TF-IDF3.3.1 TF-IDF 概念3.3.2 TF-IDF 计算3.3.3 TF-IDF 例子3.4 HashTF-IDF3.5 Scikit Text Feature Extraction四、特征转换 - 缺省值处理4.1 确定缺省值范围4.2 去除不需要的字段4.3 填充缺省值方法(原创 2022-05-17 22:43:45 · 1547 阅读 · 0 评论 -
02_特征工程前奏—数据清洗
文章目录一、预处理二、清洗异常样本数据2.1 格式内容错误数据清洗2.2 逻辑错误清洗2.3 去除不需要的数据2.4 关联性验证三、数据不均衡3.1 数据不平衡3.2 对多数类别样本删除3.2.1 解决方案一 —设置损失函数的权重3.2.2 解决方案二—下采样/欠采样3.2.2.1 比赛技巧3.2.3 解决方案三—ENN3.2.4 解决方案四—RENN3.2.5 解决方案五—Tomek Link Removal3.3 对少数类别样本增加3.3.1 解决方案一—过采样/上采样3.3.2 解决方案二—数据合成原创 2022-05-16 21:24:47 · 1125 阅读 · 0 评论 -
01_特征工程前奏—数据准备
文章目录一、需要哪些数据1.1 收集数据规则1.2 公司数据源二、数据如何存储三、数据清洗一、需要哪些数据1.1 收集数据规则在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需要的数据:1.业务的实现需要哪些数据?基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。2.数据可用性评估在获取数据的过程中,首先需要考虑的是这个数据获取的成本;获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数据的可信度情况。1.2 公司数据源原创 2022-05-09 20:51:05 · 450 阅读 · 0 评论 -
7_数据分析—评估
文章目录一、前期准备1.1 加载数据并分割数据集二、模型评估2.1 交叉验证2.2 混淆矩阵2.3 ROC曲线一、前期准备# %matplotlib inline这一句是IPython的魔法函数,可以在IPython编译器里直接使用,作用是内嵌画图,省略掉plt.show()这一步,直接显示图像。#如果不加这一句的话,我们在画图结束之后需要加上plt.show()才可以显示图像。%matplotlib inlineimport pandas as pdimport numpy as npim原创 2022-04-20 21:31:57 · 163 阅读 · 0 评论 -
6_数据分析—建模
文章目录一、前期准备1.1 载入数据二、模型搭建2.1 模型选择2.2 切割训练集和测试集2.3 模型建立2.4 输出模型预测结果一、前期准备1、对数数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作——>得出处理好的数据2、数据分析的目的:运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。第一步:建模,搭建一个预测模型或者其他模型第二步:评估,从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。# %matplotlib inli原创 2022-04-20 21:05:04 · 1796 阅读 · 0 评论 -
5_数据分析—数据可视化
文章目录一、导入数据二、数据可视化(泰坦尼克号数据集)2.1 图形的分类和特征2.2 男女中生存人数分布情况(用柱状图试试)2.3 男女中生存人与死亡人数的比例图(用柱状图试试)2.4 不同票价的人生存和死亡人数分布情况。(用折线图试试)(横轴是不同票价,纵轴是存活人数)2.5 不同仓位等级的人生存和死亡人员的分布情况。(用柱状图试试)2.6 不同年龄的人生存与死亡人数分布情况。(不限表达方式)2.7 不同仓位等级的人年龄分布情况。(用折线图试试)三、其他可视化模块,如:pyecharts,bokeh等一原创 2022-04-18 21:24:17 · 714 阅读 · 0 评论 -
4_数据分析—数据重构
文章目录一、数据的合并1.1 导入基本库1.2 载入数据1.3 数据合并1.3.1 方法一:concat方法1.3.2 方法二:join和append方法1.3.3 方法三:merge方法和append方法二、换一种角度看数据2.1 将DataFrame类型数据变为Series类型数据三、数据聚合与运算(泰坦尼克号数据集)3.1 groupby() 用法3.1.1 计算男性与女性的平均票价3.1.2 统计男女的存活人数3.1.3 计算客舱不同等级的存活人数3.1.4 统计在不同等级的票中的不同年龄的船票花费原创 2022-04-17 20:25:51 · 1147 阅读 · 0 评论 -
3_数据分析—数据清洗及特征处理
文章目录一、数据导入二、数据清洗简述2.1 缺失值—观察与处理2.1.1 缺失值观察(2种方法)2.1.2 对缺失值进行处理2.1.3 对缺失值进行填充2.2 重复值—观察与处理2.2.1 查看数据中的重复值2.2.2 对重复值进行处理2.2.3 将前面清洗的数据保存为csv格式三、特征观察与处理(重点)3.1 特征观察(重点)3.2 特征处理3.2.1 数值型特征处理—对年龄进行分箱(离散化)处理3.2.2 文本型特征处理—对文本变量进行转换3.2.3 从纯文本Name特征里提取出Titles的特征(所谓原创 2022-04-16 23:11:18 · 2907 阅读 · 0 评论 -
2_数据分析—认识pandas
文章目录一、认识 pandas1.1 pandas有两个数据类型DateFrame和Series1.2 载入数据1.3 查看DataFrame数据的每列的名称1.4 查看"Cabin"这列的所有值1.4.1 方法一1.4.2 方法二1.5 对比两个文件,将多出的列删除1.5.1 方法一1.5.2 方法二1.6 隐藏元素二、筛选数据2.1 我们以"Age"为筛选条件,显示年龄在10岁以下的乘客信息。2.2 以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage原创 2022-04-15 21:20:16 · 824 阅读 · 0 评论 -
1_数据分析—数据载入、导出和探索
文章目录一、数据加载1.1 载入数据1.1.1 导入numpy和pandas1.1.2 载入数据1.1.3 每1000行为一个数据模块,逐块读取1.1.4 将表头改成中文,索引改为乘客ID1.2 初步观察1.2.1 查看数据的基本信息1.2.2 观察表格前10行的数据和后15行的数据1.2.3 判断数据是否为空,为空的地方返回True,其余地方返回False1.3 保存数据1.3.1 保存为一个新文件二、了解数据2.1 利用Pandas对示例数据进行排序,要求升序2.1.1 根据列排序2.1.2 不同排序方原创 2022-03-30 22:12:13 · 1156 阅读 · 0 评论 -
数据分析流程和特征工程
原创 2022-03-07 20:40:55 · 161 阅读 · 0 评论 -
【数据分析就业实战】——缺失值的常见处理方法
【数据分析就业实战】——缺失值的常见处理方法转载 2022-02-04 23:16:31 · 1198 阅读 · 0 评论 -
Python数据分析:pandas玩转Excel(三)
将对象写入Excel工作表。要将单个对象写入 Excel .xlsx 文件,只需指定目标文件名即可。要写入多个工作表,必须创建具有目标文件名的ExcelWriter对象,并在文件中指定要写入的工作表。可以通过指定唯一sheet_name写入多个工作表。将所有数据写入文件后,必须保存更改。请注意,创建具有已存在的文件名的ExcelWriter对象将导致删除现有文件的内容。1 df.to_exc...原创 2020-04-15 17:34:58 · 2027 阅读 · 0 评论 -
Python数据分析:pandas玩转Excel(二)
1 对Excel文件的操作方法一:使用xlrd库或者xlwt库进行对excel表格的操作读与写;方法二:pandas库同样支持excel的读写操作;且更加简便。2 pd.read_excel( )的参数读Excel文件df=pd.read_excel(io, sheet_name=0, # 工作表名称 heade...原创 2020-04-15 17:21:37 · 994 阅读 · 0 评论 -
Python数据分析:pandas玩转Excel(一)
Python数据分析:pandas玩转Excel (一)文章目录1 pandas简介2 导入3 使用4 读取、写入1 pandas简介1.Pandas是什么?Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。2.DataFrameDataFrame是Pandas中的一个表格型的数据结构,...原创 2020-04-15 14:00:00 · 1084 阅读 · 0 评论