
数据分析
文章平均质量分 83
啧啧啧@
这个作者很懒,什么都没留下…
展开
-
在jupyter中切换虚拟环境
在jupyter中切换虚拟环境首先,进入prompt,切换到你的虚拟环境然后,安装ipykernel最后,将你的虚拟环境加入到ipykernel中conda activate 你的虚拟环境的名字conda install ipykernelpython -m ipykernel install --name 你的虚拟环境的名字此时,进入jupyter就可以切换虚拟环境了。...原创 2022-02-09 12:35:27 · 2199 阅读 · 0 评论 -
数据分析4——挖掘建模(监督学习中的分类、回归模型,无监督学习)
def hr_modeling(features,label): #区分训练集和测试集 from sklearn.model_selection import train_test_split #features、label是dataframe f_v=features.values l_v=label.values #我们需要得到6:2:2的比例,需要分两步进行切分 #第一步,先得到验证集的数量,它占总体的20% X_tt原创 2021-10-27 23:13:34 · 2123 阅读 · 0 评论 -
数据分析3——预处理理论(特征工程、数据清洗、特征预处理)
预处理理论1、特征工程数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程一般包括特征使用、特征获取、特征处理、特征监控四大方面。特征使用包括:数据的选择和数据的可用性判断。这两方面主要关注点放在特征的元数据上。数据选择是分析和我们目标最相关的数据都有哪些,这些数据如何获取。数据的可用性,这里说的可用性是指数据特征是否能持续输出,比如我们需要建立模型,用到的数据是实时更新的,那么只能获取到历史数据是远远不够的。特征获取,数据源已经确定了,下一步就是确定与存储数据的过程,这个过原创 2021-08-21 17:14:05 · 5133 阅读 · 1 评论 -
数据分析2——探索性数据分析(多因子与复合分析)
理论铺垫:假设检验与方差检验;相关系数:皮尔逊、斯皮尔曼;回归:线性回归;PCA与奇异值分解1、假设检验(1)建立原假设Ho(包含等号),H0的反命题为H1,也叫备择假设。(2)选择检验统计量(3)根据显著水平(一般为0.05),确定拒绝域(4)计算p值或样本统计值,作出判断。(若p<显著水平,则假设为假,反之)说明:显著水平:我们一般可以接受的假设的最大失真程度。它和相似度加和为1。显著水平一般是人为定的,值越低,表示对数据和分布程度的契合度要求越高。检验方法:P检验常用来比较两组样本分原创 2021-08-07 23:08:06 · 2234 阅读 · 0 评论 -
数据分析学习1——数据获取,单因子探索分析与可视化
数据分析学习数据分析含义:数据分析就是在数据中利用统计分析方法提取有用的信息并且进行总结和概况的过程。一、数据获取数据获取的手段:数据仓库,监测与抓取,填写、日志、埋点,计算。1、数据获取手段——数据仓库数据仓库含义:将所有业务数据经汇总处理,构成数据仓库( DW )(包括全部事实的记录、部分维度与数据的整理(数据集市-DM ))数据库VS仓库数据库面向业务存储(面向业务需要保证高并发,快速读写,数据精简等,主要是为用户提供最为优质的体验),仓库面向主题存储(主题:较高层次上对分析对象数据的原创 2021-08-06 15:24:32 · 1049 阅读 · 0 评论