
数据分析
文章平均质量分 57
静默安然
这个作者很懒,什么都没留下…
展开
-
StratifiedKFold 和 KFold 的比较
将全部训练集S分成k个不相交的子集,假设S中的训练样例个数为m,那么每一个自己有m/k个训练样例,相应的子集为{s1,s2,...,sk} 每次从分好的子集里面,拿出一个作为测试集,其他k-1个作为训练集 在k-1个训练集上训练出学习器模型,把这个模型放到测试集上,得到分类率的平均值,作为该模型或者假设函数的真实分类率StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同Parametersn_splits : int转载 2021-04-24 11:02:07 · 957 阅读 · 0 评论 -
绘制学习曲线——plot_learning_curve
plot_learning_curve函数官方放提供的模板函数,可以无需修改,初学时我们仅需要知道传入的参数意义即可。先说说函数里面的一个东西,也是画曲线的核心sklearn.model_selection的learning_curve,该学习曲线函数返回的是train_sizes,train_scores,test_scores: 在画训练集的曲线时:横轴为 train_sizes,纵轴为 train_scores_mean; 画测试集的曲线时:横轴为train_sizes,纵轴为...转载 2021-04-13 17:00:35 · 3757 阅读 · 1 评论 -
SQL窗口函数
一.窗口函数有什么用?在日常工作中,经常会遇到需要在每组内排名,比如下面的业务需求:排名问题:每个部门按业绩来排名topN问题:找出每个部门排名前N的员工进行奖励面对这类需求,就需要使用sql的高级功能窗口函数了。二.什么是窗口函数?窗口函数,也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据库数据进行实时分析处理。窗口函数的基本语法如下:<窗口函数> over (partition by <用于分组的列名>转载 2021-04-08 21:51:10 · 108 阅读 · 0 评论 -
Excel二维表转换成一维表(2种方法)
http://www.360doc.com/content/17/0131/15/30583536_625616303.shtml转载 2021-04-08 20:11:58 · 1173 阅读 · 0 评论 -
常用的数据分析方法
一、数据的分类二、统计分析流程三、数据分析的误区1.展示元素不宜大于3个2.时间序列数据最好使用折线图,而不宜使用柱状图3.研究数据最好不适用三维立体图4.为避免图表的欺骗性,图线最好占据2/3至3/4的高度(调整Y轴刻度)四、常用的统计抽样方法主要有三种:4.1随机抽样法总体中每个个体都有同等可能被抽到,常用抽签或随机表来保证样品的代表性-----当个体的种类不多时,样本总数较少,且抽取的样本数较少,随机抽样是一种有效的抽样方法4.2分层抽样法先将.原创 2021-04-04 16:36:25 · 2342 阅读 · 0 评论 -
集成算法之随机森林
集成算法之随机森林(森林就是构建多个树,随机就是取数是随机且有范围的)集成算法包含(bagging/boosting/stacking)在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由所有决策树输出的类别的众数而定。利用相同的训练数搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。例如,如果你训练了5个树,其中有4个树的结果是 True ,1个数的结果是 False ,那么最终结果会是 True .在前面的决策当中我们提到,一个标准的决策树会根原创 2021-03-25 19:58:26 · 627 阅读 · 0 评论 -
决策树
决策树的原理:通过不断的划分条件来进行分类,其中决策树最关键的就是,找出那些对结果影响最大的条件(信息熵小的),放在前面,来节省查找次数。排序:是否有房子、信贷情况的信息增益、是否有工作、年龄决策树算法选择ID3信息增益大的放前面,C4.5信息增益率大的放前面,CRAT选基尼系数小的放前面(CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。)树的层级和叶子...转载 2021-03-25 18:06:51 · 3930 阅读 · 1 评论 -
朴素贝叶斯文档分类
朴素贝叶斯是逆向求概率的过程求P(C|W)在文档中有某个关键词的情况下,这个文档属于某个分类的概率计算公式:P(C|W)=P(W|C)P(C)/P(W)P(W|C)在文档属于某个类别的前提下,某个关键词出现的概率-------训练数据求出(朴素贝叶斯预测文档分类的原理是:根据以上公式,可以计算出某篇文档下出现得比较多的词,然后把这些词去每个分类下求下概率,在哪个分类下的概率高,那么就意味着这篇文章是属于哪个分类。 )P(C)文档属于某类的概率-------------------------原创 2021-03-24 21:18:20 · 221 阅读 · 0 评论 -
Anaconda Jupyter Notebook中实现代码提示功能
在命令行下输入以下命令1)pip install jupyter_contrib_nbextensions jupyter contrib nbextension install --user2)pip install --user jupyter_nbextensions_configurator jupyter nbextensions_configurator enable --user结果如下图在Anaconda Jupyter中配置如果上一步骤成功完成后,在Anac转载 2021-03-24 11:29:03 · 2374 阅读 · 0 评论 -
Seaborn官网文档
Seaborn官网文档http://seaborn.pydata.org/generated/seaborn.countplot.html原创 2021-03-23 10:51:13 · 944 阅读 · 0 评论 -
python读取csv时keyerror
当我在读取CSV文件中的'Games'时使用data['Games']报 keyerror错误,返回自己的excel表,用鼠标点击属性发现提示我前面有空字符串,选择‘清空前后空字符串’,保存,重新导入数据,成功解决问题。...原创 2021-03-22 19:14:55 · 3714 阅读 · 4 评论 -
机器学习数据集推荐
中文:白鲸社区:https://www.kesci.com/home/dataset英文:UCI Machine Learning Repository:https://archive.ics.uci.edu/ml/index.php原创 2021-03-09 11:08:52 · 217 阅读 · 0 评论 -
数据分析之业务真题该如何回答?
题目:各大平台相继推出和迭代付费会员策略,如优酷会员、京东PLUS会员、网易云音乐黑胶VIP等,通过提供丰富的权益吸引用户成为付费会员,提升用户粘性和忠诚度。请围绕付费会员回答以下问题:1.以网易云音乐黑胶VIP为例,运营同学希望推出活动吸引用户开卡。一种方式是年卡买一送一,即支付一年的年费享受两年的会员权益;另一种方式是年卡费用五书你认为哪种方式更好?请给出具体的理由。分析思路:提取信息,结构化思考分析,关键指标,分析相关关系,给出结论。分析步骤,思考模型太重要了,再结合金字塔的归纳,演..转载 2021-03-08 21:53:18 · 316 阅读 · 0 评论 -
数据分析需要什么能力
原创 2021-03-08 21:22:53 · 196 阅读 · 0 评论 -
特征选择
一、特征选择的用处减少特征数量,缩短建模时间,提高建模效率,大数据集 带来的关键信息只聚集在部分或少数特征上,因此需要: 从中选择出重要的特征使得后续的建模过程只在一部分的特征上构建,减少维数灾难出现的可能。 去除不相关的特征,留下关键因素,降低学习任务难度,更容易挖掘数据本身带有的规律;同时在特征选择的过程中,会对数据特征的理解更加充分。二、特征来源1.业务已经整理好各种特征数据,即业务指标,有时称为属性,我们需要去找出适合我们问题需要的特征。 该类特征通常是业务专家指...原创 2021-03-08 17:39:19 · 1610 阅读 · 0 评论 -
降维
维数灾难背景 p 现实应用中属性维度成千上万,在高维度情况下会带来很多麻烦,而且当维度大的时候, 数据样本一般分布的非常稀疏,这是所有学习算法要面对的问题,降维技术应运而生。 l 数据降维 p 降维是对事物的特征进行压缩和筛选,该项任务相对比较抽象。如果没有特定领域知识, 无法预先决定采用哪些数据,比如在人脸识别任务中,如果直接使用图像的原始像素信 息,数据的维度会非常高,通常会利用降维技术对图像进行处理,保留下最具有区分度 的像素组合。 一、常见降维方法SVD ..原创 2021-03-08 17:39:04 · 263 阅读 · 0 评论 -
matplotlib画图时标题啊title中文乱码
一、问题如下,设置titile时中文乱码二、解决方法1.导入包font_manager2.到自己的windows目录下找到Font文件夹,选一个简体字,然后右击‘属性’,将这个路径粘贴过来3.然后如下编写代码 (如果遇到OSError问题,解决方法见https://blog.youkuaiyun.com/zhao2chen3/article/details/114400840)...原创 2021-03-05 16:31:36 · 746 阅读 · 1 评论 -
读取文件时路径出错OSError: [Errno 22] Invalid argument:‘l\u202ad:y\Windows \ \Fonts \\msyh.ttc‘
一、读取文件时,路径报错如下二、解决方法:1、在C前面按'delete'键2、直接将此处的地址粘过去原创 2021-03-05 16:17:39 · 826 阅读 · 0 评论 -
数据规整之数据连接pd.merge/数据合并data.join/数据连接pd.concat/数据重塑stack
数据合并(pd.merge) 根据单个或多个键将不同DataFrame的行连接起来 类似数据库的连接操作 pd.merge:(left, right, how='inner',on=None,left_on=None, right_on=None ) left:合并时左边的DataFrame right:合并时右边的DataFrame how:合并的方式,默认'inner', 'outer', 'left', 'right' alll=pd.merge(lef原创 2021-03-04 15:54:35 · 445 阅读 · 1 评论 -
数据清洗总结
数据清洗可能遇到的问题及解决方法遇到的问题 解决的方法 部分缺失:nan 检测缺失数据isnull(),然后删除dropna()或者填充fillna() 数据存在重复值:111,111,111 #检测重复数据 data.duplicated().sum() #删除重复值 data.drop_duplicates(inplace=True) len(data) 部分数据存在异常 删除 数据类型不统一 数据类型转换.原创 2021-03-04 11:02:13 · 1360 阅读 · 2 评论 -
读取read_csv报错UnicodeDecodeError: ‘utf-8’codec can‘t decode byte Oxd0 in position 0
一、python在读取read_csv自己创建的csv文件时,报错UnicodeDecodeError: 'utf-8’codec can't decode byte Oxd0 in position 0: invalid continuation byte二、解决办法 保存csv格式以,分隔三、成功读取原创 2021-02-19 21:41:53 · 2102 阅读 · 0 评论 -
python之NAN和INF值处理
一、NAN和INF值处理首先我们要知道这两个英文单词代表的什么意思:NAN:Not A number,不是一个数字的意思,但是他是属于浮点类型的,所以想要进行数据操作的时候需要注意他的类型。 INF:Infinity,代表的是无穷大的意思,也是属于浮点类型。np.inf表示正无穷大,-np.inf表示负无穷大,一般在出现除数为0的时候为无穷大。比如2/0。二、NAN一些特点:NAN和NAN不相等。比如np.NAN != np.NAN这个条件是成立的。 NAN和任何值做运算,结果都是NAN。原创 2021-02-08 20:52:42 · 17221 阅读 · 1 评论 -
Python保存和读取csv文件
一、保存csv文件1.1np.savetxt()函数讲解np.savetxt(frame, array, fmt='%.18e', delimiter=None)* frame : 文件、字符串或产生器,可以是.gz或.bz2的压缩文件* array : 存入文件的数组* fmt : 写入文件的格式,例如:%d %.2f %.18e* delimiter : 分割字符串,默认是任何空格1.2案例实操import numpy as npscores=np.random.randi原创 2021-02-05 21:21:46 · 10475 阅读 · 2 评论 -
数据分析Python之Anaconda环境搭建
一、什么是数据分析数据分析就是利用适当的统计方法对收集来的大量数据进行分析,提取有用的信息并形成结论。数据分析的目的有三种,现状分析,原因分析、预测分析。二、数据分析的步骤1.明确需求2.数据收集3.数据处理4.数据分析5.数据展现6.撰写报告三、数据分析的方法和工具:数据分析可以通过工具,也可以通过代码来实现。以下分别列出这些常用的: 1.工具: Excel、Tableau、sPSS、百度图说等。 ⒉.编程:Python语言、R语言、数据库的...原创 2021-02-02 21:59:45 · 789 阅读 · 0 评论 -
数据挖掘学习路线和资源
学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。一、目前国内的数据挖掘人员工作领域大致可分为三类。1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨转载 2020-05-26 14:59:34 · 1120 阅读 · 0 评论 -
大数据分析常用的工具
原创 2020-12-30 14:42:29 · 223 阅读 · 0 评论 -
Hadoop组件介绍(下)
Hbase是面向列的数据库,普通的关系型数据库是面向行的存储结构(面向行:向数据库插入一条记录,这个记录就是一行)。Hbase建立的表有三个关键字段,第一个是RowKey:类似于主键,唯一的标识一行,第二个字段是Timestamp时间戳,HBASE在插入新数据时,旧数据不会被覆盖掉,而是新数据加上一个新的时间戳;第三个字段是Column Family即列族,允许一个表下有多个列族,一个列族下有多个列,但一般建议设置一个列族。列族名:列名。好处:例如QQ的业务办理都大量稀疏矩阵,在此基础上,增加...原创 2020-12-30 14:34:17 · 213 阅读 · 0 评论 -
Hadoop组件介绍(中)
ETL(数据仓库技术)编辑ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。磁盘上的一个数据如果想用网络发送出去,传统流程是先要把数据读取到用户进程里面,然后由用户进程写回操作系统上下文中,再由操作系统送到网卡的缓存里,再由网卡的缓存发送出去。如果使用Linux操作系统提供的zero-copy...原创 2020-12-30 11:51:31 · 156 阅读 · 0 评论 -
hadoop组件介绍(上)
MapReduce1.x运行在Hadoop之上,而现在MapReduce是运行在Yarn之上,Yarn主要包含两大组件,ResourceManger主要负责是管理资源,AppApplicationMaster主要是用来向ResourceManger申请资源以及向管理各个节点的子任务的执行。引入Yarn是因为taskTracker,joinTracker既要负责任务调度又要负责资源分配,导致负载非常重,于是把资源管理分给Yarn.Hive是一个离线批处理的SQL查询框架,Hive跑在ma...原创 2020-12-30 11:24:00 · 198 阅读 · 0 评论 -
Hadoop介绍
https://study.163.com/course/courseLearn.htm?courseId=1004873004#/learn/video?lessonId=1050387396&courseId=1004873004原创 2020-12-30 10:31:23 · 105 阅读 · 0 评论 -
大数据分析需要的能力
https://study.163.com/course/courseLearn.htm?courseId=1004873004#/learn/video?lessonId=1050387375&courseId=1004873004原创 2020-12-30 10:13:45 · 652 阅读 · 0 评论