
数据分析
文章平均质量分 73
sereasuesue
生命不息 奋斗不止
逆风的方向更适合飞翔
展开
-
数据可视化 之seaborn 热力图参数详解(很多例子)
def heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt=".2g", annot_kws=None, linewidths=0, linecolor="white", cbar=True, cbar_kws=None, cbar_ax=None, square=False, xti.原创 2021-11-16 15:46:03 · 4773 阅读 · 1 评论 -
python有向图,无向图绘制
https://www.jianshu.com/p/52bb142314ebR语言画网络图https://blog.youkuaiyun.com/fly_hawk/article/details/78513257python绘制无向图,输入数据import pandas as pdimport networkx as nximport matplotlib.pyplot as pltedges = pd.DataFrame()edges['sources'] = [0,1,2,3,4,4,6,7原创 2021-04-17 20:20:04 · 6813 阅读 · 5 评论 -
数据分析及数据分析的工作流程
1. 什么是数据分析 数据分析是根据业务问题,对数据进行收集,清洗,处理和建模的过程,用于识别有助于业务的信息,获取关键业务结论并辅助决策界定业务问题(以宜家为例)WHAT通过顾客购买产品所产生的营业收入和利润数据,随时了解企业的经营状况问题:我们这个月的收入和利润如何?每个顾客在我店里大概都会花多少钱?家具类产品里面是沙发卖的好还是桌子好?WHY通过数据挖掘,发现与 17年相比,18年的用户花费在高价产品(2000+)的比例少了很多问...原创 2021-04-14 12:24:25 · 1453 阅读 · 1 评论 -
数据可视化之 Matplotlib
可参考https://mofanpy.com/tutorials/data-manipulation/plt/基本用法# set new sticksnew_ticks = np.linspace(-1, 2, 5)print(new_ticks)plt.xticks(new_ticks)# set tick labelsplt.yticks([-2, -1.8, -1, 1.22, 3], [r'$really\ bad$', r'$bad$', r'$n原创 2021-02-05 14:05:18 · 379 阅读 · 0 评论 -
高维数据可视化之t-SNE算法
https://blog.youkuaiyun.com/hustqb/article/details/78144384t-sne数学原理https://zhuanlan.zhihu.com/p/57937096什么是t-SNE?t-SNE的主要用途是可视化和探索高维数据。 它由Laurens van der Maatens和Geoffrey Hinton在JMLR第九卷(2008年)中开发并出版。 t-SNE的主要目标是将多维数据集转换为低维数据集。 相对于其他的降维算法,对于数据可视化而言t-SNE的效果原创 2021-01-30 10:49:48 · 3571 阅读 · 1 评论 -
混凝土的强度预测(R语言 超详细完整代码介绍)神经网络+线性回归
任务背景在工程领域中,对建筑材料的性能有精确的估计至关重要。这些估计是必需的,以便制定安全准则来管理用于楼宇、桥梁和道路建设中的材料。估计混泥土的强度是一个特别有趣的挑战。尽管混泥土几乎要用于每一个建设项目,但由于它各种成分的使用以复杂的方式相互作用,所以它的性能变化很大。因此,很难精确地预测它最终产品的强度。数据分析与预测目标预测目标给定一份材料成分清单,要求:(1)挑选合适...原创 2020-05-07 16:49:14 · 9212 阅读 · 0 评论 -
朴素贝叶斯 手机垃圾信息过滤 机器学习与R语言
##### Chapter 4: Classification using Naive Bayes --------------------## Example: Filtering spam SMS messages ----## Step 2: Exploring and preparing the data ---- # read the sms data into the sm...转载 2019-05-30 11:14:56 · 486 阅读 · 0 评论 -
主成分分析之法国经济分析数据详解
#### 用数据框的形式输入数据conomy<-data.frame( x1=c(149.3, 161.2, 171.5, 175.5, 180.8, 190.7, 202.1, 212.4, 226.1, 231.9, 239.0), x2=c(4.2, 4.1, 3.1, 3.1, 1.1, 2.2, 2.1, 5.6, 5.0, 5.1, 0.7)...原创 2019-05-17 09:01:31 · 723 阅读 · 0 评论 -
数据降维之主成分分析
信息过度复杂是多变量数据最大的挑战之一。主成分分析和探索性因子分析是两种用来探索和简化多变量复 杂关系的常用方法。主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变 量称为主成分。探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或 隐藏的结构来解释已观测到的、显式的变量间的关系。PCA与...原创 2019-05-17 08:48:22 · 4749 阅读 · 0 评论 -
统计建模与R软件-第六章 回归分析
6.1为了估计山上积雪融化后对下游灌溉的影响,在山上建立一个观测站,测量最大积雪深度X与当年灌溉面积Y,测得连续10年的数据如表6.17所示表6.17 10年中最大积雪深度与当年灌溉面积的数据序号 X(米) Y(公顷)1 5.1 19072 3.5 12873 7.1 27004 6.2 23735 8.8 32606 7.8 30007 4.5 19478 5.6 2...转载 2019-05-09 23:13:33 · 12189 阅读 · 2 评论 -
各种假设检验实例整理 R语言
http://www.cnblogs.com/ywliao/archive/2017/04/17/6724334.html原创 2019-09-02 15:47:59 · 782 阅读 · 0 评论 -
机器学习与R语言 多元线性回归insurance.R:保险费
insurance <- read.csv("insurance.csv", stringsAsFactors = TRUE)str(insurance)#既然因变量是charges,我们就来看一下它是如何分布的summary(insurance$charges)hist(insurance$charges)table(insurance$region)cor(insura...原创 2019-04-28 12:00:39 · 3091 阅读 · 0 评论 -
机器学习与R语言之 探索和理解数据 使用数据usedcars
2.3 探索和理解数据2.3.1 数据的结构read.scv()str()数据导入到R后,就要开始对数据做一个基本的检查;数据的特征和案例;理解数据的独特,以便后面让模型匹配具体的学习问题;## data exploration example using used car datausedcars <- read.csv("usedcars.csv", string...翻译 2019-04-28 11:32:54 · 1295 阅读 · 0 评论 -
机器学习简介
第一章 机器学习简介机器学习,发明计算机算法,把数据转化为智能行为。(核心循环的三者:现有数据;统计方法;计算能力)数据挖掘,从大型数据库中产生新的洞察,侧重寻找有价值的信息;机器学习侧重于执行一个已知的任务。1.2 学习理论定义:如果机器能够获取经验并且能利用它们,在以后的类似经验中能够提高它的表现,这种行为就是机器的学习。学习过程:数据输入,观察(抽象并提取信...转载 2019-04-28 11:19:08 · 153 阅读 · 0 评论 -
R语言设置工作目录
用“getwd()”代码查看当前文件工作路径,此处显示的工作路径在C盘用“setwd()”代码重新设置需要的工作路径,如图中显示,设置工作路径为D盘中的R数据库,具体格式是:“E:/Rlianxi“,注意:文字必须用引号或者打开工具栏...原创 2019-04-28 10:34:34 · 12689 阅读 · 0 评论 -
两正态总体参数的检验
方差的比较在R中,函数t.test()提供了T检验和相应的区间估计的功能t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"),mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)•其中X,Y是由数据构成...原创 2019-08-30 16:55:46 · 1281 阅读 · 0 评论 -
假设检验基础 R语言
假设检验实例 某车间用一台包装机包装葡萄糖, 包得的袋装糖重是一个随机变量, 它服从正态分布.当机器正常时, 其均值为0.5千克, 标准差为0.015千克.某日开工后为检验包装机是否正常, 随机地抽取它所包装的糖9袋, 称得净重为(千克):0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512, 问机器是否正常? ...原创 2019-04-19 09:32:35 · 1061 阅读 · 0 评论 -
R逻辑回归 iris数据
3.29https://www.cnblogs.com/nxld/p/6170690.html很详细在实际应用中,Logistic模型主要有三大用途:1)寻找危险因素,找到某些影响因变量的"坏因素",一般可以通过优势比发现危险因素;2)用于预测,可以预测某种情况发生的概率或可能性大小;3)用于判别,判断某个新样本所属的类别。Logistic模型实际上是一种回归模型,但这种模...原创 2019-03-29 21:28:52 · 11683 阅读 · 2 评论 -
r练习 循环
使用三种循环,输出向量1:100中所有数据。for(i in 1:100)print(i)i=1while (i<=100) {print(i)i =i+1}i=1repeat{if(i<=100)print(i)i =i+1if(i>100)break}使用while循环求1+2...原创 2019-03-16 10:17:24 · 7921 阅读 · 0 评论 -
R语言之循环控制语句
R编程语言提供以下种类的循环来处理循环需求。 单击以下链接以检查其详细信息。R语言的for循环支持任何向量(注意,是向量),无论向量是任何模式Sr.No. 循环类型和描述 1 repeat循环 多次执行一系列语句,并简化管理循环变量的代码。 2 while循环 在给定条件为真时,重复语句或语句组。 它在执行循环体之前测试条件。 3...原创 2019-03-11 17:29:10 · 2128 阅读 · 0 评论 -
R语言变量的处理(创建新变量 变量重新赋值
创建新变量:方法一:#在mydata数据库中创建新变量sum,sum是mydata数据库中x1和x2之和mydata$sum <- mydata$x1 + mydata$x2#在mydata数据库中创建新变量mean,sum是mydata数据库中x1和x2平均mydata$mean <- (mydata$x1 + mydata$x2)/2eg:> neww...转载 2019-03-11 16:58:26 · 26384 阅读 · 0 评论 -
数据预处理之数据清洗案例
https://mp.weixin.qq.com/s/jNoXHO4qU34gcha4zOGRLAhttps://mp.weixin.qq.com/s/jgMIKy8Dz6KYpsKkyHDdGg原创 2020-11-21 14:54:02 · 3375 阅读 · 0 评论 -
pandas数据预处理 缺失值
缺失值的分类按照数据缺失机制可分为: 可忽略的缺失 完全随机缺失(missing completely at random, MCAR),所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关 随机缺失(missing at random, MAR),假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的。 不可忽略的缺失(non-ignorable missing ,NIM) 或非随机缺失(not missin..原创 2020-11-21 14:50:12 · 1497 阅读 · 0 评论