
R
文章平均质量分 93
数据分析,机器学习
WandaWang0822
喜欢瞎倒腾、不靠谱的数据小白
展开
-
R语言之绘制直方图
R语言中的hist()函数可以绘制直方图hist(总阅读量) hist(总阅读量,main="",col="dark red",xlab="总阅读量(千)") 设置颜色和横坐标名称。hist(总阅读量,main="",col="dark red",xlab="总阅读量(千)",breaks = 8)加入参数breaks,设置分原创 2018-08-03 11:34:50 · 58965 阅读 · 1 评论 -
如何用R生成一个网络关系图
R中提供了各种强大的packages,可以通过加载包来实现network的功能。需要准备一个eges和nodes的数据文件,代表线长和节点。然后调用network的函数即可。library(visNetwork)library(openxlsx)KOL_CN_EDGE <- read.xlsx("edges.xlsx")KOL_CN_NODE <- read.xlsx("no...原创 2019-06-18 10:39:19 · 6693 阅读 · 3 评论 -
visNetwork包 R 学习笔记
visNetwork包 R 学习笔记visNetwork 介绍Font-Awesome---让nodes更加美丽在visNetwork 图中使用IoniconsvisNetwork 介绍visNetwork 是R语言中用于制作网络图的包,本文用于记录使用案例和教程。Font-Awesome—让nodes更加美丽1.描述:添加Font-Awesome是为了让图形更美丽更专业。要注意使用Shi...原创 2019-06-13 10:36:51 · 3083 阅读 · 0 评论 -
回归方法(四)KNN回归
分类与回归的区别:分类是判断对应类别而回归的输出是一个具体值。KNN基本算法思路:一个样本在特征空间中k个最相似(最邻近)的样本大多数属于同一个类别。(物以类聚)距离选取:euclidean,manhattan,minkonwskiK值可以基于方根误差(RMSE)确定,启发式的找到一个最优近邻数K。R中的实用包(FNN)实现案例KNN回归在R中可以使用FNN::knn.re...原创 2018-12-11 16:59:34 · 17946 阅读 · 13 评论 -
RFM模型---以航空公司客户价值分析为例(草稿)
在客户管理(CRM)的分析模式中,RFM模型是应用最广泛的模型,有三个指标:最近消费时间间隔(Recency)、消费频率(Frequency)、消费金额(Monetary) 本案例是对RFM的优化,将客户的入会时长L、消费时间间隔R、消费频率F、飞行里程M和折扣系数的平均值C五个指标作为航空公司识别客户价值指标,记为LRFMC模型。LRMC模型解释: 步骤:从航空公司...原创 2018-10-11 17:53:40 · 4031 阅读 · 0 评论 -
回归方法(三)logistic regression(数据集Titanic)
1logistic 分布:设X是连续随机变量,X服从logistic分布是指X具有以下分布函数和密度函数: 分布函数F(x)属于逻辑斯蒂函数,图形是一条S曲线,该曲线以点(,1/2)为中心对称,曲线在中心点附近增长速度较快,在两端增长速度较慢,形状参数的值越小,曲线在中心附近增长越快。二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(...原创 2018-08-30 11:36:44 · 4424 阅读 · 0 评论 -
回归方法(二):多项式回归告诉你身高和体重的关系
这是一个吸引眼球的题目,但是正是一篇正儿八经的干货。昨天学习了线性回归,今天依旧是用lm函数,不过期望实现的是多项式回归。对于一元多项式,若,多项式回归就变成了多元线性回归。 同样的对于多元多次多项式,若,同样的也可以用多元线性回归的方法来做。(多项式回归应尽少创建新的变量,尽量使用低次多项式,否则会增加模型复杂度,造成过拟合或欠拟合)用R实现多项式回...原创 2018-08-16 17:01:36 · 7764 阅读 · 1 评论 -
回归方法(一):用线性回归探究生育率
1线性回归中的因变量通常为连续型数据,线性回归的基本假设:(1)自变量和因变量之间存在某种线性关系(2)不能存在任何异常点(3)没有异方差性(4)样本观测值相互独立(5)误差项服从均值为0方差为常数的正态分布(6)不存在多重共线性2参数估计:为估计回归系数,用最小二乘法最小化误差项平方和,即由此可得,回归系数的估计值为:3线性回归在R中的实现:R的基础包中lm函数很...原创 2018-08-15 16:54:28 · 1892 阅读 · 0 评论 -
为了买口红,我想成为数据分析师。呵,女人!
女性对口红的上瘾只会迟到,不会缺席。奥黛丽赫本说:不涂口红的女人没有未来。 作为一个突然意识到自己是个女孩子的人,买口红是找不清方向的,所以不懈努力的去研究着各个美妆博主的账号。机缘巧合之下,得到了一份关于淘宝口红销售信息的数据资料,于是用R做了一个简单的数据统计。想看看那些所谓的“爆款”、“大热门”、“要断货”的口红究竟是不是真的,毕竟群众的眼光是贼亮的。话不多说,简单描述一下数据,正如...原创 2018-08-09 15:10:39 · 1929 阅读 · 8 评论 -
美国参议院里的合作网络
这是《基于R语言自动收集》这本书的第十二章 ,因为网页已经改变源代码也发生了改变。所以重新整理了代码分享。 美国国会的法案存放在一个相对容易访问的数据库里,地址是:https://www.congress.gov。我们的网络抓取练习的第一步是对数据存放的方式进行检查。为了追踪抓取程序。我们可以(1) 打开https://www.congress.gov。(2) 转到“...原创 2018-07-05 14:28:21 · 613 阅读 · 1 评论 -
R语言对豆瓣电影top250进行分析
我们这学期开设了数据采集课程,完全建立在R软件基础之上。在搜索相关资料过程中,发现关于R爬取的东西特别少,把提取部分分享到博客中希望可以帮助有缘人。library(stringr)library(RCurl)library(XML)在这里找到豆瓣电影所对应的链接https://movie.douban.com/top250?&filter=, 打开这个链接我们可...原创 2018-07-05 14:15:50 · 5058 阅读 · 2 评论 -
R语言实现数据按照行排序
背景假设,如果每一用户收集到一行信息,表示不同维度的严重程度,对每一个用户的严重程度进行排序。#人为创建一个数据矩阵data <-c(1,4,2,6,8,5,3,7,9,11,10,12)M<-matrix(data,nrow=3,ncol=4)M [,1] [,2] [,3] [,4][1,] 1 6 3 11[2,] 4 ...原创 2019-09-04 15:11:10 · 15935 阅读 · 0 评论