- 博客(15)
- 收藏
- 关注
原创 R实现分词和词云绘制
实现分词用的是library("rJava")library("Rwordseg")resultnatureWhether to recognise the nature of the words.绘制词云用的是library(wordcloud2)塞进wordcloud2中的数据data是:词云 频数然后调用wordcloud2(data)
2018-06-08 11:23:12
983
原创 K-means算法
Kmeans算法是聚类算法中最简单的一种算法,可以说学习聚类算法的第一种算法就是kmeans算法什么是聚类?什么是分类?他们之间有什么区别?聚类是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,是类别内的数据比较相似,类别之间的数据相似度比较大分类指对已有标注的数据集进行划分。聚类是无监督学习,分类是有监督学习选择初始化的k个类别中心a1,a2,a3....ak;对...
2018-03-04 21:58:53
256
原创 梯度下降法、牛顿法、拟牛顿法
梯度下降法梯度下降法的优化思想是用当前负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为“最速下降法”。最速下降法越接近目标值,步长越小,前进越慢。批量梯度下降法得到的是全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果训练集的数据很大,那么可想而知这种方法的迭代速度会相当的慢。于是出现了随机梯度下降法随机梯度下降通过每个样本来迭代更新一次,如果样本量很大的情况(例如...
2018-03-04 19:54:22
425
原创 Apriori算法整理
首先两个基本概念支持度:A事件和B事件同时发生的概率置信度:在A发生的事件中同时发生B的概率,P(B|A)=P(AB)/P(A)。例子:[支持度:3%,置信度:40%]支持度3%:意味着3%顾客同时购买牛奶和面包置信度40%:意味着购买牛奶的顾客40%也购买面包智慧商场模型:目标是找到经常一起购买的物品集合,从而优化商场货物的摆放,提高销售额。计算一个集合(商品所有可能组合)的支持度指多少比例的交...
2018-03-04 15:19:05
820
原创 基尼系数与熵
在分类问题中,假设有K个类,样本点属于第k类的概率是Pk,则概率分布的基尼系数定义为:基尼指数从公式看就是被分对的概率乘以被分错的概率,然后整个的和就是基尼系数。例如 一个随机事件X ,P(X=0) = 0.5 ,P(X=1)=0.5 那么基尼不纯度就为 P(X=0)*(1 - P(X=0)) + P(X=1)*(1 - P(X=1)) = 0.5 一个随机事件Y ,
2018-01-18 22:28:00
4510
转载 XGBoost原理
说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章 地址,gbdt无论在理论推导还是在应用场景实践都是相当完美的,但有一个问题:第n颗树训练时,需要用到第n-1颗树的(近似)残差。从这个角度来看,gbdt比较难以实现分布式(ps:虽然难,依然是可以的,换个角度思考就行),而xgboost从下面这个角度着手 注:红色箭头指向的l即为损失函数;红色方框为正则项,包括L1、L2;红色圆圈
2018-01-18 20:35:27
201
原创 梯度下降
什么是梯度下降法?梯度: 是表示模型或者函数在某个点的位置法向量,所以它的方向表示下降最快或者上升最快损失函数 说明一下这个式子的含义: J表示给定的函数预测值和实际值Y的均方差,它反映的是预测值与实际值的一个偏离的程度. 我们是否可以用梯度下降算法来快速的无限逼近,使得J达到最小,当J达到最小的时候,那么我们这个时候的,不就是无
2018-01-17 17:14:22
254
原创 安装recharts2
recharts2官方参考资料点击打开链接安装方法简单if (!require(devtools)) library(devtools)install_github("madlogos/recharts")
2018-01-17 12:17:53
564
原创 R绘制雷达图
首先需要包fmsblibrary(fsmb)需要函数radarchart()有这样的数据Usageradarchart(df, axistype, seg, pty, pcol, plty, plwd, pdensity, pangle, pfcol, cglty, cglwd, cglcol, axislabcol, title, maxmin, na.itp,
2018-01-16 20:22:31
5711
原创 用R绘制箱线图
ggplot2是一个具有强大绘图功能的包,只识别数据框绘制箱线图首先数据如果是宽型数据,要先转成长型数据用到的包有reshape2,而主要用到的函数就是melt和cast两个函数,通常用melt函数将宽型数据转成长型数据就可以melt函数怎么用?melt(data=yourdata,id="分类变量")绘制箱线图记录一下可视化作业之绘制箱线图数据:df_like
2018-01-16 14:14:32
12890
原创 泛化和过拟合
泛化能力泛化能力用来表征学习模型对于未知数据的预测能力。很显然,我们没有办法对所有的数据进行预测然后判断来计算一个模型的模型的泛华能力,所以在实际应用当中,我们一般还是用的测试集中的数据来近似泛化能力。过拟合当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概
2018-01-16 09:58:24
3349
原创 R语言中删除重复的数据行
duplicatedDescription(描述) duplicated() determines which elements of a vector or data frame are duplicates of elements with smaller subscripts, and returns a logical vector indicating wh
2018-01-12 14:33:17
54626
原创 安装recharts(outdate)
recharts基于Echarts2,outdate!So……开始使用Echarts3.在R的命令行窗口输入安装recharts的命令,如下: require(devtools)install_github('ramnathv/htmlwidgets')install_github('rstudio/htmltools')install_github('taiyun/rec
2018-01-12 14:09:13
1085
转载 朴素贝叶斯
模型概述朴素贝叶斯方法,是指朴素:特征条件独立贝叶斯:基于贝叶斯定理根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是 p(y|x)=p(x|y)p(y)p(x)。。。。。。(1)在这里,x是一个特征向量,将设x维度为M。因为朴素的假设,即特征条件独立,根据全概率公式展开,公式(1)可以表达为 p(y=ck|x)=∏Mi=
2018-01-09 17:41:14
177
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人