
大数据分析
IT界的小小小学生
写文章的目标不仅是解决问题,更是帮助阅读的人或企业实现商业价值。秉持 “从解决问题出发、在实践中学习,最终创造价值”的信念,予人玫瑰手留余香!
展开
-
因子分析与主成分分析之间爱恨离愁。FA与FCA
主成分分析和因子分析无论从算法上还是应用上都有着比较相似之处,本文结合以往资料以及自己的理解总结了以下十大不同之处,适合初学者学习之用。1.原理不同主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始原创 2016-12-27 10:44:10 · 1109 阅读 · 0 评论 -
R语言函数的含义与用法,实现过程解读
R的源起R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业 软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类原创 2016-12-27 10:46:18 · 9737 阅读 · 0 评论 -
SQL中语句:UNION all与UNION 的用法与区别
UNION去重且排序UNION ALL不去重不排序 UNION用的比较多union all是直接连接,取到得是所有值,记录可能有重复 union 是取唯一值,记录没有重复 1、UNION 的语法如下: [SQL 语句 1] UNION [SQL 语句 2]2、UNION ALL 的语法如下: [SQL 语句 1] UNION ALL原创 2016-12-27 10:46:26 · 611 阅读 · 0 评论 -
linux下编辑VI窗口插入与编辑命令
前言在嵌入式linux开发中,进行需要修改一下配置文件之类的,必须使用vi,因此,熟悉 vi 的一些基本操作,有助于提高工作效率。一,模式vi编辑器有3种模式:命令模式、输入模式、末行模式。掌握这三种模式十分重要: 命令模式:vi启动后默认进入的是命令模式,从这个模式使用命令可以切换到另外两种模式,同时无论在任何模式下只要按一下[Esc]键都可以返回命令模式。 输入模式:在命令模式中输入字幕“原创 2016-12-27 10:46:43 · 2678 阅读 · 0 评论 -
linux调用sh文件的基本操作
最近做了一点和Linux有关的工作,刚刚学习,做一点和shell脚本有关的笔记。1、创建test.sh文件touch test.sh2、编辑sh文件vi test.sh3、保存退出敲击esc, 然后输入 :wq ,回车退出 4、添加可执行权限,当然默认就是可执行的。chmod +x test.sh5、运行文件(1)./test.sh(2)sh test.原创 2016-12-27 10:46:46 · 820 阅读 · 0 评论 -
R语言高级绘图命令(标题-颜色等)
plot(x) 以x的元素值为纵坐标、以序号为横坐标绘图plot(x,y) x(在x-轴上)与y(在y-轴上)的二元作图sunflowerplot(x,y)同上,但是以相似坐标的点作为花朵,其花瓣数目为点的个数pie(x)饼图boxplot(x)盒形图(“box-and-whiskers”)stripchart(x)把x的值画在一条线段上原创 2016-12-27 10:46:52 · 16674 阅读 · 0 评论 -
大数据与Hadoop/Linux/hive的关系
原创 2016-12-27 10:46:55 · 1948 阅读 · 0 评论 -
归一化与标准化详解
归一化(Normalization)1.把数据变为(0,1)之间的小数。主要是为了方便数据处理,因为将数据映射到0~1范围之内,可以使处理过程更加便捷、快速。2.把有量纲表达式变换为无量纲表达式,成为纯量。经过归一化处理的数据,处于同一数量级,可以消除指标之间的量纲和量纲单位的影响,提高不同数据指标之间的可比性。主要算法:1.线性转换,即min-max归一化(常用方法)y=(x-min)/(max原创 2016-12-27 10:50:00 · 2202 阅读 · 0 评论 -
机器学习之随机森林(R)randomFordom算法案例
1.随机森林原理介绍 随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵原创 2017-01-17 10:27:15 · 15726 阅读 · 3 评论 -
基于R语言利用QQ群进行数据挖掘案例整理
利用QQ群进行数据挖掘案例,数据源来源于2016年12-2017年大致一个月的QQ群基本数据,通过对聊天内容的分析,了解QQ聊天群资料了解时间,人群以及关键词,并构建相应图表、云图等,下图为本人所在提取的QQ群: 以下是R代码部分:file.data<-scan("C:/Users/admin/Desktop/数据挖掘机器学习R-hive.txt",what="",sep=...原创 2017-01-19 14:13:49 · 5012 阅读 · 0 评论 -
2016 CCF大数据与计算智能大赛 开源资料整理
2016 CCF大数据与计算智能大赛 开源资料整理2016 CCF 大数据与计算智能大赛已经落下帷幕,11个赛题由众多大神包揽奖项,其中有些还在赛后开源了比赛资料,现将目前已知的资料整理如下,供各位同学一起参考学习。若有意公开自己的比赛资料或者发现整理的列表中有遗漏的,可以联系我(金陵书生, netivs@qq.com )补充修订。有问题也可在群里讨论。部分比赛PPT已经放到大数据比赛交流群,转载 2016-12-27 10:49:24 · 6802 阅读 · 1 评论 -
数据挖掘之字段与图解思路整理
说明:CCU:实时在线曲线PCU:每日峰值ACU:平均同时在线人数DAU:每日活跃账号数(每日总登)MAU:月活跃账号数RU:首登玩家ARPPU:付费用户平均盈利(此处注意和ARPU的区别)APA:付费用户PUR:付费渗透率CAC:每日充值(我自己的充值缩写)基本上,作为运营人员以上为每天接触的数据指标数量。下面详细的来看每个指标怎么来分析。CCU:原创 2017-01-23 11:29:13 · 1378 阅读 · 0 评论 -
数据预处理—剔除异常值,平滑处理,标准化(归一化)
**2018博客之星评选,如果喜欢我的文章,请投我一票,编号:No.009** [支持连接](https://blog.youkuaiyun.com/HHTNAN/article/details/85330758) ,万分感谢!!!数据预处理的主要任务如下:(1)数据清理:填写空缺值,平滑噪声数据,识别,删除孤立点,解决不一致性(2)数据集成:集成多个数据库,数据立方体,文件(3)数据变换:...原创 2017-03-06 10:13:32 · 25692 阅读 · 0 评论 -
R语言读CSV、txt文件方式以及read.table read.csv 和readr(大数据读取包)
首先准备测试数据*(mtcars)分别为CSV. TXT**2018博客之星评选,如果喜欢我的文章,请投我一票,编号:No.009** [支持连接](https://blog.youkuaiyun.com/HHTNAN/article/details/85330758) ,万分感谢!!! R语言数据分析案例:直通车read.table 默认形式读取CSV(×)与TXT(效果理想)...原创 2017-01-24 12:23:26 · 83778 阅读 · 4 评论 -
hadoop-R语言-安装NLP自然语言分析包
引言: R语言是一种非常强大的分析与展示的统计科学家工具,其也提供了若干关于自然语言的分析处理工具,本文讲展示如何在Linux进行安置。1. 自然语言处理(NLP) 对于英语体系,基于空格可以直接进行分词,而中文则不同,需要进行分词,然后进行后续处理。NLP是natural language processing的缩写,专指此类的工作。 自然语言处理包: Snowball, RWeka原创 2016-12-27 10:47:06 · 888 阅读 · 0 评论 -
union(并),setdiff(差),intersect(交)R语言含义
union(并)求两个向量的并集 集合可以是任何数值类型union(x=1:3, y=2:5) [1] 1 2 3 4 5union(x=c("abc", "12"), y=c("bcd", "efg")) [1] "abc" "12""bcd" "efg"setdiff(差)求向量x与向量y中不同的元素(只取x中不同的元素) setdiff(x, y)setdiff(x=1:4,原创 2016-12-27 10:46:09 · 7946 阅读 · 0 评论 -
CRT /Linux基本设置的语言颜色问题设置
远程连接unix系统的工具,以前用的最多的就是SSH了,不过SSH有一个硬伤,不能设置客户端编码,有时候看中文很容易乱码,而且不能分组记录多服务器地址。putty虽然能设置客户端编码,但是我最不习惯的就是他的左键->直接复制,右键->直接黏贴,这跟windows下的操作习惯完全不同,ssh也不会这样,这样快捷简单倒是简单,但是对于我目前的工作是非常危险的,因为现在经常维护数据库,一不小心右键粘帖了原创 2016-12-27 10:46:06 · 1568 阅读 · 0 评论 -
聚类方法的区别解读:各种聚类分析呀呀呀
k 均值聚类法 快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定聚类的类别数量系统聚类法则是系统自己根据数据之间的距离来自动列出类别,所以通过系统聚类法 得出一个树状图,至于聚类的类别 需要自己根据树状图以及经验来确定 (同上)在聚类分析中,我们常用的聚类方法有快速聚类(迭代聚类)和层次聚类。其中层次聚类容易受到极值的影响,并且计算复杂速度慢不适合大样本聚类;快速聚类虽然速度快原创 2016-12-27 10:44:13 · 5854 阅读 · 0 评论 -
数据查询语言DQL,数据操纵语言DML,数据定义语言DDL,数据控制语言DCL。
SQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML,数据定义语言DDL,数据控制语言DCL。1. 数据查询语言DQL数据查询语言DQL基本结构是由SELECT子句,FROM子句,WHERE子句组成的查询块:SELECT FROM WHERE 2 .数据操纵语言DML数据操纵语言DML主要有三种形式:1) 插入:INSERT2) 更新:UPDATE3) 删除:DELETE3. 数据定义语原创 2016-12-27 10:44:16 · 1451 阅读 · 0 评论 -
模型评估过程中:命中率/覆盖率
模型评估是模型中关键部分,一方面通过模型评估可以对模型进行进一步的优化,使模型性能够更准确;另一方面,通过模型评估可以看模型实际运行效果,对采取的维系策略的有效性进行评价。模型评估主要通过对低稳定度用户的流失率进行验证,观察低稳定度用户在后续月份的流失情况。模型准确性评估。评估模型本身的准确性,通过两个重要指标。 1)命中率。描述模型预测准确性性指标。命中率:=预测用户中流失用户数原创 2016-12-27 10:44:26 · 9077 阅读 · 0 评论 -
ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)/ ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)
ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法 今天在使用多字段去重时,由于某些字段有多种可能性,只需根据部分字段进行去重,在网上看到了rownumber() over(partition by col1 order by col2)去重的方法,很不错,在此记录分享下:row_number() OVER ( PARTITIO原创 2016-12-27 10:44:29 · 455 阅读 · 0 评论 -
度中心性的原理及案例
http://blog.sina.com.cn/s/blog_72ef7bea0102v748.html原创 2016-12-27 10:44:35 · 2491 阅读 · 0 评论 -
SNA中:中心度及中心势诠释(不完整代码)
SNA社会关系网络分析中,关键的就是通过一些指标的衡量来评价网络结构稳定性、集中趋势等。主要有中心度以及中心势两大类指标。 以下的代码都是igraph包中的。————————————————————————————————————————————————————中心度指标的对比指标名称概念比较实际应用点度中心度在某原创 2016-12-27 10:44:46 · 6749 阅读 · 0 评论 -
Rosenblatt感知器的结构 与基本原理
Rosenblatt感知器详解在学习了机器学习十大算法之后,我决定将目光投向神经网络,从而攀登深度学习的高峰。这条险路的第一个拦路虎就是Rosenblatt感知器。为什么这么说呢?不仅是因为它开拓性的贡献——感知器是第一个从算法上完整描述的神经网络,而Rosenblatt感知器是感知器作为监督学习的第一个模型。还因为学习Rosenblatt感知器能够帮助了解神经元的结构、信息流的传原创 2016-12-27 10:45:02 · 2003 阅读 · 0 评论 -
AR模型收敛:特征根在单位圆内
1、AR模型,本质上说就是n阶差分方程,差分方程的解是数列,当数列收敛时,时间序列就是平稳的,模型就是稳定的。通过了解差分方程解的结构我们可以知道,当且仅当特征方程的根在单位圆内时,差分方程有收敛解。2、一个可逆的MA模型是AR模型的一个解,要了解这点可以尝试理解如下推导过程(为了简洁我去掉了常数项):y_t = a1*y_t-1 + e_t, |a1|->(1-a1L)*y_t = e_t->y原创 2016-12-27 10:45:11 · 10919 阅读 · 2 评论 -
R完成--决策树分类 一个使用rpart完成决策树分类的例子如下:
传统的ID3和C4.5一般用于分类问题,其中ID3使用信息增益进行特征选择,即递归的选择分类能力最强的特征对数据进行分割,C4.5唯一不同的是使用信息增益比进行特征选择。特征A对训练数据D的信息增益g(D, A) = 集合D的经验熵H(D) - 特征A给定情况下D的经验条件熵H(D|A)特征A对训练数据D的信息增益比r(D, A) = g(D, A) / H(D)而CART(分类与回归原创 2016-12-27 10:45:28 · 3287 阅读 · 0 评论 -
使用R完成K近邻分类
使用数据集iris, 验证Petal.Length, Petal.Width两个特征的分类能力。代码如下:with(iris, plot(Petal.Length, Petal.Width, col=as.integer(Species)))text(2.2, 0.3, "setosa")text(3.0, 1.3, "versicolor")text(6.5, 1.7, "virgini原创 2016-12-27 10:45:33 · 704 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法
logistic回归及其MLE当我们考虑解释变量为分类变量如考虑一个企业是否会被并购,一个企业是否会上市,你的能否考上研究生这些问题时,考虑线性概率模型P(yi =1)= β0 + β1xi 显然是不合适的,它至少有两个致命的缺陷:1、概率估计值可能超过1,使得模型失去了意义;(要解决这个问题并不麻烦,我们将预测超过1的部分记为1,低于0的部分记为0,就可以解决。这个解决办法就是计原创 2016-12-27 10:45:36 · 2031 阅读 · 0 评论 -
使用R完成逻辑斯蒂回归分类 直接上代码,如下:
data_sample m <- dim(data_sample)[1] #获取数据集记录条数val <- sample(m, size =round(m/3), replace = FALSE, prob= rep(1/m, m)) #抽样,选取三分之二的数据作为训练集。 iris.learn <- data_sample[-val,] #选取训练集 iris.valid原创 2016-12-27 10:45:39 · 2676 阅读 · 0 评论 -
sql之left join、right join、inner join的区别
left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回两个表中联结字段相等的行举例如下: --------------------------------------------表A记录如下:aID aNum1 a200501原创 2016-12-27 10:45:42 · 549 阅读 · 0 评论 -
算法岗位做数据挖掘大多都是抽特征跑跑现成模型”
这句话,说起来很简单,看起来也很容易,但真的是这样吗?我列举几点,扩展一下上面这句话:1、label符合业务场景吗?label准确吗?能够校准吗?放在哪张表里,怎么正确关联特征?2、特征合理吗?预处理流程正确吗?有效吗?特征会泄露标签信息吗?特征时间维度一致吗?3、用什么模型?模型出来的结果有什么业务含义?该怎么定义合适的指标来判断模型的性能?4、根据模型结果,怎么回调特征,参数?还有很多。造轮子原创 2016-12-27 10:45:58 · 645 阅读 · 0 评论