自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

千里码的博客

专注于大数据解决方案

  • 博客(9)
  • 收藏
  • 关注

原创 Sparksql处理json日志[要求sparksql统计json日志条数存入mysql数据库]

问题:要求sparksql统计json日志条数存入mysql数据库。 环境:spark1.6.2,hadoop2.7.3,mariadb10.1.4,centos7 数据处理环境:spark-shell  交互环境 数据量:100以内的测试json数据集。 存储位置:HDFS文件系统。 最终目标:统计json日志条数并存入maridb 问题解决步骤: [数据怎么获取这里滤过]

2017-01-13 21:47:13 2000

原创 R语言 分层抽样---分层随机抽样(SRS) strata的使用(一)

R语言 分层抽样---分层随机抽样(SRS) strata的使用

2015-10-17 00:47:04 29855 2

原创 【实战】使用Java结合Sendmail邮件服务器+Quartz开源框架定时发邮件

【实战】废话不多说,直接教你如何搭建以及使用,具体细节需要你自己细细品味。 环境:Centos7,window10 64bit 第一步: 搭建Sendmail邮件服务器。【不能在本地linux搭建,因为必须有外网,可以在阿里云上面搭建】 1、安装sendmail(centos6.3下默认yum源,默认sendmail系统自带) yum install sendmail* -y

2017-02-15 15:43:51 2998 1

原创 Linux使用sendmail邮件监控[运维监控]

1、安装sendmail(centos6.3下默认yum源,默认sendmail系统自带) yum install sendmail* -y 问题1:会遇到发邮件和启动很慢或者My unqualified host name (iZ23ole851hZ) unknown; sleeping for retry 解决办法:vim /etc/hosts11.11.11.11 lo

2017-02-15 13:36:34 747

原创 使用spark-submit提交jar包到spark standalone集群(续)

继续上篇文章利用Intellij Idea在windows搭建spark 开发环境(含打jar包过程)(一) 以及 Sparksql处理json日志[要求sparksql统计json日志条数存入mysql数据库]                          本章将把打好的jar提交到集群运行。[如何打jar 包请看上文第一篇] 环境:centos7,windows10,intelli

2017-01-16 21:53:28 7200

原创 利用Intellij Idea在windows搭建spark 开发环境(含打jar包过程)(一)

本文的目的:利用Intellij Idea在windows搭建spark 开发环境 环境:windows 10, intellij idea2016.1.1, spark 1.6.2(HDP),hadoop2.7.3(HDP),scala 2.10.5(编译环境), sbt管理依赖 背景:spark单点运算不能解决大数据的问题的时候,就需要使用spark-submit 调用jar包的方式分布式

2017-01-16 15:20:53 4850

原创 [sql统计] sql聚合count分母为单个值问题的解决方案

问题背景: 数据库:mysql 单个表:test_price。 需求:需要统计表A中price的每个值的个数,比如1的个数,2的个数,并得出每个price的所占总数的百分比。 问题思考:需要用到sql聚合. 比如: count来计算price的个数。 sum来每个price出现的总数。 需要用到join,但是需要考虑是用cross join,还是inner join, left j

2017-01-13 20:26:30 1136

原创 R语言 分层抽样 strata (三),每层抽取80%

 ##本例子使用的是R自带的数据集iris irisData=iris  ##重命名列 names(irisData)=c("萼长","萼宽","瓣长","瓣宽","种类")  ##处理后的数据格式如下所示:   >head(irisData, 3)       萼长 萼宽 瓣长 瓣宽 种类  1    5.1      3.5      1.4      0.2     

2015-10-18 17:38:37 13373 2

转载 [置顶]R语言 分层抽样---分层随机抽样(SRS)(二 )

############################################################ 自定义分层抽样函数: ############################################################ stratified                        replace = FALSE, bothSets =

2015-10-18 15:53:13 6597 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除