
大数据
crystal__behappy
这个作者很懒,什么都没留下…
展开
-
Apriori算法和FP-growth算法比较
关联分析可以用于回答“哪些商品经常被同时购买?”之类的问题关联分析是在大规模数据集中寻找有趣关系的任务,这些关系可以有两种形式:频繁项集:是经常出现在一块儿的物品的集合关联规则:按时两种物品之间可能存在很强的关系。支持度是针对项集来说的,因此可以定义一个最小支持度,而只保留满足最小值尺度的项集。可信度或者是置信度是针对关联规则来定义的,我们的规则对其中多少的记录都适用Apriori算法是发现频繁项...原创 2016-11-28 11:11:38 · 22398 阅读 · 1 评论 -
CentOS7+Rsync3.09 实现两个主机之间的备份
Rsync是在两台虚拟机之间实现文件复制,CentOS7本身自带了Rsync工具,可以直接使用,备份的示例图如下:备份的执行步骤如下:在源主机(172.17.169.246)上 (1)用root用户执行:vi /etc/rsyncd.conf打开文件后,文件中默认的内容如下:输入以下内容替换这个文件中的内容:uid = rootgid= rootusechroot = nomaxconnec...原创 2017-09-12 15:54:14 · 1170 阅读 · 0 评论 -
Spark集群运行junit测试类
首先:我们的项目是多模块构建的,所以打包的时候会遇到各种模块之间依赖的问题,我们项目用到的是junit测试类,没有用main方法做测试,所以在打包运行的时候可能跟main函数运行方式有很大区别。1. 测试类需要继承TestCase类,如需要运行ESReadTest,则需要将其继承TestCase: 2. 将需要...原创 2018-03-17 18:27:30 · 1335 阅读 · 0 评论 -
项目生成scaladoc和javadoc方式
一、生成scaladoc方式目前网上关于scala类自动生成scaladoc的方式特别少,笔者在项目中也遇到这个问题,解决方式如下:(1)在需要导出项目的pom.xml文件中添加:<plugin> <groupId>net.alchim31.maven</groupId> ...原创 2018-03-26 15:49:50 · 1874 阅读 · 0 评论 -
HBase添加协处理器导致集群异常解决方式
在做HBase二级索引实验时,使用了HBase的协处理器,在插入数据的时候,由于协处理器抛出了异常,导致HRegionServer挂了,重启之后,使用jps查看,马上又消失了,查询HMaster和HRegionServer的日志如下:java.lang.RuntimeException: HRegionServer Aborted at org.apache.hadoop.hbas...原创 2018-05-01 17:18:25 · 1483 阅读 · 0 评论