
大数据
文章平均质量分 75
「已注销」
新一代码农,为成长而优化!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive映射已存在的HBase表
1、首先要确保/usr/lib/hive/lib下HBase的jar包的版本要和实际环境中HBase的版本一致,需要用/usr/lib/hbase/li/目录下得jar包做软连接,如下: ln -s /usr/lib/hbase/lib/hbase-client-1.0.0-cdh5.4.3.jar /usr/lib/hive/lib/hbase-client.jar ln -s /usr原创 2016-12-14 14:22:58 · 7304 阅读 · 3 评论 -
利用MapReduce对HBase数据进行统计分析
1、HBase作为一种kv数据库,能够很好的面对高吞吐率的在线数据读写服务,尤其是写操作,但是在非rowkey多条件查询、数据分析、统计等场景下,HBase表现的就不是很好了,这些场景下就比较适合来用MapReduce来计算。 2、应用场景 假设有一张HBase表article,它有一列是数据来源source,现在需要统计不同来源的文章数量(数据行数),对于这样的简单统计需求,可以利用MapR原创 2016-10-27 16:52:18 · 8936 阅读 · 0 评论 -
Solr5.5集群安装部署及使用
部署安装: 1. 说明 Solr5内置了Jetty服务,所以不用安装部署到Tomcat了。以下每步操作除了特殊说明外默认在集群中每个节点都需要操作, 操作的用户为root。 2. 修改系统配置 修改hosts文件,加入各主机IP和主机名的映射; # vim /etc/hosts 开放相应端口或者直接关闭防火墙。 # service iptables stop # chkcon原创 2016-08-17 14:33:50 · 1319 阅读 · 1 评论 -
MapReduce开发环境搭建
1. 概述 在使用UDH 过程中,难免需要开发M apReduce 程序,本文介绍如何搭建基于Eclipse的UDH MapReduce的开发环境。 2. 准备 UDH集群: 这个可以是已经搭建好的远端UDH集群,也可以是本地伪集群,本文就以使用远端UDH集群为例进行说明。 客户端开发环境: Eclipse+JDK1.7(JDK1.8) 3. Maven Projec原创 2016-12-14 14:20:52 · 892 阅读 · 0 评论 -
Spark2.1.0集群部署
1、从官网下载2.1.0版本的Spark,spark-2.1.0-bin-hadoop2.7.tgz; 2、拷贝都集群中各个节点,解压到特定目录下; 3、启master服务: # ./sbin/start-master.sh master服务启来之后可以看到master的URL地址(或者在日志中查看) spark://Spark01:7077 4、启所原创 2017-04-01 17:37:42 · 1340 阅读 · 0 评论 -
Storm通过rJava调用R脚本的环境配置
Storm Bolt中通过rJava调用R脚本时,需要配置本地的R环境及修改Storm的环境。 1、本地R配置 系统安装R语言, HDP-UTILS中提供R的安装包,将这些包配置本地yum源 # yum install R 重新配置R的java环境变量 # R CMD javareconf 进入R中安装rJava或者本地安装 # R CMD INSTALL rJa原创 2017-08-18 17:48:05 · 941 阅读 · 0 评论