hadoop
Simmu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop MR链条化处理
解决数据倾斜问题,可以从自定义分区入手,但是如果对于wordcount场景来说,通过分区到多个reduce那么数据就不准确了。这样就需要链条化的MR来处理。也就是多个Mapper来处理,然后再一个Reduce,后面可以再接Mapper来处理数据。现在就以一个过滤敏感词和筛掉出现次数不大于2的word的频度来举例。Mapper1:package com.huawei.mr;import org....原创 2018-03-14 21:25:25 · 318 阅读 · 0 评论 -
Flume使用
r1.sources = source1r1.channels = channel1r1.sinks = sink1r1.sources.source1.type = netcatr1.sources.source1.bind = localhostr1.sources.source1.port = 8888r1.sources.source1.ch原创 2018-04-22 20:41:33 · 339 阅读 · 0 评论 -
Avro讲解
Avro和Protobuf相似,都可以通过编译生成java类,然后在编程中使用这个Java类进行序列化。首先需要编写.avsc的json文件如下{ "type" : "record", "namespace" : "Tutorialspoint", "name" : "Employee", "fields"原创 2018-04-06 15:20:05 · 676 阅读 · 0 评论 -
Protobuf讲解
Hadoop广泛用到Protobuf,而且Protobuf的效率极高,网络间传输数据量小。首先需要新建一个描述对象,在这里我们明明命名为addressbook.proto package tutorial; option java_package = "com.example.tutorial"; option java_outer_classname = "AddressBookProt...原创 2018-04-06 12:16:47 · 410 阅读 · 0 评论 -
Java 编程实现Hive的UDF
package com.huawei.con.UDFTest;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;@Description(name="myadd", value="myadd(int a,int b)====>retu...原创 2018-04-05 15:07:38 · 1160 阅读 · 0 评论 -
Hbase Java API访问问题
Hbase Java API远程访问时,如果debug或者等待时间过久,定位问题发现是在put或者get操作时,一直等待。那么可以试一下将你的hbase集群的主机ip和对应的主机名存到你编程操作的主机的hosts文件中,不要跟我说你设置参数的时候指定的是ip地址或者你添加的hbase-site.xml中写的也是ip地址,没用的,大概是因为还是需要在本地进行集群的主机的主机名解析。以上。...原创 2018-04-11 01:31:48 · 324 阅读 · 0 评论 -
用Hive实现MapReduce的单词统计
一个简单的单词统计在用MapReduce来实现虽然是经典用例,但是现实起来还是比较复杂的。下面介绍如何用hive来实现单词统计。首先准备一个记录单词的word.txt然后在hive中新建一个表并将word.txt的数据导入到该表中然后运行如下的命令select tt.wordtxt,count(*) cc from ( select explode(split(line,' ')) as word...原创 2018-04-01 15:22:44 · 1506 阅读 · 0 评论 -
hadoop JDBC (一)
import org.junit.Test;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.Statement;public class JdbcTest { @Test public void testPreparedStatement() throws ...原创 2018-03-18 22:42:32 · 1122 阅读 · 0 评论 -
hadoop 优秀讲解备注
shuffer讲解:http://langyu.iteye.com/blog/992916MR讲解:http://www.cnblogs.com/wuyudong/p/mapreduce-principle.html原创 2018-02-26 00:34:52 · 193 阅读 · 0 评论 -
hadoop MR wordcount代码
其中包括本地在IntelliJ IDEA调试的wordcount和在集群中运行的wordcount,具体原理研究后续。重写mapperpackage com.huawei.hdfs;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop...原创 2018-02-23 00:32:04 · 585 阅读 · 0 评论 -
hadoop 压缩解压
先放代码package com.huawei.hdfs.compress;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.io.compress.*;import org.apache.hadoop.util.Reflectio...原创 2018-03-04 19:10:33 · 1415 阅读 · 0 评论 -
hadoop实用小工具
集群查询:#!/bin/bashparams=$@tmp_ip="192.168.60."i=31for (( i=31 ; i <= 35 ; i = $i + 1 )) ; do echo ============= ${tmp_ip}$i $params ============= ssh ${tmp_ip}$i "$params"done#集群的ip地...原创 2018-03-17 14:16:12 · 222 阅读 · 0 评论 -
hadoop与MySQL结合
一般的hadoop的mapreduce操作都是对文本文件或者在hdfs上的数据,如何在数据库中读取数据进行操作。首先需要自定义一个DBWritable类。package com.huawei.hdfs.com.huawei.mysql;import org.apache.hadoop.io.Writable;import org.apache.hadoop.mapreduce.lib.db....原创 2018-03-16 22:35:18 · 7445 阅读 · 0 评论 -
hadoop学习问题汇总
1.No valid local directories in property: mapreduce.cluster.local.dir问题在本地测试MR任务的时候,出现了该问题,解决办法:添加设置路径:其中该路径为放入测试的wordcount的文本文件的路径,不用具体指到哪个文件。conf.set("mapreduce.cluster.local.dir","/Users/simmucheng...原创 2018-02-22 12:16:53 · 1379 阅读 · 0 评论 -
大数据路线
转载 2018-09-28 22:46:58 · 211 阅读 · 0 评论
分享