Hadoop
文章平均质量分 81
满吉971
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce
复习序列化 – Writable序列化/反序列化机制:在MapReduce中,一个对象要想进行传输,那么这个对象对应的类必须实现Hadoop提供的序列化接口 - Writable - 只需要将按序写出控制分区 – Partitioner分区 - Partitioner:默认是按照键的哈希码进行分区,但是实际使用过程中需要手动指定分区情况,就需要写一个类继承Partitioner来指...原创 2018-12-13 13:58:18 · 205 阅读 · 0 评论 -
flume的Sink(目的地)
一、Logger Sink记录指定级别(比如INFO,DEBUG,ERROR等)的日志,通常用于调试要求,在 --conf参数指定的目录下有log4j的配置文件根据设计,logger sink将体内容限制为16字节,从而避免屏幕充斥着过多的内容。如果想要查看调试的完整内容,那么你应该使用其他的sink,也许可以使用file_roll sink,它会将日志写到本地文件系统中。可配置项说明...原创 2018-12-18 13:43:53 · 1198 阅读 · 0 评论 -
Flume的安装和配置
实现步骤:1.安装jdk,1.6版本以上2.上传flume的安装包3.解压安装4.在conf目录下,创建一个配置文件,比如:template.conf(名字可以不固定,后缀也可以不固定)5.配置agent组件相关配置:#配置Agent a1 的组件a1.sources=r1a1.channels=c1 (可以配置多个,以空格隔开,名字自己定)a1.sinks=s1 (可以配...原创 2018-12-18 13:04:09 · 252 阅读 · 0 评论 -
flume基本概念
概述:Flume最早是Cloudera提供的日志收集系统,后贡献给Apache。所以目前是Apache下的项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。Flume是一个高可用的,高可靠的 鲁棒性(robust 健壮性),分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据(source);同时,Flume提供对数据进行简单处理,...原创 2018-12-17 21:10:31 · 552 阅读 · 0 评论 -
MapReduce其他功能
序列化 – Writable序列化/反序列化机制:当自定义了一个类之后,如果想要产生的对象在hadoop中进行传输,那么需要这个类实现Hadoop提供的Writable的接口只需要将按序写出并进行序列化/反序列化Writable案例1:统计每一个人产生的总流量文件:flow.txt13877779999 bj zs 214513766668888 sh ls 1028137666688...原创 2018-12-17 20:54:08 · 428 阅读 · 0 评论 -
Hadoop练习
将这两个文件中的内容进行合并整合,输出格式:1001 date=20170710 name=apple num=2 price=5999 sum=599921002 date=20170710 name=xiaomi num=100 price=2999 sum=2999100文件1:order.txt1001 20170710 4 21002 20170710 3 1001003 2...原创 2018-12-15 15:46:06 · 355 阅读 · 0 评论 -
Hadoop完全分布式配置
关闭防火墙临时关闭 : service iptables stop永久关闭 : shkconfig iptables off(需要重启)修改主机名在Hadoop集群中,主机名中不允许出现 _ 以及-,如果出现会导致找不到这台主机vim /etc/sysconfig/network编辑 : HOSTNAME=hadoop01 (可以随便起名,但是得记住)(让他生效...原创 2018-12-14 13:39:32 · 275 阅读 · 0 评论
分享