Hadoop
文章平均质量分 60
OOC_ZC
OOC
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
eclipse安装hadoop插件,HDFS中没有输出的问题。
安装完插件后,运行代码,只显示3个WARN,而hdfs里没有输出文件,但在命令行下运行代码时正常并且有输出的。纠结了好长时间,一度换了别的版本的eclipse。后来发现是默认用户对hdfs的权限不够,应该是我安装时用root用户安装所致。后修改hdfs权限为 777 问题解决!语句大致为 hadoop fs -chmod 777 /原创 2015-11-15 20:05:46 · 1031 阅读 · 0 评论 -
Hadoop Streaming
.原创 2016-01-27 17:54:40 · 640 阅读 · 0 评论 -
Hadoop集群配置
集群的拓扑结构配置: 需要实现DNSToSwitchMapping 接口。 topology.node.switch.mapping.imp1 属性实现了上述接口。 大多数只需使用ScriptBasedMapping 脚本即可。 脚本存放路径由属性topology.script.file.name控制。 脚本样例Hadoop 1.x配置原创 2016-02-07 01:43:22 · 952 阅读 · 0 评论 -
HDFS 基础
HDFS简介。HDFS是一种文件系统,专为MapReduce这类框架下的大规模分布式数据处理而设计。你可以把一个100TB的大数据集在HDFS中存储为单个文件,而普通的文件系统无力实现这点。HDFS让你不用考虑数据分布等细节,让你感觉就像在处理单个文件一样。HDFS不支持Unix文件命令,也不支持fopen( ) , fread( )标准文件读写。Hadoop提供了一套操作文件的she原创 2016-01-08 16:20:54 · 516 阅读 · 0 评论 -
Java API读写HDFS。
因为Hadoop更适合处理连续的流文件,则把众多小文件合并后放入HDFS,更适合Hadoop。则我们编写一个程序实现这个功能。普通的流程为把本地文件复制到HDFS后,用Hadoop来处理,这里要实现在本地向HDFS复制的过程中实现合并。这样省去了本地硬盘空间的消耗。Hadoop API 在org.apache.hadoop.fs 包内,Hadoop的文件API是通用的,也可用于其他原创 2016-02-17 20:33:58 · 733 阅读 · 0 评论 -
三台电脑搭建Hadoop集群
在寝室搭建Hadoop集群,三个室友都没有Linux,有两个装好了双系统,一个引导有问题放弃了。因为已经搭建完,这里记录一些坑点。 三个主机通过交换机相连,分别设置独立IP,无需设置网关。 先分别都能ping通,再互相都可SSH免密码登录。 配置集群配置(各个结点的配置文件需相同),这里我的主机是master,其他俩主机为slave。注意这里主节点及其他各个节点用户名需相同。我们这里原创 2018-01-13 16:04:24 · 7375 阅读 · 6 评论 -
Windows下虚拟机搭建Hadoop集群
使用VMware虚拟出两个Ubuntu 14.04系统。ifconfig eth0 192.168.1.2 netmask 255.255.255.0 // 设置网络IP和子网掩码,重新开机会消失route add default gw 192.168.1.1 // 设置网关。重启也会消失。service ufw stop原创 2016-02-17 01:17:21 · 1691 阅读 · 0 评论 -
eclipse安装Hadoop插件,没有调试信息的问题。
虽然解决了HDFS的结果输出问题(见我之前的Blog),但Console里还是没有调试信息输出。如下图。问题解决方法:在Hadoop安装目录 hadoop-2.6.0/etc/hadoop 下的log4j.properties文件,导入eclipse中Hadoop项目的src文件夹下。然后调试信息就正确输出了!!原创 2015-12-09 19:41:15 · 448 阅读 · 0 评论 -
Hadoop Combiner类 简单测试
public static class MyReduce extends Reducer{ private static IntWritable num = new IntWritable(); @Override public void reduce(Text key,Iterable val,Context context )throws IOException原创 2015-12-17 16:43:47 · 501 阅读 · 0 评论 -
Hadoop 实现Writable接口
MapReduce 里的键值对必须实现可序列化,以支持在网络中传输。值必须实现 Writable接口,而键因为在Reduce阶段有排序任务,所以必须实现WritableComparable 接口。现在想自定义数据类型,则自己写类来实现WC接口即可。Writable接口有两个函数write是序列化函数,即向其他人传送类时使用,readFields则在接受此类时调用来反序列化原创 2016-01-10 22:30:54 · 1854 阅读 · 0 评论 -
Partitioner 的简单应用
当有多个Reducer时就需要控制哪些Mapper输出的内容进入哪些Reducer。制定这个规则的就是Partitioner。这个过程成为shuffling。现在要实现这个结构中,把相同FromNode的城市对放入一个Reducer。Hadoop实战这本书是旧的API写的,用的mapre包内的Partitioner,这里用新API进行了重写。import org.apache.原创 2016-01-12 00:31:28 · 434 阅读 · 0 评论 -
HDFS的 InputFormat自定义
比如一个100TB的文件装入HDFS集群。并行处理切分文件就非常重要。因为每台机器都保存着大文件的一部分,则从文件中间开始处理文件就很重要。Hadoop的文件系统提供了FSDataInputStream类,而未使用DataInputStream类,主要因为FSD实现了文件的随机读写功能。这样每个分片都由它所驻留的机器进行处理,就自动实现了并行。一般Hadoop默认将每一行视为一个记原创 2016-01-12 01:08:55 · 892 阅读 · 0 评论 -
Nutch1.2的安装使用。
Nutch是网页爬取的工具,这里还将安装Tomcat以支持显示搜索的动态页面。(Tomcat是动态页面应用服务器)nutch工作流程1、将起始URL集合注入到Nutch系统之中。2、生成片段文件,其中包括了将要抓取的URL地址。3、根据URL地址在互联网上抓取相应的内容。4、解析所抓取的网页,并分析其中的文本和数据。5、根据新抓取的网页中的URL集合原创 2016-01-02 00:12:50 · 607 阅读 · 1 评论 -
Hive,Hbase,HDFS等之间的关系
Hive:Hive不支持更改数据的操作,Hive基于数据仓库,提供静态数据的动态查询。其使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。HDFS:HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的。Hive与Hbase的数据一般都存储在HDFS上。Hadoop原创 2016-01-01 00:54:44 · 37511 阅读 · 5 评论 -
Hadoop 编程初步认识
Mapper 类有四个参数,分别是输入键、输入值、输出键和输出值的类型。Hadoop 提供一套“可优化网络序列化传输”的基本类型,在org.apache.hadoop.io 包里。LongWritable 相当于Java Long 类型。Text 相当于Java String类型。Intwritable 相当于 Java Integer类型。新API放在org.apache原创 2015-12-08 22:45:36 · 635 阅读 · 0 评论 -
Hive 初识
Hive 是一个构建在Hadoop上的数据仓库框架。可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。它把SQL查询转换为一系列MapReduce作业。元数据存储在 metastore 数据库中,数据库文件在 metastore_db 目录中。hive -f script // 运行指定文件中的命令。hive -e ‘SELECT * FROM xxx’...原创 2016-02-24 16:50:15 · 472 阅读 · 0 评论
分享