
hadoop
文章平均质量分 55
CHSN
这个作者很懒,什么都没留下…
展开
-
hadoop的分布式缓存DistributedCache
分布式缓存就是:Hadoop为MapReduce框架提供的一种分布式缓存机制,它会将需要缓存的文件分发到各个执行任务的子节点的机器中,各个节点可以自行读取本地文件系统上的数据进行处理。不同文件类型的添加方法:job.addArchiveToClassPath(archive); // 缓存jar包到task运行节点的classpath中 job.addFileToClassPath(file); // 缓存普通文件到task运行节点的classpath中 job.addCacheArchive转载 2022-04-18 17:13:31 · 609 阅读 · 3 评论 -
MapReduce自定义bean对象实现序列化接口(Writable)
实现bean对象序列化步骤如下7步。(1)必须实现Writable接口(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造public FlowBean() { super();}(3)重写序列化方法@Overridepublic void write(DataOutput out) throws IOException { out.writeLong(upFlow); out.writeLong(downFlow); out原创 2022-04-18 16:26:39 · 2465 阅读 · 0 评论 -
MapReduce实现对相同字母组成的单词汇总
首先数据格式为:相同字母组成的单词汇总,根据MapReduce的特点,map端的输出会在shuffle阶段进行按key分区输出到reduce端,利用这个特性,我们可以分析试图使相同字母组成的单词拥有同一个key值,正好相同字母就是可以作为相同值、只需要我们进行字母排序,因为存在大小写字母我们可以统一大小写再对字母排序来实现相同key。map端输出数据格式:[ act , act ] [ act , cat ] [ act , CAT ]reduce端收到数据格式:[ act , (act,c原创 2022-04-09 12:25:13 · 1073 阅读 · 0 评论 -
HADOOP学习笔记——HDFS
HADOOP学习笔记——HDFS什么是hdfshdfs的优点hdfs的缺点hdfs的组成框架hdfs的特性hdfs的读流程hdfs的写流程网络拓扑-节点距离机架感知(副本节点的选择)什么是hdfs首先我们要知道hdfs是分布式文件系统,它是分布式的由多个服务器共同联合起来实现的,适合存储海量数据,适合一次写入、多次读取的场景。hdfs的优点高容错性:副本机制使它可以提高容错率,多个副本的存在可以避免数据的丢失。处理大数据:多个服务器组成使它可以存储大量的数据,处理大量文件。对于搭建的集群的服原创 2022-03-18 15:40:42 · 1941 阅读 · 0 评论 -
HDFS的API操作
创建maven工程,并导入相关依赖(可以加上日志)<dependencies> <!--导入hadoop依赖--> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.1.3</version&原创 2022-03-18 11:56:14 · 1765 阅读 · 0 评论 -
hadoop3.x伪分布式搭建,在启动HDFS时出现Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).
启动HDFS时出现错误:Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 翻译:许可被拒绝。解决方案: 创建秘钥ssh-keygen -t rsacat id_rsa.pub >> authorized_keys原创 2022-03-09 10:18:47 · 2216 阅读 · 0 评论