
Hadoop
文章平均质量分 74
Hadoop技术学习
辰阳星宇
这个作者很懒,什么都没留下…
展开
-
【hadoop学习项目】10. 使用多级MR找出两两用户之间的共同好友
0. 项目结构数据内容刘灵薇 孙初丹,孙听兰,李秋翠,李绿春王访琴 刘忆翠,钱语芙,钱平蝶赵雅蕊 刘灵薇,刘雅蕊王含蕾 钱语芙,李书蕾,李忆翠钱雅蕊 李秋春,李初丹,孙听蓉王绿春 李含烟,刘谷丝,孙秋春,钱雅蕊,赵语芙,钱南松,钱绿春,王听兰刘含玉 赵绿春,王幻珊,刘语芙,赵怜菡,孙绿春,赵从蓉,赵南松,刘幻灵,王忆翠钱凌瑶 孙诗云,王乐瑶,钱海露,孙从蓉李含蕾 李从蓉,李从蓉,刘怜菡,钱灵雁钱幻灵 赵书蕾,赵秋翠,刘幻珊,刘幻灵,刘雪青,钱夏彤,赵含蕾刘夏彤 刘忆翠,钱诗云,王原创 2022-02-16 17:33:41 · 1240 阅读 · 1 评论 -
【hadoop学习项目】9. 存在依赖关系的多个MapReduce处理
0. 项目结构数据内容1 apple 1520 1002 apple 3421 2543 apple 4500 3641 huawei 3700 2542 huawei 2700 3543 huawei 5700 5541 xiaomi 3521 2542 xiaomi 3123 3543 xiaomi 3412 5541. companyDoubleMr.javapackage hadoop_test.mutil_mr_10.company;import org.apac原创 2022-02-10 22:25:57 · 1019 阅读 · 0 评论 -
【hadoop学习项目】7. 实现自定义局部排序和全局排序
0. 项目结构domain中存储的是继承WritableComparable的数据对象;sort中实现的是局部排序;totalsort中实现的是全局排序。1. domainMovie2. sortSortDriverSortMapper3. totalsortTotalSortDriverTotalSortMapperTotalSortPartitionerTotalSortReducer...原创 2022-02-10 21:22:30 · 957 阅读 · 0 评论 -
【hadoop学习项目】8. 多文件中的表合并处理
0. 项目结构数据内容chinese.txt1 lisi 892 lisi 733 lisi 671 zhangyang 492 zhangyang 833 zhangyang 271 lixiao 772 lixiao 663 lixiao 89english.txt1 lisi 752 lisi 943 lisi 1001 zhangyang 612 zhangyang 593 zhangyang 981 lixiao 252 lixiao 473 lix原创 2022-02-09 21:02:05 · 683 阅读 · 0 评论 -
【hadoop学习项目】6. 使用Partition自定义分区处理数据
0. 项目结构训练数据phone address name consum13877779999 bj zs 214513766668888 sh ls 102813766668888 sh ls 998713877779999 bj zs 567813544445555 sz ww 1057713877779999 sh zs 214513766668888 sh ls 998713877779999 bj zs 218413766668888 sh ls 152413766668原创 2022-02-08 23:07:09 · 662 阅读 · 0 评论 -
【hadoop学习项目】5. 自定义序列化数据对象Bean进行处理
0. 项目结构训练数据phone address name consum13877779999 bj zs 214513766668888 sh ls 102813766668888 sh ls 998713877779999 bj zs 567813544445555 sz ww 1057713877779999 sh zs 214513766668888 sh ls 998713877779999 bj zs 218413766668888 sh ls 152413766668原创 2022-02-08 21:47:57 · 373 阅读 · 0 评论 -
【Hadoop学习项目】4. 求最大最小值
0. 项目结构1. MaxDriverpackage hadoop_test.min_max_demo_04;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;im原创 2022-02-03 12:59:27 · 1282 阅读 · 0 评论 -
【Hadoop学习项目】3. 求平均值 + 使用combine
0. 项目结构1. AvgDriver.javapackage hadoop_test.avg_demo_03;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.DoubleWritable;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Tex原创 2022-02-03 11:49:23 · 1409 阅读 · 0 评论 -
【Hadoop学习项目】2. 数据去重
0. 项目结构数据处理过程图1. DupDriverpackage hadoop_test.data_duplicate_demo_02;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop原创 2022-02-01 20:08:44 · 1904 阅读 · 3 评论 -
【Hadoop学习项目】1. WordCount + Combine 详解每行代码
项目结构1. WordCountDriverpackage hadoop_test.word_count_demo_01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.原创 2022-01-30 16:26:30 · 2285 阅读 · 0 评论 -
hadoop2.6.5 Mapper类、Reducer类源码解析
Mapper类//// Source code recreated from a .class file by IntelliJ IDEA// (powered by Fernflower decompiler)//package org.apache.hadoop.mapreduce;import java.io.IOException;import org.apache.hadoop.classification.InterfaceAudience.Public;import org原创 2022-01-30 12:46:08 · 924 阅读 · 0 评论 -
hadoop中Writable类和WritableComparable类、序列化和反序列化
Writable类和WritableComparable类 序列化和反序列化Writable :对Java基本类型提供封装(short和char除外),使其可以实现序列化和反序列。所有的封装包包含get() 和 set() 方法用于读取或者设置封装的值。在Hadoop中定义一个结构化对象都要实现,使得该结构化对象可以序列化为字节流,字节流也可以反序列化为结构化对象。WritableComparable:WriteCompareable接口是Wirtable接口的二次封装,提供了compareTo(T原创 2022-01-29 20:15:48 · 1998 阅读 · 0 评论 -
hadoop 2.x MapReduce详解
传统方式1、传统的海量数据处理传统Hash,最基本的划分方法如何将大数据、流量均分到N台服务器?找到合理的key,hash(key)尽量分布均匀: hash(key)mod N == 0 分到 第0台, hash(key)mod N == i 分到 第i台,hash(key)mod N == N-1 分到 第N-1台随机划分Hash应用:流量分发问题:当映射的目标机器挂掉,映射存储将出现问题。一致性Hash:支持动态增长,更高级的划分方法 (逻辑上连接成环)Hash应用原创 2022-01-28 10:18:34 · 387 阅读 · 0 评论 -
hadoop 2.x HDFS系统架构详解
HDFS系统架构分布式文件系统(1)HDFS的三个组件(三个进程)NameNode:管理文件系统命名空间(Namespace):维护者文件系统树及树中的所有文件和目录存储元数据(Metadata)fsimage文件存放元信息文件名、目录名和它们之间的层级关系文件目录的所有者及其权限每个文件块的名和每个文件中有哪些块edits文件保存操作记录系统运行期间,datanode写操作会造成内存的变化,datanode会告诉namenode哪些文件进行的变动,namenode会根据原创 2022-01-28 10:16:04 · 4659 阅读 · 0 评论 -
Hadoop启动和使用JAVA过程中的问题集
1. 权限问题Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=ASUS, access=WRITE, inode="/output":hadoop:supergroup:drwxr-xr-x方法一:在WordCountDriver.java上加入System.setProperty("HADOOP_U原创 2022-01-26 16:05:54 · 784 阅读 · 0 评论 -
Centos7上搭建hadoop2.6.5详细图文教程
版本VM 15 ProCentos 7Hadoop 2.6.5FinalShell 3.9.2.2步骤1. 安装虚拟机、Centos,配置网络环境创建虚拟机;配置网络;配置操作系统;进入GUI界面配置;配置静态网络并验证网络连通性;使用FinalShell连接Centos详细步骤:VMWare上搭建Centos7并配置网络用FinalShell连接(详细图文教程)2. 创建三台虚拟机并相互连通(1)克隆虚拟机先关闭虚拟机鼠标右键单击Master虚拟机,点击管理里的克原创 2022-01-08 21:22:17 · 5565 阅读 · 4 评论 -
3、调用hadoop API实现HDFS常用Java实例和I/O流操作实例
HDFS常用的java API调用实例1、文件上传2、HDFS文件下载3、HDFS文件夹删除4、HDFS文件名改名5、HDFS文件详情查看6、HDFS文件和文件夹判断7、HDFS的I/O流操作7.1 HDFS文件上传7.2 HDFS文件下载7.3 定位文件读取1、文件上传@Testpublic void testCopyFromLocalFile() throws IOException, ...原创 2020-03-06 21:31:45 · 558 阅读 · 0 评论 -
2、hadoop之HDFS的常用命令操作
1、基本语法bin/hadoop fs 具体命令或bin/hdfs dfs 具体命令(dfs是fs的实现类)二者区别hadoop fs:可以作用于除hdfs外的其他文件系统,作用范围更广。通用的文件系统命令,针对任何系统,比如本地文件、HDFS文件、HFTP文件、S3文件系统等。(曾经还有hadoop dfs:专门针对hdfs分布式文件系统,已经不推荐使用)hdfs dfs:...原创 2020-03-03 11:08:38 · 1447 阅读 · 0 评论 -
1、hadoop3.1.3 分布式集群搭建的详细教程
1、创建虚拟机扩展知识:VMware虚拟机的网络模式 — 桥接模式、仅主机模式、NAT模式的特点和配置2、用户登录过程中遇到的问题扩展知识:xxx is not in the sudoers file.This incident will be reported.的解决方法Ubuntu16.04 只能以游客身份登录问题每天学一个linux命令——chown将指定文件的拥有者改为指定的...原创 2020-02-29 16:31:56 · 4966 阅读 · 1 评论 -
VMware点击从磁盘中删除虚拟机,显示无法正常删除权限不够
问题:VMware点击从磁盘中删除虚拟机,显示无法正常删除权限不够解决方法:打开ubuntu虚拟机时显示没有访问权限该怎么办?删除.lck文件后,再点击从磁盘上删除时,可正常删除。...原创 2020-02-27 18:08:59 · 18629 阅读 · 7 评论