- 博客(5)
- 收藏
- 关注
原创 MapReduce 切片(split)
分片大小 对于HDFS中存储的一个文件,要进行Map处理前,需要将它切分成多个块,才能分配给不同的MapTask去执行。 分片的数量等于启动的MapTask的数量。默认情况下,分片的大小就是HDFS的blockSize。 Map阶段的对数据文件的切片,使用如下判断逻辑: protected long computeSplitSize(long blockSize, long minSize, ...
2018-10-22 15:46:24
780
原创 Spark wordcount程序处理过程
数据 I love Beijing I love China Beijing is the capital of China 执行 在spark shell 中 sc.textFile("hdfs://192.168.198.111:9000/input.txt"). flatMap(_.split(" ")) .map((_,1)).reduceByKey(_+_).saveAsTe...
2018-08-08 17:12:41
412
原创 Python3 urllib爬虫
目标 爬世界最美的海景风光图片 网页地址:http://www.27270.com/word/fengjingsheying/2016/156946.html 利用的是Python3 中urllib这个库。 抓取分析 首页地址 http://www.27270.com/word/fengjingsheying/2016/156946.html 点击下一页的时候地址变成 http:...
2018-08-02 16:32:03
539
原创 HDFS知识点
HDFS的设计,优缺点 HDFS命令行操作 HDFS JVAA Api HDFS Web Console HDFS 回收站 HDFS 快照 HDFS 用户权限管理 HDFS 配额管理 HDFS 安全模式 HDFS 底层原理 HDFS的设计 HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件...
2018-07-31 10:34:24
935
原创 搭建本地测试的Hadoop环境
搭建本地测试的Hadoop环境 需要的环境 笔记本 VMware 12 RedHat Linux 7.4 JDK 1.8 64位 Hadoop 2.7.3 Putty 远程登录工具 WinScp VMware 12 安装RedHat Linux 7.4 注意点 设置网络类型,选择“使用仅主机模式网络” 配置安装选项 配置网络和主机名 对应的填写的IP...
2018-07-30 15:24:36
876
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅