
MapReduce
MapReduce
吴成伟0122
开源爱好者,聚焦于大语言模型,NLP等领域,欢迎交流
展开
-
Hive优化
Hive优化核心思想把HiveSQL当作MapReduce程序去优化注:以下SQL不会转化为MapReduce来执行select仅查询本表字段where仅对本表字段做条件过滤Explain显示执行计划-EXPLAIN[EXTENDED] query:extended会更加详细的展示查询过程1.Hive抓取策略hive对某些情况的查询不需要使用MapReduce计算抓取策略...原创 2020-03-04 22:49:49 · 178 阅读 · 0 评论 -
MapReduce之Google 网页排序算法PageRank
1.算法分析 pagerank PR值1.2算法实现1.2.1初始值1.2.2迭代计算(收敛)1.2.3算法修正2.数据计算3.Reduce输出该如何设计?3.1解题思路3.1.1MR原语不被破坏3.1.2map:3.1.3reduce:3.1.4开发步骤原创 2020-02-28 10:10:54 · 702 阅读 · 0 评论 -
MapReduce案例之天气分析
需求找出每个月温度最高的两天数据集1949-10-01 14:21:02 34c1949-10-01 19:21:02 38c1949-10-02 14:01:02 36c1950-01-01 11:21:02 32c1950-10-01 12:21:02 37c1951-12-01 12:21:02 23c1950-10-02 12:21:02 41c1950-10-03 1...原创 2020-02-27 23:14:21 · 4397 阅读 · 0 评论 -
MapReduce案例之好友推荐
可能遇到的问题:Cannot create directory /mr/fof/input. Name node is in safe mode.解决方法:退出安全模式bin/hadoop dfsadmin -safemode leaveWARN util.NativeCodeLoader: Unable to load native-hadoop library for your pl...原创 2020-02-27 22:58:35 · 1395 阅读 · 2 评论 -
MapReduce源码分析
mapreduce计算流程:首先将block块切片,每个切片对应一个任务.切片的目的是将block数量和map任务数量解耦.map读取切片数据,默认按行读取,作为键值对交给map方法,其中key是当前读取的行在文件中的字节偏移量,value就是读取的当前行.map开始计算,自定义的逻辑map将输出的kv首先写道环形缓冲区,在写之前计算分区号(默认按照key得hash值对reduce的个...原创 2020-02-26 20:51:16 · 216 阅读 · 0 评论