大数据
白墨Blake
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce的排序
排序是数据分析中最常用的操作,没有之一。单字段升序:利用 mapreduce 自身的排序机制,把需要排序的字段作为 key 即可自定义排序规则: 方案一:自定义 key 1. 自定义类实现 WritableComparable 接口,设置泛型为自定义类 2. 声明需要排序的字段,添加 setter && getter 3...原创 2019-09-27 11:03:57 · 836 阅读 · 0 评论 -
MapReduce的优化
Map Join:在 Map 阶段拼接数据,效率高,只适合一个文件小到能够读取到内存中job: 1. 添加小文间到 classpath job.addFileToClassPath() map: 1. 在 setup 读取小文间的内容,保存到内存中的 HashMap 中 以 关联条件为 key,其它字段为 value ...原创 2019-09-27 11:05:12 · 272 阅读 · 0 评论 -
MapReduce保存计算结果到数据库
------------- 创建数据库和表 ---------------mysql -u root -p 登录数据库create database if not existsii; 创建数据库useii; 使用数据库create table if not exists `ii` ( `id` int primary key auto_increment, `word` varc...原创 2019-09-27 11:10:21 · 905 阅读 · 0 评论 -
MapReduce练习IpAction
统计每个 ip 做了多少次 操作统计每个 操作,执行了多少次每个 ip 的每个操作 执行了多少次(包括分区)192.168.10.109 这个 ip 执行了多少次操作每个 ip 的每个操作 执行了多少次,只看次数大于 400 的ip-action数据文件下载:...原创 2019-09-27 11:37:44 · 295 阅读 · 1 评论
分享