大数据相关案例
烟雨彷徨~~Xun
简单的实例带你从入门到放弃
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scala递归的方法快速解析Json数据
scala递归的方法快速解析Json数据思路:既然可以得到keyset() ,为什么不根据keyset去进行遍历,拿到所有的数据?主要难点在于我们不知道我们拿到的key去解析成一个对象还是去解析成一个字符串,我在这里用到了模式匹配,以下提供代码以供参考(Array类型的我没有处理,如果要处理根据业务去进行相应的处理):import java.utilimport com.alibaba.fastjson.{JSON, JSONObject}import org.apache.spark.rdd原创 2021-09-29 17:24:49 · 509 阅读 · 0 评论 -
hive案例-- 求连续N天登录天数
数据:A 2020-01-01A 2020-01-02A 2020-01-04A 2020-01-05A 2020-01-06A 2020-01-07A 2020-01-09A 2020-01-10B 2020-01-01B 2020-01-02B 2020-01-04B 2020-01-05B 2020-01-06B 2020-01-07B 2020-01-09B 2020-01-10建表:create table time(`id` string,`data`原创 2021-03-27 14:20:14 · 317 阅读 · 0 评论 -
HBase博客案例
一、 需求分析1、微博内容的浏览,数据库表设计2、用户社交体现:关注用户,取关用户3、拉取关注的人的微博内容二、 所需要的表三、代码pom.xml <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version>原创 2020-12-31 17:14:02 · 531 阅读 · 0 评论 -
hadoop案例(三)--WritableComparable排序案例实操
对案例二话费汇总案例汇总后的结果进行处理,按照总花费升序排序输出。分析:把程序分两步走,也就是要写两个mapreduce程序,第一个用于统计每个用户的总话费(已经在案例2.4实现),第二个mapreduce程序把结果排序后输出即可。要想利用框架进行排序,要做两步:1:把要排序的字段置于mapper的keyout,因为我们的总花费位于bean中,因此,要让bean位于mapper的keyout。2:让bean实现WritableComparable接口,重写compareTo方法,通过该方法告知框架原创 2020-12-19 11:07:01 · 420 阅读 · 1 评论 -
hadoop案例(二)--统计每一个手机号全年的总话费
统计每一个手机号全年的总话费(注意,虚拟网包月费属于赠送费,不计入在内)。数据准备:流程:(1)读取一行数据,切分字段;(2)抽取手机号、套餐基本费、语音通信费、短信彩信费、流量费;(3)以手机号为key,bean对象为value输出,即context.write(手机号,bean)。Reduce阶段:(1)累加套餐基本费、语音通信费、短信彩信费、流量费得到总花费;(2)实现自定义的bean来封装流量信息,并将bean作为map输出的key来传输;(3) MR程序在处理数据的过程中会对数原创 2020-12-19 10:47:35 · 494 阅读 · 1 评论 -
Hadoop案例(一)--在给定的文本文件中统计输出每一个单词出现的总次数
要统计的文件原型:处理后的文件:按照mapreduce编程规范,分别编写Mapper,Reducer,Driver(1)编写mapper类import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOEx原创 2020-12-19 10:15:09 · 1093 阅读 · 2 评论
分享