大数据
ctp6666999
hadoop、spark、kafka、flume、hive
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive之行列转换
同行不同列的连接 concat(连接一,'连接符',连接二,'连接符','连接三'.......) 可以把一行中多个字段相连接并生成一个新字段 concat_ws('连接符',连接一,连接二.........) 作用于concat()类似,但更加方便同列不同行的连接 collect_set(字段一,字段二) 把一列中的某些字段放在一个字段中行转列 explode(字段) 把一个map或array类型的字段炸开,拆开成多行 lateral view explode(字段名)原创 2020-12-28 14:51:11 · 237 阅读 · 0 评论 -
MapReduce输出到Mysql,使用DBOutputFormat实现
项目场景:在写MapReduce程序的时候,不时也会遇到将需要程序结果保存到Mysql这种情况注意点:hadoop自带将数据到村子Mysql的OutPutFormat,及DBOutputFormat使用DBOutputFormat时需要注意几个点:1、需要实现一个实体类,这个实体类部分映射数据库中要查询的表的字段。2、实体类需要实现Writable与DBWritable两个接口,DBWritable的实现类负责查询与写入,Writable的实现类负责序列化输出。3、参数索引与列索引要一致。原创 2020-11-19 20:20:15 · 630 阅读 · 0 评论 -
MapReduce使用PathFilter进行文件过滤
前言在使用MapReduce对数据进行处理的过程中,难免会遇到在一个文件夹中避开某类文件的问题,在本篇博客中我们使用PathFilter路径过滤器过滤掉*.txt文件。这里使用词频统计来做一个简单的小例子.一、定义Mapper类import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.had原创 2020-11-15 14:39:03 · 708 阅读 · 0 评论 -
pyspark + kafka jar包下载:
pyspark + kafka 资料下载:org.apache.spark:spark-streaming-kafka-0-8-assembly_2.11https://search.maven.org/artifact/org.apache.spark/spark-streaming-kafka-0-8-assembly_2.11原创 2020-09-14 20:19:38 · 715 阅读 · 0 评论
分享