
大数据
时光不语,静待花开
既然选择了远方,便只顾风雨兼程
展开
-
Unable to create temp file for insert values Expression of type TOK_FUNCTION not supported in insert
1.将insert 修改为 select。向hive测试库插入数据时,报错。2.去掉values后面的括号。原创 2023-08-29 10:27:17 · 819 阅读 · 0 评论 -
ES 实现groupby聚合查询
需求:查询指定时间段各个API的调用量{ "query": { "bool": { "must": [ { "range": { "queryDate": { "gt": "2019-04-26 07:10:39", "lt": "2019-09-2...原创 2019-10-15 20:12:55 · 10446 阅读 · 0 评论 -
大数据架,从Lambda到去ETL化的IOTA
经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。▌Lambda架构在过去Lambda数据架构成为每一个公司大数据平台必备的架构,它解决了一个公司大数据批量离线处理和实时数据处理的需求。一个典型的Lambda架构如下:数据从底层的数据源开始,经过各种各样...转载 2019-06-24 15:20:17 · 312 阅读 · 0 评论 -
NCDC数据集准备
一. 原始气象数据集下载:如果我们想获取更多的气象原始数据集时,我们可以通过NCDC的ftp服务器获取数据,实例如下NCDC FTP数据服务器:ftp.ncdc.noaa.govNCDC 原始文件路径:pub/data/noaa/1. 使用FTP终端获取NCDC数据集打开ftp终端连接FTP服务器,使用匿名登录,账户名为:anonymous,密码随便输,回车即可(如果此步输入错误...转载 2019-07-11 11:02:36 · 1452 阅读 · 0 评论 -
【经典】MapReduce WordCount案例:需求1-4
* 需求一:在一堆给定的文本文件中统计输出每一个单词出现的总次数* 需求二:把单词按照ASCII码奇偶数分区* 需求三:对每一个maptask的输出做局部汇总* 方案一:写一个combiner类继承Reducer,其实是把WordCountReducer再写一次* 方案二:直接把WordCountReducer指定给CombinerClass* 需求四:大量小文件的切片优化一、...原创 2019-07-19 11:27:13 · 425 阅读 · 0 评论