
离线数仓项目从零到一
完整离线数仓项目的总结
无意的根本
这个作者很懒,什么都没留下…
展开
-
三:虚拟机,jdk,hadoop配置
1.环境选定:centos7,三节点,内存8-3-3,硬盘主节点大于50G,其他的最好也是几十G,网络nat模式,固定ip,测试是否ping通互联网。 2.组件版本,apache版本,虽然麻烦,但是cdh收费之后,有实力的地方绝对是自己搭建apache。 3.hadoop搭建: ...原创 2020-11-07 19:48:56 · 230 阅读 · 1 评论 -
二:假前端埋点数据生成的maven项目
一:项目结构 二:pom依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.ap原创 2020-11-04 16:30:00 · 199 阅读 · 0 评论 -
一:技术选型
技术选型的主要考虑因素:数据量大小,业务需求,行业内经验,技术成熟度,开发维护成本,总成本预算。 数据采集传输:flume,kafka,sqoop,logstash,dataX 数据存储:mysql,hdfs,hbase,redis,mongoDB 数据计算:hive,tez,spark,flink,storm 数据查询:presto,druid,impala,kylin 数据可视化:echarts,superset,quickBI,dataV 任务调度:azkaban,oozie 集群监控:zabbix原创 2020-11-02 12:08:41 · 573 阅读 · 0 评论