- 博客(11)
- 收藏
- 关注
原创 数据中台架构
基础设施HDP + 私有云 + k8s/docker存储组件Hadoop/hive/ELK/GP/Tidb/hbase/kudu离线ETLHQL/spark/presto/kettle实时ETLKafka/cdc/flink/spark streamingOLAP分析Kylin/clickhouse/BI数据仓库建模 kimball/inmon建模基于sap / wms / crm; sap(mm/sd/fico)流程Ods / dwd/dwm /dws/opsKimba
2022-01-26 17:29:40
4557
原创 Presto
一 Presto 基本介绍Presto 分成两个开源框架来维护Prestodb由facebook维护 Prestosql (现在更名为trino)两个框架的架构和原理基本一致,所以使用安装起来没有差别,1 Prestosql 社区更活跃,Prestodb由于公司维护更新较慢,2 Prestosql 解决了hive acid的问题这是我现在安装它的核心目的。Presto 不仅支持hive,也支持kudu、kafka等多种组件Presto 需要java11运行环境我在测试机已经安装两个java
2022-01-26 15:27:55
2690
原创 数据仓库建模,数据治理
数据仓库建模,数据治理现在数据源来自sap wms crm 财务共享平台 oa 网报等各个公司系统公司各种系统相互关联,数据之间已经形成了错综复杂的关系模型,拥有500多张表,并在此基础上开发了200多张dws dim和ads数据仓库表合适的数据仓库模型一定是一个工作量最少 元数据管理清晰的,对于数据开发的难点在于对所有系统的数据结构并不特别清晰,导致大量的重复开发,每当遇到新的问题不仅需要相关的业务人员配合 还需要相关的
2022-01-26 15:26:31
1597
原创 spark 连接HDP hive ACID
原生的spark 连接hive表可以直接通过thrift服务连接操作hiveHDP和CDH最新版本都封装hive3不能直接使用thrift操作hive只能查看hive元数据Hdp3连接要配置3项先用spark-shell 测试spark-shell --master yarn –jars /usr/hdp/3.1.5.0-152/hive_warehouse_connector/hive-warehouse-connector-assembly-1.0.0.3.1.5.0-152.jar –co
2021-06-22 10:20:46
735
原创 spark 连接kerberos
在资源文件放入hdfs-site.xmlcore-site.xmlhive-site.xmlimport org.apache.hadoop.security.UserGroupInformationimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkKerberos { def main(args: Array[String]): Unit = { Syst.
2021-05-12 21:11:21
1182
原创 大数据实时计算调研
数据采集 flume和 confluent-kafkaflume 需要下载flume-sql-source.jar包githup下载并mvn编译 、flume 只能通过id自增来判断,把最新的id放入本地文件记录每次新增一条数据时通过 new id >本地文件id判断这是最新数据,可以采集flume#flume.confagent.channels.ch1.type = memoryagent.sources.sql-source.channels = ch1agent.channel
2021-04-06 16:27:12
215
原创 mysql 主主复制
Centos7+Mysql8双机(主-主复制HA)1.1 操作前的准备两台服务器,并同时按照Centos7.3新装版本(必须装相同版本); 如果有外网链接则配置Centos7联网、安装wget工具,如果没有外网链接则跳到 “1.2 centos7下安装mysql”;配置Centos7联网新装Centos7默认联网是关闭的,可以通过以下步骤设置开机联网第一步:[root@localhost ~]# cd /etc/sysconfig/network-scripts/...
2021-03-10 09:29:59
162
原创 ambari kerberos 实践
认用户kinit -kt /etc/security/keytabs/nn.service.keytab nn/node1@EXAMPLE.COM添加ketab密钥文件ambari路径etc/security/keytabs/hdfs.headless.keytabktadd -k /nn.keytab -norandkey hdfs-bigdata@EXAMPLE.COM-norandkey 必须加 否则 密钥文件失效...
2021-01-10 21:00:40
123
原创 大数据项目实践
本人最近入职一个比较大型的国企,转行从事大数据开发,谈下大数据技术在项目的具体实践应用从事了两年多的java开发,在18年大数据风头正胜的时候自学大半年时间大数据技术,但由于大数据一行门槛较高,当然并不好找关于大数据相关的工作,毕竟没有实际的开发经验,今年换工作的时候刚好我现在入职的公司看我写了会一些大数据开源技术,就邀请我过来谈谈。回归正题,大数据具体做什么,普通的公司如何使用大数据技术来为公司带来价值,这是一个比较复杂的问题。 可能大家都会说:阿里使用大数据来预测用户的购买意向等等,但是觉大部分公司
2020-11-27 08:30:46
1120
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人