数仓环境搭建

本文介绍了在部署Hive on Spark时遇到的连接超时问题以及使用Datagrip连接Hiveserver2时的报错。针对问题一,解决方法包括编辑spark-env.sh和hive-site.xml文件,添加相应的配置。对于问题二,需要在core-site.xml中配置hadoop.proxyuser,并重启集群。按照这些步骤操作后,可以成功解决连接问题。

问题一
部署hive on spark测试时报错,建表成功,但是插入数据时报错
在这里插入图片描述
进入/tmp/cat中查看hive日志,提示timed out waiting for client connection,即表明hive和spark连接超时

解决方法:
1.将/opt/module/spark/conf/目录下spark-env.sh.template文件改成spark-env.sh,之后添加内容export SPARK_DIST_CLASSPATH=$(hadoop classpath);
2.进入/opt/module/hive/conf目录下的hive-site.xml,加上下面的内容
在这里插入图片描述
再次执行insert操作即可成功。

问题二
使用datagrip第一次连接hiveserver2时报错,点击测试连接出现弹窗
在这里插入图片描述
解决方法
进入/opt/module/hadoop-3.1.3/etc/hadoop中,修改core-site.xml文件,添加内容

<property>
<name>hadoop.proxyuser.你的用户名.hosts</name>
<value>*</value>
</property>

<property>
<name>hadoop.proxyuser.你的用户名.groups</name>
<value>*</value>
</property>

然后cluster.sh stop,cluster.sh start重启集群,再输入命令hiveserver2,运行起来之后,进入datagrip进行连接。

### 电商场景下实时环境搭建 #### Hadoop 集群环境准备 为了构建一个高效的电商实时库,首先需要建立稳定可靠的Hadoop集群环境。这一步骤不仅涉及硬件资源的选择与分配,还包括软件层面的优化配置,确保整个系统的性能达到最优状态[^1]。 #### Hive 库安装与MySQL集成 接着,在已有的Hadoop基础上部署与Spark兼容版本的Hive作为库工具,并将其元据库(Metastore)存储于外部关系型据库MySQL之中。这样做可以有效提升查询效率并便于管理复杂的据结构;同时也方便不同应用间的据交互和共享。 #### Kafka消息队列设置 考虑到未来可能存在的多种应用场景(如流处理),建议引入Apache Kafka来充当消息中间件的角色。通过Kafka收集来自各个渠道的日志信息或其他形式的据源输入,从而形成一个高效稳定的传输管道,满足后续据分析的需求[^2]。 #### Flume 和 Zookeeper 的作用 Flume用于从各种源头捕获日志文件并将它们可靠地传送到目的地——通常是HDFS或Kafka主题内。而Zookeeper则负责协调分布式应用程序中的节点通信和服务发现机制,对于维护集群健康至关重要。 #### Sqoop 迁移传统RDBMS至HDFS/Hive 借助Sqoop工具可实现将现有关系型据库管理系统(Relational Database Management System, RDMBS),例如MySQL里的表结构及其对应的内容迁移到基于文件系统(HDFS)之上运行的新一代NoSQL解决方案—Hive里去。这一过程有助于打破孤岛式的烟囱架构,促进跨平台之间的协作交流。 #### ETL 流程设计:ODS 至 ADS 层级转换 针对具体业务逻辑定制化开发ETL(Extract Transform Load)作业链路,按照原始明细层(Operational Data Store, ODS)->轻度聚合层(Dimensional Model Layer, DML)>高度汇总层(Application Delivery Service, ADS)这样的顺序逐步提炼加工原始素材直至产出可供上层消费使用的成品报表视图。 ```sql INSERT INTO ods_table SELECT * FROM external_source; -- 各种清洗、过滤操作... INSERT INTO dml_table (SELECT ... FROM ods_table WHERE ...); -- 更复杂的计算、关联等变换... INSERT INTO ads_table (SELECT ... FROM dml_table GROUP BY ...); ``` #### 技术选型考量因素 当企业在评估采用何种云计算服务提供商时,成本效益是一个重要指标之一。以阿里云为代表的国内主流服务商提供了较为经济实惠的价格方案的同时还承担了大量的日常运营维护工作量,使得客户能够更加专注于核心竞争力培养方面的工作[^5]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值