
Hadoop
Hadoop分布式大数据存储与计算框架
HoneyYHQ9988
如果你想走得快,就要一个人走;你想走得久、走得远,要一群人一起走。
展开
-
本地报 HADOOP_HOME and hadoop.home.dir are unset 错误处理
在本地idea上运行Hadoop相关服务,控制台打印出此错误“HADOOP_HOME and hadoop.home.dir are unset”,这是由于在本地Windows系统配置hadoop环境就会报此错误。第一步:下载winutils-master.zip蓝奏云:https://www.lanzous.com/i55ccnc对照你自己版本选择合适的插件。第二步:配置window上环境变量1、新建HADOOP_HOME系统变量2、在path变量添加新建的变量路径然后,重启idea,原创 2020-07-20 09:38:56 · 3803 阅读 · 1 评论 -
初识数据湖
数据管理面临的挑战和转变随着大数据技术日益成熟,企业对经营管理风险防控、可视化监控、预测性分析和精细化管理提出了更高的要求,企业需要打破不同业务领域之间的壁垒,真正做到数据和业务流程的融会贯通,进一步挖掘数据价值,提升企业综合决策的能力,提高企业工作和管理效率。数据管理面临的三个挑战1)数据仓库模式导致的烟囱式建设与数据需跨业务线广泛连接之间的挑战;2)传统数据库不能应对数据的增长,数据ETL、数据建模工作的响应速度与数据反哺业务迭代创新之间的挑战;例如:移动互联网和物联网时代,产生了大量的网站数据原创 2020-07-18 22:59:28 · 235 阅读 · 0 评论 -
sqoop从Hive同步数据到Oracle
最近工作中需要对Hive工单数据和oracle数据业务数据合起来出报表,所以需要从hive把工单数据同步到oracle中,这就用到了sqoop。安装sqoop由于我们是用的Ambari进行HDP的管理安装,所以只要在Ambari控制台中安装即可(当然也可以自己下包在主机上安装),安装完如下图所示:官网参考文档传送门!...原创 2020-05-07 21:15:22 · 2756 阅读 · 0 评论 -
DBeaver工具连接spark库
这里介绍最近发现的一个NoSql数据连接工具-DBeaver。当然,有很多工具都支持界面化连接操作NoSql数据库,但是DBeaver相对其他工具的好处在于它能自动下载对应的jar包驱动,不用手动去导。我之前用的DBVisualizer工具,它也能支持NoSql数据库连接操作,但是需要自己手动导入jar包驱动。但是DBeaver就不用手动导入,它会根据你输入的jdbc driver判断需要下载...原创 2020-04-13 11:40:32 · 4515 阅读 · 0 评论 -
Hadoop报错 Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
今天在查看Hadoop平台上HDFS数据文件文件半天没反应,最后报错:Exception in thread “main” java.lang.OutOfMemoryError: GC overhead limit exceeded,超出GC开销限制。报这种错误常见的原因有以下几种:1.内存中加载的数据量过于庞大,如一次从数据库取出过多数据;2.集合类中有对对象的引用,使用完后未清空,使得JV...原创 2020-04-03 22:30:30 · 3666 阅读 · 2 评论 -
数据库和数据仓库的区别
在学习和使用Hive的时候,把Hive定义为数据仓库而不是数据库。都是用于数据存储的地方,为什么把hive定义为数据仓库,而不是数据库呢?那数据库和数据仓库有什么区别呢?数据库: 主要是用于系统业务数据的存储,且支持事务处理,更关注的是业务交易,属于业务性数据库。我们很熟悉的Oracle、mysql等关系型数据库都是常用的数据库。数据仓库: 主要是用于数据分析,即OLAP(On-Line An...原创 2020-02-21 17:10:02 · 737 阅读 · 2 评论 -
DBVisualizer工具连接Phoenix
为了避免每次远程主机操作phoenix的麻烦,这里介绍下使用DBVisualizer工具连接Phoenix操作。1、工具清单DBVisualizer 我这里是版本V9.0HBase 和 Phoenix 部署在云主机上phoenix-client-4.7.0.2.6.5.0-292.jarhbase-site.xml2、准备(1)phoenix-client-4.7.0.2.6.5.0...原创 2019-10-12 11:42:08 · 840 阅读 · 0 评论 -
spark建表报错
在spark主机上,用以下命令进入/usr/dp/current/spark-client/bin/beeline -u jdbc:hive2://paas-test-storm-001.domain:10015执行建表语句报错如下:Error: org.apache.spark.sql.execution.QueryExecutionException: FAILED: Executi...原创 2019-09-26 17:28:04 · 792 阅读 · 0 评论