
大数据
文章平均质量分 68
罗啰萝在努力
后端开发小透明成长记
展开
-
【踩坑】不同OS,数据库Load data产生的数据问题
批量导入文件数据到数据库。原创 2023-11-06 12:20:05 · 147 阅读 · 0 评论 -
Hadoop-3.3.5遇到的坑
最终确定是由于公司里面服务器存储是基于NFS共享存储,所以相当于两台机器往同一个目录下写入pid。观察两台机器pid路径下的内容,发现仅有master主机上datanode的pid。所以使用停止脚本关闭时,会导致读取失败,从而导致两个datanode都无法关闭。可以看到时根据$HADOOP_CONF_DIR中的配置来启动进程的。可以看到,与启动脚本类似,也是通过配置文件中的参数来关闭进程。当我们启动后,hadoop底层将pid写入到配置的路径。其中,与关闭进程最相关的配置文件中的参数就是。原创 2023-04-20 09:33:29 · 473 阅读 · 0 评论 -
Spark3.0调优学习
1、现象绝大多数task运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就会报内存溢出异常。2、原因数据倾斜一般发生在shuffle类的算子,比如distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup等,涉及到数据重分区,如果其中某一个key 数量特别大,就发生了数据倾斜。原创 2022-09-09 22:52:17 · 900 阅读 · 0 评论 -
大数据学习的心路历程(持续更新)
前言在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值。一方面,以前IT行业发展没有那么快,系统的应用也不完善,数据库足够支撑业务系统。但是随着行业的发展,系统运行的时间越来越长,搜集到的数据也越来越多,传统的数据库已经不能支撑全量数据的存储工作;另一方面,数据越来越多,单机的计算已经成为瓶颈。因此,基于分布式的大数据系统崭露头角。那么大数据系统里面都有什么东西呢?可以参考下面的图在...原创 2018-06-08 09:34:44 · 1149 阅读 · 2 评论 -
大数据云计算学习路线分析(纯属个人看法和观点)
1.Linux基础和Hadoop分布式架构计算处理模块学完此阶段可掌握的核心能力:熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;学完此阶段可拥有的市场价值:具备初级程序员必要具备的Linux服务器运维能力。2...原创 2018-06-12 19:13:44 · 11986 阅读 · 0 评论