
hadoop
文章平均质量分 92
小欣小欣亮晶晶
She is so zxy
展开
-
Linux环境非root用户配置SSH免密登录(配置原理)
问题产生背景: 有三台CentOS 7.5机器要部署hadoop分布式环境,机器信息如下 IP 地址 主机名 192.168.119.100 node01 192.168.119.110 node02 192.168.119.120 node03 我创建了hadoop用户来操作hadoop集群,并且在三台机器上都安装了hadoop,为了不在启动ha...原创 2019-11-21 23:46:03 · 4415 阅读 · 3 评论 -
【初学spark】pyspark进行json日志结构化
如题,磨蹭了好几天总算把这个需求整明白了,写篇笔记整理一下自己的思路,也希望能给大家带来帮助。 第一次看到json日志数据的我内心是崩溃的,但是不用担心,json日志每一条记录的存储都是遵循一定的结构规则,只要你是从生产化的hdfs上获取数据,相信也是这样的。 一上来就直接整代码不是一种良好的学习方式,因此在正式讲解如何将这种日志数据结构化之前,要先理解两种spark中的数据结构:RDD...原创 2019-11-17 23:43:46 · 401 阅读 · 0 评论