
zeppelin
百物易用是苏生
企鹅小兵,搞搞大数据
展开
-
【zeppelin】cannot access '/var/run/zeppelin' Nosuch file or directory 异常解决
因为之前在ambari中在两台机器上安装了zeppelin,通过hdfs同步配置实现多活,但是当一个notebook过大时,spark卡死的时候,重启容易因为hdfs到本地local的配置同步不一致问题,容易重启失败。 所以,测试环境里通过ambari删除掉一个zeppelin的服务端。 但是再次重启时,出现标题的类似错误。resource_manag...原创 2019-12-11 09:48:40 · 588 阅读 · 0 评论 -
【zeppelin】一 zeppelin提交pyspark代码,结果note.json信息太大致使当前notebook无法打开,问题排查与解决过程
执行pyspark 的programma片段结果说明使用RDD的相关运算算子,实现亿级数据用户、设备等相关常用信息。本以为有zeppelin设置的1000行配置限制与10240000kb没有什么问题。但因为某步草走,导致结果在ui中显示超过1000行,且致使notebook的note.json超大,超过10MB。复现问题后来新建notebook,复现同样问题,note.json瞬间从几十...原创 2019-04-23 13:53:38 · 714 阅读 · 0 评论 -
window中的zeppelin配置pyspark
前提:java8、scala、spark、python、zeppelin都安装好了(本地单机spark可以不用hadoop的),可参考我之前的各个安装文档一:zeppelin的pyton interpret中配置信息如果path中没有配置python的环境变量,即cmd随便一个目录输入python 无法出现python版本信息和交互命令行,说明未配置,需要设置zeppelin.python...原创 2019-07-07 18:31:51 · 2209 阅读 · 0 评论 -
window下的Zeppelin安装与用户配置(折磨之路)
一:zeppelin 官网下载:https://zeppelin.apache.org/download.html(一开始下的netinst比较少的interpret版本,后来不成功,就换成全all的了,其实都一样,只玩spark用netinst就行,后续需要添加hive、shell啥,缺啥补啥就行,当然为了一劳永逸,下载all就完事了,就是启动太慢)跳转到:http://www....原创 2019-07-07 01:22:15 · 3880 阅读 · 0 评论 -
zeppelin中spark在scala、java、python段中的变量共享(zeppelin)
scala优势在于工程上线,效率高、稳定。python(pyspark)优势在于快速分析、搭建原型。在做一些简要任务时没有形成最终的工程任务,仅在于pyspark分析,但是有些功能只能scala的API才提供支持。所以这时候需要scala与python可以进行变量共享(全局变量)此也主要记录别人的例子,因为相关资料少,搜索也费了一点功夫,便于后续快速查找使用。apache-zeppel...原创 2019-09-24 16:13:49 · 788 阅读 · 0 评论