
Spark
大数据运维工程师i
请不要假装很努力,因为结果不会陪你演戏。
展开
-
Hadoop“WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform”
export HADOOP_COMMON_LIB_NATIVE_DIR=/opt/ha/hadoop-3.1.3/lib/nativeexport HADOOP_OPTS="-Djava.library.path=/opt/ha/hadoop-3.1.3/lib"running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.export HADOOP_CONF_.原创 2022-02-17 22:48:58 · 840 阅读 · 0 评论 -
Hive中的函数简单使用
Hive中的lag和lead函数简单使用_s小菜鸟的博客-优快云博客_lead函数转载 2022-02-06 20:54:56 · 101 阅读 · 0 评论 -
Hive列转行 (Lateral View + explode)详解
需求:《疑犯》 悬疑,动作,科幻,爱情《lie to me》 悬疑,警匪,动作,心理,剧情《战狼》 战争,动作,灾难转成如下格式:《疑犯》 悬疑《疑犯》 动作《疑犯》 科幻《疑犯》 爱情《lie to me》 悬疑《lie to me》 警匪《lie to me》 动作《lie to me》 心理《lie to me》 剧情《战狼》 战争《战狼》 动作《战狼》 灾难思路解析:explode函数:处理map结构的字段,将数组转换成多行step1:建表movie转载 2022-02-03 20:09:22 · 521 阅读 · 0 评论 -
git报错,远程克隆和更新不下来解决方法
报错:error: RPC failed; curl 18 transfer closed with outstanding read data remainingfatal: The remote end hung up unexpectedlyfatal: early EOFfatal: unpack-objects failed解决方法:更改buffer大小Gitconfig --global http.postBuffer 524288000需要注意的是http.postBu.原创 2022-01-06 17:26:53 · 991 阅读 · 0 评论 -
解决maven仓库出现.lastUpdated文件导致jar下载失败
.lastUpdated文件出现的原因jar包自身的问题(groupId发生改变或artifactId改变,所需要的版本不存在等),这是最重要的一点,很多人找了半天问题,最后才发现自己找的jar本来就不存在。 网络问题,无法下载对应的jar。 maven中setting配置的中央仓库镜像出现问题,没有生效或镜像已失效。解决办法删除.lastUpdated文件,切换网络(可选择手机热点)重新下载。 直接访问 阿里云云效 Maven进行文件搜索,根据groupId和artifactId查转载 2022-01-06 15:36:55 · 2518 阅读 · 0 评论 -
Spark 学习路线
参考文章:Spark 学习资源 - 知乎原创 2022-01-05 23:45:46 · 935 阅读 · 0 评论 -
IDEA中创建常用代码模板
sc是SparkContext// 1. 创建配置对象 val conf: SparkConf = new SparkConf().setAppName("test").setMaster("local[*]") // 2. 创建sc对象 val sc = new SparkContext(conf) // 3. 使用sc进行编程 // 4. 关闭sc sc.stop()cfpcollect().foreach(pr原创 2022-01-05 21:29:56 · 523 阅读 · 0 评论 -
IDEA中spark_streaming的pom.xml文件解读
2.12是scala版本,3.0.0是spark版本 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>3.0.0</version.原创 2022-01-05 21:18:38 · 352 阅读 · 0 评论 -
IDEA更改日志打印级别
将log4j.properties文件添加到resources里面,就能更改打印日志的级别为errorlog4j.rootLogger=error, stdout,Rlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d{yyyy原创 2022-01-05 20:39:40 · 2094 阅读 · 0 评论 -
IDEA中scala生成变量后自动勾选显示类型
IDEA声明变量后,默认不显示推断类型:点击Settings设置自动勾选点击Settings设置自动勾选点击红框中的settings,进入设置,点击Tpye annotations下次声明变量时,推断的类型自动生成。idea中的设置方法...原创 2021-12-30 19:32:23 · 536 阅读 · 0 评论 -
大数据开发之Spark笔记
在Spark中创建RDD的创建方式可以分为三种:从集合中创建RDD、从外部存储创建RDD、从其他RDD创建。原创 2021-12-30 22:15:00 · 571 阅读 · 0 评论 -
大数据开发之WordCount编写
原创 2021-12-30 08:44:55 · 496 阅读 · 0 评论 -
技术问题清单
maven 项目查看jar源码原创 2021-12-28 23:11:29 · 331 阅读 · 0 评论 -
IDEA报错Cannot download sources解决方法
点击Download sources时会提示报错,如下所示: 解决方案: 在Terminal输入“mvn dependency:resolve -Dclassifier=sources”,然后再下载源码就可以了。原创 2021-12-28 16:28:25 · 3849 阅读 · 2 评论 -
如何在idea中查看jar包源码
参考文章:1.如何在idea中查看jar包源码2.Idea打包jar 及jar包反编译为代码的多种方法_开发猫-优快云博客_怎么将jar包转换为代码3.https://blog.youkuaiyun.com/liangllhahaha/article/details/1030332664.Eclipse/Intellij IDEA查看jar包的源码和注释 - wenlj的个人空间 - OSCHINA - 中文开源技术交流社区5.IDEA—使用插件反编译jar包 - Andya_net - 博客园原创 2021-12-28 00:10:43 · 6694 阅读 · 0 评论 -
推荐几个好用的IDEA插件,Java开发者撸码利器。
Search In Repository平时我们如果要依赖一个第三方jar包,但是不知道它的maven/gradle的坐标。我们该怎么做?搓点的做法基本上就是baidu了,稍微高级点的就是到中央仓库去查下,最新版本的坐标是什么。然后复制下来,贴到pom里去。这款插件,就无需你来回跳转,直接把中央仓库的查找集成到了Idea里面。你只需要打开这款插件,输入jar包的名字或者gav关键字,就能查到到这个jar包所有的版本,然后可以直接复制gav坐标。方便又快捷,干净又卫生!参考文章:装了这几个原创 2021-12-27 23:58:13 · 552 阅读 · 1 评论 -
HA模式下安装spark-yarn
0)停止Standalone模式下的spark集群[atguigu@hadoop102 spark-standalone]$ sbin/stop-all.sh[atguigu@hadoop102 spark-standalone]$ zk.sh stop[atguigu@hadoop103spark-standalone]$ sbin/stop-master.sh1)为了防止和Standalone模式冲突,再单独解压一份spark[atguigu@hadoop102 software].原创 2021-12-27 14:00:24 · 138 阅读 · 0 评论 -
hadoop的8032 failed on connection exception连接不上
增加yarn-site.xml <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>原创 2021-12-27 13:48:53 · 3388 阅读 · 0 评论