
大数据开发技术
文章平均质量分 73
大数据开发技术如Hadoop、Spark、Scala等
Icy Hunter
如果我真的存在,也是因为你需要我
展开
-
大数据开发之词频统计传参打包成jar包发送到Hadoop运行并创建可执行文件方便运行
首先需要修改代码,将setMaster(“local[*]”)删了。点击-号,这些全删了,留最后一个compile output即可。然后需要进行瘦身,把不需要的包删了,这样打包出来就比较小了。然后选择spark文件里的jars下所有的jar包。同时点击一下,我们也可以看到打包后存放的路径。其中路径得你自己集群的文件路径才能运行成功。点击Project Structure。跳出这个,点击rebuild即可。注意jar包的路径得全路径了。此时可以测试一下传参效果。这就是传入的两个参数。可以调试的时候试试。原创 2022-12-01 12:03:39 · 615 阅读 · 0 评论 -
Scala配置和Spark配置以及Scala一些函数的用法(附带词频统计实例)
先给出spark和Scala的下载地址,这是我用的版本pwd=1111也可以自己去官网下载。原创 2022-11-26 16:01:39 · 1310 阅读 · 0 评论 -
Scala的简单语法介绍
可以看到,常量是初始复制就确定了,不能修改和重新复制,因为常量会比变量的执行速度等快,所以能定义常量的地方就定义常量。每次都会返回语句块中最后一段代码的返回值,如果不存在返回值,则返回Unit,表示返回值为空的意思。Scala的语句块拥有返回值,这也是为什么Scala语句比较简短的原因之一。与Java类似,分为可变和不可变数组,默认是不可变数组,初始化后长度不可变。可以看到,因为Scala语言自带语句块返回值,使得代码简洁了不少。圆括号里的数据,可以是不同的数据类型。数据类型表达:变量名:数据类型。原创 2022-11-26 15:06:30 · 470 阅读 · 0 评论 -
Hadoop对集群的一些操作的命令介绍
将当前目录下的a1.txt文件上传到集群上icyhunter的文件夹下并命名为a…将abc.txt文件复制到0132目录下并改名为abc_2.txt。将集群上00文件夹下的a2_2.txt文件下载到home目录下。移动就是说,本地移到集群,那么本地就没这个文件了。删除文件:-rm,删除文件 -rmdir 文件夹名。将aa1.txt的内容追加到abc.txt文件后面。查看集群icyhunter文件夹下的文件列表信息。hdfs移动到本地:-moveToLocal。将a2.txt改名为b2.txt。原创 2022-11-26 14:40:06 · 1451 阅读 · 0 评论 -
Scala函数式编程初步(高阶函数)
定义一个参数是函数的函数。(完整定义=>匿名函数)可以看到res1和res11的含义是一样的。我们可以将匿名函数的参数简化:(缺省类型)更进一步用老师的话来说,化简到没学过就看不懂的地步就到位了。确实,没学过确实看不懂_+_原来就是x+y这么个函数的意思。原创 2022-11-15 20:18:26 · 220 阅读 · 0 评论 -
Hadoop集群配置运行
验证文件可用性,java执行: java -version查看结果:进入java所在目录,执行 ./java -version。链接:https://pan.baidu.com/s/1rcG1xckk3zmp9BLmf74hsg?指定datanode节点,将所有datanode节点域名写入文件,一般是一行一个,所有集群中的节点此文件内容相同。不过dfs.namenode.secondary设置为master:50090是非常不合理的。下面需要的软件安装包都放在百度网盘,有需要的自取。但是为了方便就这样了。原创 2022-10-01 16:46:25 · 2550 阅读 · 2 评论 -
Unbuntu使用手机热点创建两台电脑的集群(实现ssh免密通信)
我们三台计算机分别取master,slave0,slave1,这里为了方便,我就将两台计算机之间的操作,用的是master,slave0。想要连上热点相互访问,需要用户名相同,因此如果创建的时候用户名不一样,那就创建一个新的用户,把用户名统一才能够成功连上。修改用户的权限:( /etc/sudoers文件只有r权限,在改动前需要增加w权限,改动后,再去掉w权限 )配置域名解析文件,是为了方便的连接,这样名字有语义比较好记,而不是冰冷的数字。输入slave0的密码之后,就可以通过ssh控制slave0了。原创 2022-09-22 23:10:38 · 1141 阅读 · 0 评论 -
Hadoop集群启动但是没有datanode/namenode的情况
Hadoop集群我们是用三台笔记本电脑装了Ubuntu虚拟机然后进行集群的搭建。但是后来启动集群,一开始是主节点没启动起来,因为配置文件看走眼,配错了,然后又重新初始化了一次,然后可能因为重复初始化,导致datanode又没了,然后一直在尝试,一直在搜优快云到底什么原因。目前根据搜索到的以及老师说的总结起来有三点:1.配置文件出错了2.ssh免密没做好3.重复初始化这三个问题应该在之前不断循环往复的出现…直到这周终于把集群启动起来并且能够正常工作了。原创 2022-11-26 14:05:08 · 8586 阅读 · 1 评论