- 博客(41)
- 收藏
- 关注
原创 数据清洗的具体内容
它是指对采集到的原始数据进行预处理,以去除错误、重复、不完整或不一致的数据,使数据符合分析要求的过程。对于reduce函数来说,它的输入参数是:<刷选后的每一行的内容,[null,null,...]>,对于我们的需求来说,并不需要这个阶段。在之前的项目的基础之上,重写去写一个包,并创建两个类:WebLogMapper和WebLogDriver类。map阶段:按行读入内容,对内容进行检查,如果字段的个数少于等于11,就删除这条日志(不保留)<偏移量,每一行的内容> → <刷选后的没一行的内容,null>
2025-04-02 15:54:42
1021
原创 mapreduce的工作原理
在整个 MapReduce 过程中,Master 节点负责协调和管理任务的分配、监控任务的执行状态,以及处理节点故障等问题。Worker 节点则负责实际的计算任务,即执行 Map 和 Reduce 函数对数据进行处理。通过这种分布式的计算方式,MapReduce 能够高效地处理大规模的数据,将计算任务并行地分布到多个节点上执行,大大提高了数据处理的效率和可扩展性。
2025-03-31 19:53:00
285
原创 Hadoop集群的常用命令
hadoop fs -count / # 统计文件数量,返回的数据是目录个数,文件个数,文件总计大小,输入路径。hadoop fs -du -s -h / #统计这个文件夹总大小,返回的数据是,文件夹大小,备份总大小。hadoop fs -du -h / # 统计文件夹下每个文件的大小。把hdfs一堆小文件合并到本地的一个文件中。查看yarn正在运行的任务列表。查找yarn已经完成的任务列表。查找yarn所有任务列表。
2025-03-31 19:46:14
349
原创 虚拟机配置ip
linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。配置Windows本地虚拟网卡,让本机也可以访问虚拟机。具体设置为:进入虚拟机,修改对应的IP。(3)设置虚拟机的IP。
2025-02-26 15:21:32
275
原创 vi编辑器
提示:在命令模式下按下shift + zz ,可以实现快速保存退出。3.Home键可以快速定位到首行,End键可以快速定位到行尾。2.nyy(n+两个小y)复制当前行往下n行内容。4.按下G键(大写g)可以调到文件的最后一行。5.按下gg键(两个小g)跳到文件的第一行。2.ctrl+r反撤销(重做上一步的操作)按i开始修改 :wq回车保存(不要省略)1.yy(两个小y)复制光标所在行的内容。1.p(小写p)在当前行的下一行粘贴。2.P(大写P)在当前行的上一行粘贴。(3):wq 保存退出。
2025-02-25 11:36:24
401
原创 如何使用VMware创建虚拟机
创建完虚拟机后,点击编辑虚拟机设置。点击确定后,就可以开启虚拟机了。设置虚拟机名称,点击下一步。选择自定义,点击下一步。
2025-02-25 11:16:01
410
原创 Linux的基本命令
路径中的特殊字符 :1 .开头是隐藏文件 2 ..当前目录的上一级目录 3 ~波浪线,当前用户的home目录,比如root用户home目录是/root。cd / 根目录 pwd 当前路径 相对路径 绝对路径。
2025-02-25 08:47:42
196
原创 Scala的模式匹配
模式匹配是Scala中非常有特色、非常强大的一种功能,类似子Java中的svitch case语法即对一个值进行条件判断,然后针对不同的条件进行不同的处理。但是Scala的模武匹配的功能比Java中的功能要强大,Java的switch case语法只能对值进行匹配。Scala的模式匹配数据类型非常丰富,既可以是自定义的类,也可以是Scala本身的类。模式匹配属于Scala中的高级特性,在Scala中占有非常重要的地位,Scala程序的源代码中存在大量的模式匹配。下面举例说明Scala的模式匹配。
2024-12-09 15:17:51
375
原创 scala函数的链式风格
scala中的两种链式风格语法分别为this.type和this。如果想要通过链式风格编程定义一个类,并且这个类是不可继承的,那么可以通过方法返回this。如果类是可拓展的,那么可以通过方法返回this.type。//对象.方法1().方法2().方法3().方法4()//this.type 就是当前这个方法的返回值的类型。//链式风格:在方法中返回当前对象。this//当前对象。
2024-10-09 16:19:55
375
原创 scala函数的参数默认值
传递参数的第二种方式:可以用函数名指定传递参数。当使用第二种方式传递参数时,因为已经指定了变量名,所以并不需要固定参数的前后顺序。只有在没有指定变量名时,参数的前后顺序才要固定。传递函数的第一种方式:函数使用默认值时可以不传递函数。当函数传递值时会覆盖默认值,如果函数没有传递值,则会取默认值为参数。
2024-10-09 15:15:48
441
原创 家里的灯全是线型开关的,拉一下开,再拉一下关,小华觉得很好玩,有一次连拉了五下,这时灯是亮的还是灭的呢?(未拉之前灯是灭的)
灭”}else{“亮”print(ret)
2024-10-08 19:20:08
189
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人