自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 HDFS文件上传

接下来,我们向/maven下上传一个文件。要用到的api是put (或者copyFormLocalFile)。上传结束之后,回到hdfs的UI界面去检查是否成功。// 1 获取文件系统。

2025-05-13 10:25:18 153

原创 利用vi编辑器进行复制 粘贴 删除 撤销 反撤销等高级操作

(1)dd(两个小写d)用来删除光标所在当前行的内容。(2)ndd(n+两个小d)用来删除当前行往下的n行。(2)nyy(n+两个小写y)复制当前行往下n行内容。(2)ctrl+r 反撤销(重做上一步的操作)(1)yy(两个小写y)复制光标所在行的内容。3.删除 删除10行就是 10dd。(1)p(小写p)在当前行的下一行粘贴。(2)P(大写p)在当前行的上一行粘贴。(1)u撤销上一步的操作。

2025-05-12 20:01:40 160

原创 如何找正常运行虚拟机

cd/dvd->2009.iso 启动虚拟机。Linux centos7,给。改个名字不要放在c盘。

2025-05-12 20:00:27 200

原创 如何用finalShell连接外网

打开FinalShell软件。

2025-05-12 19:59:55 135

原创 输出重定向

echo111>a.txt 就会把111写入a.txt这个文件中,把之前的内容删除掉。原文链接:https://blog.youkuaiyun.com/2401_87187379/article/details/145843932。echo111>>a.txt 会把111追加到a.txt这个文件中,如果这个文件不存在,就会顺手创建这个文件。方法(1):覆盖掉原来文件中的内容:> (2):添加到文件的末尾:>>.如果我们希望在创建文件的同时就添加一些内容到文件中,就可以用到输出重定向。

2025-05-12 19:58:00 191

原创 如何让虚拟机联网,(让虚拟机具备联网功能

判断一台虚拟机是否能联网(ping+一个网站)(一)如何操作(虚拟机IP一共有三个地方需要配置)(1)配置网段 具体操作是:点击虚拟机左上角编辑——>虚拟网络编辑选择VMnet8,要改动两个地方(注意:他会需要):1.子网ip改成 192.168.10.02.NAT设置--->192.168.10.2让所有的VM配置的虚拟机使用ANT时,他们的网站都是一致的。(2)具体操作如下:选择控制面板 → 网络连接 → VMware network Adapter Vmnet8点击。

2025-05-12 19:56:16 232

原创 如何用vi编辑器的打开,创建和保存文件的基本操作

3.home键可以快速定位到首行,end键可以快速定位到行尾。5.在命令模式下,按下gg键(两个小写g)跳到文件的第一行。输入 :wq 敲回车。(1) :p退出 (2):w 保存 (3):wq 保存退出 (4):wq!4.按下G键(大写G)可以跳到文件的最后一行。第二步 进入编辑模式 按一下i a o 三者任意一个 (此时,键盘可以正常打字)第四步 退出编辑模式 按一下esc键 (回到了命令模式)第一步 创建/打开:vi a.txt (进入命令模式)

2025-05-12 19:50:14 221

原创 如何配置本机host文件

(1)打开、etc/hostname 这个文件,并修改其中的内容。命令是:vi /etc/hostname。3.用finalshell新建一个连接,并使用hadoop100这个主机名来连接。1.修改虚拟机主机名。

2025-05-12 19:44:58 425

原创 如何在finals hell进行免密登录

2025-05-12 19:42:51 99

原创 MapReduce 的工作原理

Map 阶段: 输入:Map 阶段接收输入数据,通常是键值对(key-value pairs)。输出:Map 函数的输出是新的键值对,这些中间结果将传递给 Reduce 阶段。Reduce 阶段: 输入:Reduce 阶段接收 Shuffle 阶段处理后的数据。处理:Reduce 函数对相同键的值进行合并计算,生成最终结果。Shuffle 阶段: 分区:将 Map 阶段的输出数据进行分区,每个分区对应一个 Reduce 任务。合并:将相同键的值合并在一起,准备传递给 Reduce 阶段。

2025-05-12 19:41:23 442

原创 spark基本介绍

3. 一站式生态:集成 Spark SQL(结构化数据)、Spark Streaming(流处理)、MLlib(机器学习)、GraphX(图计算),覆盖数据处理全流程。- Spark 的基本数据结构,代表分布式存储的不可变数据集合,支持 转换(Transformation) 和 动作(Action) 操作。1. 内存计算:数据可驻留内存,大幅提升迭代计算(如机器学习、图计算)效率,比 Hadoop MapReduce 快数倍至数十倍。- 实时流处理:分析实时日志、传感器数据(如 Kafka 数据源)。

2025-05-09 19:44:51 595

原创 Hadoop 和 Spark 生态系统中的核心组件

作用:实时处理流式数据(如 Kafka、Flume),支持微批处理(Micro-Batch)和持续处理(Continuous Processing)。- 作用:提供内存计算框架,支持分布式数据处理(RDD/Dataset/DataFrame),支持多种编程语言(Scala/Java/Python)。- 命令/工具: spark-submit 提交作业, spark-shell 交互式环境。- 命令/工具: hdfs 命令(如 hdfs dfs -put 等)。

2025-05-09 19:42:27 671

原创 转换算子和行动算子的区别

转换算子:转换算子用于对数据集进行转换操作,生成一个新的数据集。这些操作是惰性的,也就是说,当你调用转换算子时,并不会立即执行计算,而是记录下操作的步骤,构建一个操作计划(DAG,有向无环图)。常见的转换算子有mapfilterflatMap等。行动算子:行动算子用于触发实际的计算,将转换操作得到的结果返回到驱动程序或保存到外部存储系统。当调用行动算子时,Spark 会根据之前记录的操作计划,从数据源开始依次执行所有的转换操作,最终得到结果。常见的行动算子有collectcountfirstreduce。

2025-05-07 15:57:44 270

原创 如何在IDEA中编写Spark程序

日志配置:在 src/main/resources 添加 log4j.properties ,简化日志输出。- 依赖冲突:确保Spark和Hadoop版本兼容,使用 provided scope排除冲突依赖。- 本地调试:设置 setMaster("local[*]") ,直接在IDEA中运行主类。- 在IDEA中安装Scala插件,设置项目SDK为Scala版本(如2.12)1. 打包项目为JAR(Maven的 package 命令)。1. 创建Maven项目。1. 创建Scala类。

2025-04-30 08:19:32 674

原创 如何搭建Spark YARN模式的集群

配置YARN:修改Hadoop的 yarn-site.xml ,启用ResourceManager和NodeManager。- 节点规划:1个主节点(Master)+ N个工作节点(Worker),需安装Java、Hadoop、Spark。- 在 conf/slaves 中列出所有Worker节点IP(每行一个)。- 访问YARN界面(默认端口8088),查看Spark应用队列。./sbin/start-all.sh # 在主节点执行。start-yarn.sh # 启动YARN。

2025-04-30 08:17:07 447

原创 Spark和Hadoop之间的对比和联系

Spark基于内存的分布式计算框架,提供了丰富的算子,如map、filter、reduceByKey等,能以DAG(有向无环图)的方式进行复杂的计算,适用于实时计算、交互式查询和机器学习等场景。Spark提供了简洁的API,支持多种编程语言,如Java、Scala、Python等,开发者能更方便地进行数据处理和分析。- 任务执行方面:Spark可以借助Hadoop的YARN进行资源管理和任务调度,将Spark作业提交到YARN集群上运行,充分利用YARN的资源管理能力,实现资源的高效分配和任务的并发执行。

2025-04-26 23:35:55 493

原创 搭建spark-local模式

1. 下载Spark安装包:访问Spark官方网站(https://spark.apache.org/downloads.html),选择合适的版本进行下载,比如可以下载预编译好的适用于Hadoop的版本,下载后解压到指定目录,如 /opt/spark。在Windows系统上,操作步骤类似,但环境变量的配置方式有所不同,你需要在系统的环境变量设置中添加 SPARK_HOME 和将 %SPARK_HOME%\bin 添加到 Path 变量中。

2025-04-26 23:35:24 355

原创 数据清洗

data['column_name'] = pd.to_numeric(data['column_name'], errors='coerce') # coerce会将无法转换的值设为NaN。2. 然后依次处理缺失值,通过 isnull 和 sum 方法查看每列缺失值数量,使用 dropna 删除包含缺失值的行,或者用 fillna 填充缺失值。5. 再进行数据类型转换,使用 to_numeric 将字符串类型的数值列转换为合适的数值类型。# 或者用指定值填充缺失值,比如用0填充数值列的缺失值。

2025-04-16 21:06:52 422

原创 序列化 反序列化实例

pickle.dump() 方法接受两个参数,第一个是要序列化的对象,第二个是文件对象,这里使用 'wb' 模式以二进制写入方式打开文件。4. 然后使用 pickle.load() 方法从 person.pkl 文件中读取数据并反序列化,得到 deserialized_person 对象,最后打印出反序列化后对象的属性值。print(f"反序列化后的对象:名字是 {deserialized_person.name},年龄是 {deserialized_person.age}")

2025-04-16 21:06:14 209

原创 流量统计实例

3. 在主程序中,先获取初始的发送和接收字节数,然后进入一个无限循环,每次循环间隔1秒,再次获取当前的发送和接收字节数,计算出这1秒内的流量速度,并打印出来,同时更新上一次的发送和接收字节数,以便下一次计算。这个实例只是一个简单的本地网络流量统计,如果要进行更复杂的网络流量统计,比如针对特定网络连接、特定应用程序的流量统计等,可能需要使用更高级的网络分析工具或库,如 scapy 等。1. 首先导入 psutil 库用于获取系统信息, time 库用于设置时间间隔。

2025-04-16 21:05:37 326

原创 如何配置环境变量HADOOP_HOMEM、AVEN_HOME?不配置会怎么样

Windows系统:下载并解压Hadoop安装包,然后右键“此电脑”,选择“属性”,点击“高级系统设置”,在“系统属性”窗口中点击“环境变量”。- Linux系统:下载并解压Hadoop安装包,打开终端,编辑 ~/.bashrc 或 /etc/profile 文件,在文件末尾添加 export HADOOP_HOME=/home/hadoop/hadoop-3.3.4 (根据实际安装路径修改),然后执行 source ~/.bashrc 或 source /etc/profile 使配置生效。

2025-04-16 21:05:03 410

原创 hadoop集群配置-scp拓展使用

上述脚本逐行读取 slaves.txt 中的IP地址,然后使用 scp 将 core - site.xml 文件分发到各个从节点的指定目录。可以使用 ssh 的一些选项来优化 scp 传输。这样可以让 scp 在后台运行,不影响当前终端的其他操作。结合 ssh 选项优化传输。分发带有特定前缀的文件。

2025-03-31 23:30:11 244

原创 hadoop集群配置-scp命令

假设你在Hadoop集群的主节点上修改了 hadoop 的配置文件 core-site.xml ,需要将其复制到所有从节点上。scp 命令用于在不同主机之间复制文件或目录,在Hadoop集群配置中常用于将配置文件或相关资源分发到各个节点。在实际使用中,为了方便操作,可以将所有从节点的IP地址写入一个文件,然后通过脚本循环执行 scp 命令来实现批量分发。scp [-r] [源文件或目录] [目标用户@目标主机:目标路径]- -r :递归复制目录及其子目录和文件。

2025-03-31 23:29:19 307

原创 如何调整yarn.nodemanager.vmem-pmem-ratio参数?

在集群环境中,可以通过 yarn - daemon.sh stop resourcemanager 和 yarn - daemon.sh start resourcemanager 命令重启YARN,或者使用集群管理工具(如Ambari或Cloudera Manager)进行重启操作。找到 yarn - site.xml 文件,该文件通常位于Hadoop配置目录中,例如 /etc/hadoop/conf 或 /opt/module/hadoop - 3.1.3/etc/hadoop。

2025-03-31 23:27:54 301

原创 Hadoop集群的常用命令

hadoop jar <jar_path> <main_class> [args] :提交一个Hadoop作业,指定Jar包和主类,以及作业的参数。- hadoop fs -put <local_path> <hdfs_path> :将本地文件上传到Hadoop文件系统指定路径。- hadoop fs -get <hdfs_path> <local_path> :从Hadoop文件系统下载文件到本地指定路径。- hadoop fs -ls <path> :列出指定路径下的文件和目录。

2025-03-31 23:26:55 236

原创 mapreduce的工作原理

Map函数将输入数据解析成键值对,然后根据业务逻辑对键值对进行处理,生成一系列中间键值对。- 例如,在一个统计单词出现次数的任务中,Map函数可能会将输入的文本行解析成单词和1的键值对,如("hello", 1)。- 如在单词计数任务中,Reduce函数会将所有键为"hello"的值相加,得到"hello"单词的出现次数。- Map阶段产生的中间键值对会按照键进行分区和排序,然后将相同键的键值对发送到同一个Reduce节点上。将大规模数据集分割成多个小的分片,这些分片会被分配到不同的计算节点上进行处理。

2025-03-31 23:26:03 209

原创 在虚拟机上安装Hadoop

配置环境变量:开 .bashrc 或 .bash_profile 文件,在文件末尾添加配置,如 export HADOOP_HOME=/path/to/hadoop-3.3.1 等,将 /path/to/hadoop-3.3.1 替换为实际路径,保存后执行 source 命令使配置生效。- 安装JDK:Hadoop需要Java环境,使用命令安装OpenJDK,如 sudo apt install openjdk-8-jdk ,安装完成后用 java -version 验证。

2025-03-08 23:51:47 308

原创 虚拟机如何设置ip

• 对于“仅主机”模式,还需要在VirtualBox的“全局设置”中配置虚拟网络的IP范围和子网掩码。• 点击左侧的“更改适配器设置”,找到VMware虚拟网卡(如“VMnet1”或“VMnet8”)。• 对于“仅主机”模式,还需要在VMware的“虚拟网络编辑器”中配置虚拟网络的IP范围和子网掩码。• 在虚拟机中,右键点击任务栏右下角的网络图标,选择“打开网络和共享中心”。• 在虚拟机中,右键点击任务栏右下角的网络图标,选择“打开网络和共享中心”。在设置IP地址之前,还需要确保虚拟机的网络模式配置正确。

2025-03-01 07:44:38 6322 1

原创 vi编辑器的使用

• 如果需要快速定位到某一行,可以输入行号后按`G`键,例如`10G`跳到第10行。• `:s/old/new/`:将当前行的第一个`old`替换为`new`• `:s/old/new/g`:将当前行的所有`old`替换为`new`• `:%s/old/new/g`:将文件中所有`old`替换为`new`• 启动VI编辑器:在终端中输入`vi`或`vim`,然后按回车键。• `ndd`:删除从当前行开始的n行(例如`3dd`删除3行)• `nyy`:复制从当前行开始的n行(例如`3yy`复制3行)

2025-03-01 07:41:56 302

原创 Linux常见命令

【代码】Linux常见命令。

2025-02-19 15:30:58 556

原创 三分钟安装虚拟机VMware

以上步骤在一般情况下可以快速完成 VMware 的安装,但如果电脑性能较差或网络不稳定等,可能会花费更长时间。

2025-02-18 11:39:41 587

原创 验证用户名是否合法

" //不合法,!]{5,11}\".r\n println(reg.matches(name1)) //matches对字符串做验证,返回boolean值\n println(reg.matches(name2))\n println(reg.matches(name3))\n println(reg.matches(name4))\n println(reg.matches(name5))\n \n }\n \n}

2024-12-18 12:06:34 222

原创 Scala的map集合

【代码】Scala的map集合。

2024-12-18 12:05:18 115

原创 隐式类

【代码】隐式类。

2024-12-11 16:13:05 443

原创 函数的隐式参数

【代码】函数的隐式参数。

2024-12-11 16:12:24 143

原创 正则表达式

【代码】正则表达式。

2024-12-04 16:45:03 143

原创 模式匹配2

【代码】模式匹配2。

2024-12-02 16:52:33 145

原创 模式匹配1

【代码】模式匹配1。

2024-12-02 15:26:23 124

原创 把函数作为返回值

var s = f(2) // s 是一个函数。// f是一个函数,它的返回值也是一个函数。// 把函数当作返回值。

2024-11-28 10:51:53 243

原创 queue 和 Stack

println(s1.pop())//出栈。println(s1.pop())//出栈。println(s1.pop())//出栈。println(s1.pop())//出栈。q1.enqueue(2)//入队。q1.enqueue(3)//入队。q1.enqueue(4)//入队。//queue:队列.排队打饭....s1.push(4)//入栈。//出队:获取队首的元素。//出队:获取队首的元素。

2024-11-28 10:49:40 715

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除