祈533-优快云博客

原创 HDFS文件上传

接下来，我们向/maven下上传一个文件。要用到的api是put (或者copyFormLocalFile）。上传结束之后，回到hdfs的UI界面去检查是否成功。// 1 获取文件系统。

2025-05-13 10:25:18 153

原创利用vi编辑器进行复制粘贴删除撤销反撤销等高级操作

(1)dd(两个小写d)用来删除光标所在当前行的内容。(2)ndd（n+两个小d）用来删除当前行往下的n行。（2）nyy(n+两个小写y)复制当前行往下n行内容。(2)ctrl+r 反撤销（重做上一步的操作）（1）yy(两个小写y)复制光标所在行的内容。3.删除删除10行就是 10dd。(1)p（小写p）在当前行的下一行粘贴。(2)P（大写p）在当前行的上一行粘贴。(1)u撤销上一步的操作。

2025-05-12 20:01:40 160

原创如何找正常运行虚拟机

cd/dvd->2009.iso 启动虚拟机。Linux centos7，给。改个名字不要放在c盘。

2025-05-12 20:00:27 200

echo111>a.txt 就会把111写入a.txt这个文件中，把之前的内容删除掉。原文链接：https://blog.youkuaiyun.com/2401_87187379/article/details/145843932。echo111>>a.txt 会把111追加到a.txt这个文件中，如果这个文件不存在，就会顺手创建这个文件。方法（1）：覆盖掉原来文件中的内容：> （2）：添加到文件的末尾：>>.如果我们希望在创建文件的同时就添加一些内容到文件中，就可以用到输出重定向。

2025-05-12 19:58:00 191

原创如何让虚拟机联网，（让虚拟机具备联网功能

判断一台虚拟机是否能联网（ping+一个网站）（一）如何操作（虚拟机IP一共有三个地方需要配置）（1）配置网段具体操作是：点击虚拟机左上角编辑——>虚拟网络编辑选择VMnet8，要改动两个地方（注意：他会需要）：1.子网ip改成 192.168.10.02.NAT设置--->192.168.10.2让所有的VM配置的虚拟机使用ANT时，他们的网站都是一致的。（2）具体操作如下：选择控制面板 → 网络连接 → VMware network Adapter Vmnet8点击。

2025-05-12 19:56:16 232

原创如何用vi编辑器的打开，创建和保存文件的基本操作

3.home键可以快速定位到首行，end键可以快速定位到行尾。5.在命令模式下，按下gg键（两个小写g）跳到文件的第一行。输入：wq 敲回车。(1) :p退出（2）:w 保存（3）:wq 保存退出（4）:wq!4.按下G键（大写G）可以跳到文件的最后一行。第二步进入编辑模式按一下i a o 三者任意一个（此时，键盘可以正常打字）第四步退出编辑模式按一下esc键 (回到了命令模式)第一步创建/打开：vi a.txt (进入命令模式)

2025-05-12 19:50:14 221

原创如何配置本机host文件

（1）打开、etc/hostname 这个文件，并修改其中的内容。命令是:vi /etc/hostname。3.用finalshell新建一个连接，并使用hadoop100这个主机名来连接。1.修改虚拟机主机名。

2025-05-12 19:44:58 425

原创如何在finals hell进行免密登录

2025-05-12 19:42:51 99

原创 MapReduce 的工作原理

Map 阶段：输入：Map 阶段接收输入数据，通常是键值对（key-value pairs）。输出：Map 函数的输出是新的键值对，这些中间结果将传递给 Reduce 阶段。Reduce 阶段：输入：Reduce 阶段接收 Shuffle 阶段处理后的数据。处理：Reduce 函数对相同键的值进行合并计算，生成最终结果。Shuffle 阶段：分区：将 Map 阶段的输出数据进行分区，每个分区对应一个 Reduce 任务。合并：将相同键的值合并在一起，准备传递给 Reduce 阶段。

2025-05-12 19:41:23 442

原创 spark基本介绍

3. 一站式生态：集成 Spark SQL（结构化数据）、Spark Streaming（流处理）、MLlib（机器学习）、GraphX（图计算），覆盖数据处理全流程。- Spark 的基本数据结构，代表分布式存储的不可变数据集合，支持转换（Transformation）和动作（Action）操作。1. 内存计算：数据可驻留内存，大幅提升迭代计算（如机器学习、图计算）效率，比 Hadoop MapReduce 快数倍至数十倍。- 实时流处理：分析实时日志、传感器数据（如 Kafka 数据源）。

2025-05-09 19:44:51 595

原创 Hadoop 和 Spark 生态系统中的核心组件

作用：实时处理流式数据（如 Kafka、Flume），支持微批处理（Micro-Batch）和持续处理（Continuous Processing）。- 作用：提供内存计算框架，支持分布式数据处理（RDD/Dataset/DataFrame），支持多种编程语言（Scala/Java/Python）。- 命令/工具： spark-submit 提交作业， spark-shell 交互式环境。- 命令/工具： hdfs 命令（如 hdfs dfs -put 等）。

2025-05-09 19:42:27 671

原创转换算子和行动算子的区别

转换算子：转换算子用于对数据集进行转换操作，生成一个新的数据集。这些操作是惰性的，也就是说，当你调用转换算子时，并不会立即执行计算，而是记录下操作的步骤，构建一个操作计划（DAG，有向无环图）。常见的转换算子有mapfilterflatMap等。行动算子：行动算子用于触发实际的计算，将转换操作得到的结果返回到驱动程序或保存到外部存储系统。当调用行动算子时，Spark 会根据之前记录的操作计划，从数据源开始依次执行所有的转换操作，最终得到结果。常见的行动算子有collectcountfirstreduce。

2025-05-07 15:57:44 270

原创如何在IDEA中编写Spark程序

日志配置：在 src/main/resources 添加 log4j.properties ，简化日志输出。- 依赖冲突：确保Spark和Hadoop版本兼容，使用 provided scope排除冲突依赖。- 本地调试：设置 setMaster("local[*]") ，直接在IDEA中运行主类。- 在IDEA中安装Scala插件，设置项目SDK为Scala版本（如2.12）1. 打包项目为JAR（Maven的 package 命令）。1. 创建Maven项目。1. 创建Scala类。

2025-04-30 08:19:32 674

原创如何搭建Spark YARN模式的集群

配置YARN：修改Hadoop的 yarn-site.xml ，启用ResourceManager和NodeManager。- 节点规划：1个主节点（Master）+ N个工作节点（Worker），需安装Java、Hadoop、Spark。- 在 conf/slaves 中列出所有Worker节点IP（每行一个）。- 访问YARN界面（默认端口8088），查看Spark应用队列。./sbin/start-all.sh # 在主节点执行。start-yarn.sh # 启动YARN。

2025-04-30 08:17:07 447

原创 Spark和Hadoop之间的对比和联系

Spark基于内存的分布式计算框架，提供了丰富的算子，如map、filter、reduceByKey等，能以DAG（有向无环图）的方式进行复杂的计算，适用于实时计算、交互式查询和机器学习等场景。Spark提供了简洁的API，支持多种编程语言，如Java、Scala、Python等，开发者能更方便地进行数据处理和分析。- 任务执行方面：Spark可以借助Hadoop的YARN进行资源管理和任务调度，将Spark作业提交到YARN集群上运行，充分利用YARN的资源管理能力，实现资源的高效分配和任务的并发执行。

2025-04-26 23:35:55 493

原创搭建spark-local模式

1. 下载Spark安装包：访问Spark官方网站（https://spark.apache.org/downloads.html），选择合适的版本进行下载，比如可以下载预编译好的适用于Hadoop的版本，下载后解压到指定目录，如 /opt/spark。在Windows系统上，操作步骤类似，但环境变量的配置方式有所不同，你需要在系统的环境变量设置中添加 SPARK_HOME 和将 %SPARK_HOME%\bin 添加到 Path 变量中。

2025-04-26 23:35:24 355

原创数据清洗

data['column_name'] = pd.to_numeric(data['column_name'], errors='coerce') # coerce会将无法转换的值设为NaN。2. 然后依次处理缺失值，通过 isnull 和 sum 方法查看每列缺失值数量，使用 dropna 删除包含缺失值的行，或者用 fillna 填充缺失值。5. 再进行数据类型转换，使用 to_numeric 将字符串类型的数值列转换为合适的数值类型。# 或者用指定值填充缺失值，比如用0填充数值列的缺失值。

2025-04-16 21:06:52 422

原创序列化反序列化实例

pickle.dump() 方法接受两个参数，第一个是要序列化的对象，第二个是文件对象，这里使用 'wb' 模式以二进制写入方式打开文件。4. 然后使用 pickle.load() 方法从 person.pkl 文件中读取数据并反序列化，得到 deserialized_person 对象，最后打印出反序列化后对象的属性值。print(f"反序列化后的对象：名字是 {deserialized_person.name}，年龄是 {deserialized_person.age}")

2025-04-16 21:06:14 209

原创流量统计实例

3. 在主程序中，先获取初始的发送和接收字节数，然后进入一个无限循环，每次循环间隔1秒，再次获取当前的发送和接收字节数，计算出这1秒内的流量速度，并打印出来，同时更新上一次的发送和接收字节数，以便下一次计算。这个实例只是一个简单的本地网络流量统计，如果要进行更复杂的网络流量统计，比如针对特定网络连接、特定应用程序的流量统计等，可能需要使用更高级的网络分析工具或库，如 scapy 等。1. 首先导入 psutil 库用于获取系统信息， time 库用于设置时间间隔。

2025-04-16 21:05:37 326

原创如何配置环境变量HADOOP_HOMEM、AVEN_HOME？不配置会怎么样

Windows系统：下载并解压Hadoop安装包，然后右键“此电脑”，选择“属性”，点击“高级系统设置”，在“系统属性”窗口中点击“环境变量”。- Linux系统：下载并解压Hadoop安装包，打开终端，编辑 ~/.bashrc 或 /etc/profile 文件，在文件末尾添加 export HADOOP_HOME=/home/hadoop/hadoop-3.3.4 （根据实际安装路径修改），然后执行 source ~/.bashrc 或 source /etc/profile 使配置生效。

2025-04-16 21:05:03 410

原创 hadoop集群配置-scp拓展使用

上述脚本逐行读取 slaves.txt 中的IP地址，然后使用 scp 将 core - site.xml 文件分发到各个从节点的指定目录。可以使用 ssh 的一些选项来优化 scp 传输。这样可以让 scp 在后台运行，不影响当前终端的其他操作。结合 ssh 选项优化传输。分发带有特定前缀的文件。

2025-03-31 23:30:11 244

原创 hadoop集群配置-scp命令

假设你在Hadoop集群的主节点上修改了 hadoop 的配置文件 core-site.xml ，需要将其复制到所有从节点上。scp 命令用于在不同主机之间复制文件或目录，在Hadoop集群配置中常用于将配置文件或相关资源分发到各个节点。在实际使用中，为了方便操作，可以将所有从节点的IP地址写入一个文件，然后通过脚本循环执行 scp 命令来实现批量分发。scp [-r] [源文件或目录] [目标用户@目标主机:目标路径]- -r ：递归复制目录及其子目录和文件。

2025-03-31 23:29:19 307

原创如何调整yarn.nodemanager.vmem-pmem-ratio参数？

在集群环境中，可以通过 yarn - daemon.sh stop resourcemanager 和 yarn - daemon.sh start resourcemanager 命令重启YARN，或者使用集群管理工具（如Ambari或Cloudera Manager）进行重启操作。找到 yarn - site.xml 文件，该文件通常位于Hadoop配置目录中，例如 /etc/hadoop/conf 或 /opt/module/hadoop - 3.1.3/etc/hadoop。

2025-03-31 23:27:54 301

原创 Hadoop集群的常用命令

hadoop jar <jar_path> <main_class> [args] ：提交一个Hadoop作业，指定Jar包和主类，以及作业的参数。- hadoop fs -put <local_path> <hdfs_path> ：将本地文件上传到Hadoop文件系统指定路径。- hadoop fs -get <hdfs_path> <local_path> ：从Hadoop文件系统下载文件到本地指定路径。- hadoop fs -ls <path> ：列出指定路径下的文件和目录。

2025-03-31 23:26:55 236

原创 mapreduce的工作原理

Map函数将输入数据解析成键值对，然后根据业务逻辑对键值对进行处理，生成一系列中间键值对。- 例如，在一个统计单词出现次数的任务中，Map函数可能会将输入的文本行解析成单词和1的键值对，如("hello", 1)。- 如在单词计数任务中，Reduce函数会将所有键为"hello"的值相加，得到"hello"单词的出现次数。- Map阶段产生的中间键值对会按照键进行分区和排序，然后将相同键的键值对发送到同一个Reduce节点上。将大规模数据集分割成多个小的分片，这些分片会被分配到不同的计算节点上进行处理。

2025-03-31 23:26:03 209

原创在虚拟机上安装Hadoop

配置环境变量：开 .bashrc 或 .bash_profile 文件，在文件末尾添加配置，如 export HADOOP_HOME=/path/to/hadoop-3.3.1 等，将 /path/to/hadoop-3.3.1 替换为实际路径，保存后执行 source 命令使配置生效。- 安装JDK：Hadoop需要Java环境，使用命令安装OpenJDK，如 sudo apt install openjdk-8-jdk ，安装完成后用 java -version 验证。

2025-03-08 23:51:47 308

原创虚拟机如何设置ip

• 对于“仅主机”模式，还需要在VirtualBox的“全局设置”中配置虚拟网络的IP范围和子网掩码。• 点击左侧的“更改适配器设置”，找到VMware虚拟网卡（如“VMnet1”或“VMnet8”）。• 对于“仅主机”模式，还需要在VMware的“虚拟网络编辑器”中配置虚拟网络的IP范围和子网掩码。• 在虚拟机中，右键点击任务栏右下角的网络图标，选择“打开网络和共享中心”。• 在虚拟机中，右键点击任务栏右下角的网络图标，选择“打开网络和共享中心”。在设置IP地址之前，还需要确保虚拟机的网络模式配置正确。

2025-03-01 07:44:38 6322 1

原创 vi编辑器的使用

• 如果需要快速定位到某一行，可以输入行号后按`G`键，例如`10G`跳到第10行。• `:s/old/new/`：将当前行的第一个`old`替换为`new`• `:s/old/new/g`：将当前行的所有`old`替换为`new`• `:%s/old/new/g`：将文件中所有`old`替换为`new`• 启动VI编辑器：在终端中输入`vi`或`vim`，然后按回车键。• `ndd`：删除从当前行开始的n行（例如`3dd`删除3行）• `nyy`：复制从当前行开始的n行（例如`3yy`复制3行）

2025-03-01 07:41:56 302

空空如也

空空如也