Huuh.-优快云博客

原创操作系统进程管理

Docker等容器技术的出现改变了传统的进程隔离方式。：操作系统用于管理进程的数据结构。：2.6内核引入，时间复杂度恒定。：完全公平调度器，基于红黑树实现。：用于函数调用和局部变量存储。：满足实时性要求高的任务。：程序运行时使用的数据。共享同一进程的地址空间。将更多功能移到用户空间。提高系统可靠性和安全性。

2025-06-10 10:58:49 305

CPU内部的高速存储单元，用于暂存数据和指令（如程序计数器PC、指令寄存器IR）。：介于CPU和主存之间，减少CPU访问内存的延迟（L1、L2、L3缓存）。：存储程序和数据，包括主存（RAM）和辅助存储器（硬盘、SSD）。：控制器解析指令，确定操作类型（加法）和操作数（R2, R3）。：SRAM实现，分为L1、L2、L3，速度接近CPU。：执行算术运算（加减乘除）和逻辑运算（与、或、非）。：DRAM实现，存储运行中的程序和数据（GB级）。：CPU内部，速度最快，容量最小（KB级）。

2025-06-10 10:52:57 907

原创 Python实现快速排序算法详解

快速排序（Quick Sort）是一种高效的排序算法，采用分治法（Divide and Conquer）策略。在大多数情况下表现优。

2025-06-10 10:47:17 592

原创平均评分计算程序

使用Spark编写一个程序，读取一个CSV文件ratings.csv（文件路径为hdfs://path/to/），该文件包含用户ID、商品ID和评分，计算每个商品的平均评分或者计算每个用户的平均评分，并将结果输出到控制台。

2025-06-10 10:40:23 133

原创单词统计程序

给定一个存储在HDFS上的文本文件（文件路径为hdfs://path/to/input.txt），使用Spark编写一个程序，读取HDFS上的一个文本文件input.txt，统计文件中每个单词出现的次数或者每个单词的长度（即单词的字符数）出现的次数，并将结果保存到HDFS上的另一个文本文件（文件路径为hdfs://path/to/output/word _counts.txt）。

2025-06-10 10:39:45 203

原创 spark知识点总结

RDD(弹性分布式数据集)是Spark的基本抽象，代表不可变的、分区的元素集合。9. 在Spark中，哪个操作可以将两个RDD基于键进行合并，并返回一个新的RDD，其中包含匹配的键及其对应的值对？39. Spark的`DataFrame`可以看作是`RDD[Row]`的封装，提供列名和类型信息吗？13. 在Spark中，`reduceByKey`和`groupByKey`的主要区别是什么？25. 在Spark中，`cache()`和`persist()`操作的效果是否完全相同的？

2025-06-10 10:09:00 604

原创人工智能训练师2.1部分完整代码

2.1部分基本都差不多，解析可以看上一篇的2.1.1。没有的解析可以发评论区。

2025-06-09 14:11:37 300

原创人工智能训练师2.1.1题目代码解析

(4) # 处理转换中的异常值,再次删除包含任何缺失值（包括转换'horsepower'后产生的）的行。使用data.isnull(),sum()检查数据集中每一列的缺失值数量。使用data.dropna()删除包含缺失值的行，确保数据集中无缺失。使用train_test_split()将数据集划分为训练集和测试集。print(\"\\n检查缺失值:\")(1) # 加载数据集并显示数据集的前五行。data.dropna()删除包含缺失值的行。(3) #删除缺失值所在的行。

2025-06-09 14:00:17 450

原创人工智能训练师前置步骤

或者直接输入jupyter notebook，然后进入jupyter notebook界面点击对应文件。例如我下载在桌面，就先点击Desktop进入桌面，再点“人工智能训练师素材”，再根据我要做的题目点开对应素材。(写文章的电脑上没有安装jupyter notebook，所以jupyter notebook部分没有图文。点击下载（我在很久之前下载该文件夹，以其他文件为例），鼠标放到相应的文件上，点击文件夹标志，即蓝色部分。（副本代码是我自己复制的，我直接在原代码文件进行的填写，所以留下一个备份文件）

2025-06-09 13:40:15 400

原创 spark中的表格操作

（2）csv文件读取数据创建df。（3）csv写入数据（先备份）（4）json文件的创建。（1）连接MySQL。

2025-04-08 11:24:38 437

原创 Linux上安装MySQL

离线安装要用到mobaxterm_portable。在Ubuntu环境下安装MySQL。测试一下MySQL运行情况。把压缩包拖进去然后解压缩。进入MySQL设置密码。mysql压缩包拖进去。

2025-04-01 10:02:29 155

原创 TopN问题分析

要找出分数最高的前 3 名学生，可以先仅对分数进行排序得到最高的三个分数，再以这三个分数中的最低分为基准对学生信息进行筛选，最后将筛选出来的学生排序

2025-03-18 11:05:11 246

原创 apache spark（ubuntu）安装中文输入

找到region&language点进去。点击左上角activities。

2025-03-18 10:19:24 135

原创 RDD转换行行动操作和词频统计

数据源： /usr/local/spark/licenses/LICENSE-py4j.txt(也可自己随机创建)take()相比collect()就是可以指定返回的元素个数。通过一个for循环将其打印输出。

2025-03-18 10:17:10 361

原创 RDD的创建和转换操作

1）可以打开一个Linux终端窗体，在其中输入下面的命令启动PySparkShell交互式编程环境。2）在其中输入下面的代码，可以查看RDD类包含的功能方法（在Spark中有一个专门的术语，称为。1）先准备两个文本文件，分别存放在本地磁盘目录和HDFS中（可以新开一个终端或者ctrl+D）（向上的箭头可以输入上一步）4)查看一下所创建的RDD数据集的具体内容(可以每个都看一下改一下标红数字就好了）2）再接着输入下面的代码执行，分析一下出现的结果。1）下面是一个简单的sortBy()的例子。

2025-03-11 10:23:34 937

原创 Spark 大数据环境搭建（ Linux 系统安装和配置）

（1）选择典型安装（2）选择“安装程序光盘映像文件(iso)”，点击右侧的浏览按钮，找到下载好的iso 文件，然后点击下一步。（3）将全名、用户名、密码、确认等几项均设为“spark”，方便后面使用，然后点击下一步。（4）在命名虚拟机的窗体中，可以设定一下虚拟机名称或直接按默认，然后点击下一步。（5）在指定磁盘容量的窗体中，设定虚拟机使用的最大磁盘大小为60GB，虚拟机文件尺寸是在使用过程中按需增长的，最大限制为 60GB。

2025-03-04 10:50:54 1487 1

2301_80186825的博客