- 博客(16)
- 收藏
- 关注
原创 操作系统进程管理
Docker等容器技术的出现改变了传统的进程隔离方式。:操作系统用于管理进程的数据结构。:2.6内核引入,时间复杂度恒定。:完全公平调度器,基于红黑树实现。:用于函数调用和局部变量存储。:满足实时性要求高的任务。:程序运行时使用的数据。共享同一进程的地址空间。将更多功能移到用户空间。提高系统可靠性和安全性。
2025-06-10 10:58:49
305
原创 现代计算机的组成
CPU内部的高速存储单元,用于暂存数据和指令(如程序计数器PC、指令寄存器IR)。:介于CPU和主存之间,减少CPU访问内存的延迟(L1、L2、L3缓存)。:存储程序和数据,包括主存(RAM)和辅助存储器(硬盘、SSD)。:控制器解析指令,确定操作类型(加法)和操作数(R2, R3)。:SRAM实现,分为L1、L2、L3,速度接近CPU。:执行算术运算(加减乘除)和逻辑运算(与、或、非)。:DRAM实现,存储运行中的程序和数据(GB级)。:CPU内部,速度最快,容量最小(KB级)。
2025-06-10 10:52:57
907
原创 Python实现快速排序算法详解
快速排序(Quick Sort)是一种高效的排序算法,采用分治法(Divide and Conquer)策略。在大多数情况下表现优。
2025-06-10 10:47:17
592
原创 平均评分计算程序
使用Spark编写一个程序,读取一个CSV文件ratings.csv(文件路径为hdfs://path/to/),该文件包含用户ID、商品ID和评分,计算每个商品的平均评分或者计算每个用户的平均评分,并将结果输出到控制台。
2025-06-10 10:40:23
133
原创 单词统计程序
给定一个存储在HDFS上的文本文件(文件路径为hdfs://path/to/input.txt),使用Spark编写一个程序,读取HDFS上的一个文本文件input.txt,统计文件中每个单词出现的次数或者每个单词的长度(即单词的字符数)出现的次数,并将结果保存到HDFS上的另一个文本文件(文件路径为hdfs://path/to/output/word _counts.txt)。
2025-06-10 10:39:45
203
原创 spark知识点总结
RDD(弹性分布式数据集)是Spark的基本抽象,代表不可变的、分区的元素集合。9. 在Spark中,哪个操作可以将两个RDD基于键进行合并,并返回一个新的RDD,其中包含匹配的键及其对应的值对?39. Spark的`DataFrame`可以看作是`RDD[Row]`的封装,提供列名和类型信息吗?13. 在Spark中,`reduceByKey`和`groupByKey`的主要区别是什么?25. 在Spark中,`cache()`和`persist()`操作的效果是否完全相同的?
2025-06-10 10:09:00
604
原创 人工智能训练师2.1.1题目代码解析
(4) # 处理转换中的异常值,再次删除包含任何缺失值(包括转换'horsepower'后产生的)的行。使用data.isnull(),sum()检查数据集中每一列的缺失值数量。使用data.dropna()删除包含缺失值的行,确保数据集中无缺失。使用train_test_split()将数据集划分为训练集和测试集。print(\"\\n检查缺失值:\")(1) # 加载数据集并显示数据集的前五行。data.dropna()删除包含缺失值的行。(3) #删除缺失值所在的行。
2025-06-09 14:00:17
450
原创 人工智能训练师前置步骤
或者直接输入jupyter notebook,然后进入jupyter notebook界面点击对应文件。例如我下载在桌面,就先点击Desktop进入桌面,再点“人工智能训练师素材”,再根据我要做的题目点开对应素材。(写文章的电脑上没有安装jupyter notebook,所以jupyter notebook部分没有图文。点击下载(我在很久之前下载该文件夹,以其他文件为例),鼠标放到相应的文件上,点击文件夹标志,即蓝色部分。(副本代码是我自己复制的,我直接在原代码文件进行的填写,所以留下一个备份文件)
2025-06-09 13:40:15
400
原创 Linux上安装MySQL
离线安装要用到mobaxterm_portable。在Ubuntu环境下安装MySQL。测试一下MySQL运行情况。把压缩包拖进去然后解压缩。进入MySQL设置密码。mysql压缩包拖进去。
2025-04-01 10:02:29
155
原创 TopN问题分析
要找出分数最高的前 3 名学生,可以先仅对分数进行排序得到最高的三个分数,再以这三个分数 中的最低分为基准对学生信息进行筛选,最后将筛选出来的学生排序
2025-03-18 11:05:11
246
原创 RDD转换行行动操作和词频统计
数据源: /usr/local/spark/licenses/LICENSE-py4j.txt(也可自己随机创建)take()相比collect()就是可以指定返回的元素个数。通过一个for循环将其打印输出。
2025-03-18 10:17:10
361
原创 RDD的创建和转换操作
1)可以打开一个Linux终端窗体,在其中输入下面的命令启动PySparkShell交互式编程环境。2)在其中输入下面的代码,可以查看RDD类包含的功能方法(在Spark中有一个专门的术语,称为。1)先准备两个文本文件,分别存放在本地磁盘目录和HDFS中(可以新开一个终端或者ctrl+D)(向上的箭头可以输入上一步)4)查看一下所创建的RDD数据集的具体内容(可以每个都看一下改一下标红数字就好了)2)再接着输入下面的代码执行,分析一下出现的结果。1)下面是一个简单的sortBy()的例子。
2025-03-11 10:23:34
937
原创 Spark 大数据环境搭建( Linux 系统安装和配置)
(1)选择典型安装(2)选择“安装程序光盘映像文件(iso)”,点击右侧的浏览按钮, 找到下载好的iso 文件,然后点击下一步。(3)将全名、用户名、密码、确认等几项均设为“spark”, 方便后面使用,然后点击下一步。(4)在命名虚拟机的窗体中,可以设定一下虚拟机名称或直接按默认,然后点击下一步。(5)在指定磁盘容量的窗体中,设定虚拟机使用的最大磁盘大小为60GB,虚拟机文件尺 寸是在使用过程中按需增长的,最大限制为 60GB。
2025-03-04 10:50:54
1487
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅