
海量数据处理(hadoop、spark)
文章平均质量分 92
聚焦数据挖掘和海量数据处理技术,包括Hadoop和Spark的使用。本专栏致力于解读大数据领域的最新趋势和核心技术。
Hadoop和Spark都是为大数据分析而设计的开源框架。Hadoop具有海量数据集处理能力,而Spark以其速度而闻名,并且对实时数据分析有效。
是Yu欸
这里是我读博期间的笔记本,记录学习和成长,争取顺利毕业ing
展开
-
【数据集划分】假如你有超百万条oracle数据库数据(成真版)
大模型,何所谓大?先从大数据开始。假如你有超百万条oracle数据库数据,那么一直使用的代码:`train_df, temp_df = train_test_split(df, test_size=0.3, random_state=42)`,很可能1h还没划分完数据。刚开始时,看着电脑忙和,自己闲着,很开心。1h过去后,发现事情好像没有那么简单。于是……重新学习数据集划分,从时间复杂度角度,重新审视这些机器学习入门知识。原创 2024-06-05 22:26:13 · 2091 阅读 · 41 评论 -
Linux操作系统7:文件系统及磁盘管理(二)
2.利用vim编写如下c语言程序:一个main.c代码完成两个数字的输入及四个子程序:add.c、subtract.c, multiply.c 和 divide.c的调用。其中,这四个子程序分别完成对main.c中输入数字的加、减、乘、除运算。完成源码文件的编写后,编写makefile文件描述各源码文件间的依赖关系及最终生成可执行文件main的编译规则。1.查看系统是否安装vim,若有,则先卸载该软件,然后重新安装vim(注意update)。这样就是更新成功了,我们再次进行vim的安装。原创 2022-11-13 12:23:04 · 5893 阅读 · 0 评论 -
Linux操作系统6:文件系统及磁盘管理
不得不说,我的排版真是一点点越来越好看hhh有意识地想把实验报告写好,可能单次看进步不明显,但和现在比起来还是很明显的。原创 2022-11-12 19:57:25 · 8985 阅读 · 0 评论 -
Linux操作系统5:用户和组的管理
2.查看/etc/ passwd文件的最后一行,看看是如何记录的。5.再次查看/etc/shadow文件的最后一行,看看有什么变化。3.查看/etc/shadow文件的最后一行,看看是如何记录的。8.查看/etc/shadow文件的最后一行,看看有什么变化。4.查看/etc/group文件中的最后一 行,看看有什么变化。7.再次查看/etc/group文件的最后一行,看看有什么变化。2.查看/etc/group文件的最后一行,看看是如何设置的。查看/etc/passwd文件的最后一行,看看有什么变化。原创 2022-11-12 19:51:48 · 18351 阅读 · 0 评论 -
Linux操作系统4:Vim编译器
掌握Vim编译器的启动与推出方法;掌握Vim编译器的三种模式及使用方法;熟悉C/C++编译器gcc的使用方法;掌握 Vim编辑器的使用方法;使用Shell进行简单编程。原创 2022-11-12 19:43:32 · 8384 阅读 · 0 评论 -
Linux操作系统3:Linux常用命令
实验报告二没找到,现就这样吧。过段时间可能要用服务器了,趁机复习一下。原创 2022-11-12 19:31:46 · 6778 阅读 · 0 评论 -
spark考试复盘
spark考试复盘一、简答题:①生态系统组件②hadoop与Spark运行架构的区别二、程序题三、改错题四、五、填空题六、Steaming七、特征抽取八、逻辑回归一、简答题:①生态系统组件①Spark Core提供了Spark最基础与最核心的功能。②Spark SQLSpark SQL用于分布式结构化数据的SQL查询与分析,在编写程序中,可以直接使用SQL语句。③Spark StreamingSpark Streaming是用于处理流数据的分布式流处理框架,它将数据流以时间片为单位进行分割形原创 2022-06-01 13:42:41 · 5757 阅读 · 0 评论 -
Spark6:Spark Steaming
一、流计算概述静态数据、流数据特点实时处理、主动推送大量、快速、时变、持续到达低延迟、可扩展、高可靠二、Spark Streaming模仿流计算Spark是以线程级别并行,实时响应级别高可以实现秒级响应,变相实现高效的流计算Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理。三、DStream在Spark Streaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD原创 2022-05-31 18:36:22 · 5676 阅读 · 0 评论 -
Spark5:SparkSQL
Spark5:SparkSQL一、SparkSQL简介1.前身:Hive中SQL2.架构3.数据抽象4.优点二、DataFrame概述1.简介DataFrame与RDD的区别2.创建3.保存4.操作三、RDD转换到DataFrame1.利用反射机制推断RDD模式2.编程定义RDD模式一、SparkSQL简介1.前身:Hive中SQLHive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性Hive中SQL查询转化为MapReduce作业的原创 2022-05-29 23:18:15 · 5286 阅读 · 0 评论 -
Spark4:RDD实例
Spark4:RDD实例一、词频统计实例二、键值对RDD1.创建键值对RDD2.键值对RDD转换操作①reduceByKey(func)②groupByKey()两者的区别③map④keys⑤values⑥sortByKey⑦mapValues(func)⑧join实例三、RDD数据读写一、词频统计实例读文件拍扁二、键值对RDD1.创建键值对RDD①加载数据scala> val lines =sc.textFile("hdfs://localhost:9000/user/ha原创 2022-05-29 15:19:44 · 6060 阅读 · 0 评论 -
Spark3:RDD概述
一、RDD概述RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。执行原理从计算的角度来讲,数据处理过程中需要计算资源(内存 & CPU)和计算模型(逻辑)。执行时,需要将计算资源和计算模型进行协调和原创 2022-05-29 01:22:31 · 5478 阅读 · 1 评论 -
Spark2:运行架构
一、运行架构1.概念• Application: 用户基于spark的代码,由一个Driver和多个Executor组成。• Executor: 在工作节点(如standalone的Worker和yarn的NM)上的进程,可以运行task,也可以将数据保存在内存和磁盘中。每个应用程序都有自己的Executors。• Task: 最小的工作单元,会被送往executor执行。它也是Stage 的子集,以并行度(分区数)来衡量,分区数是多少,则有多少个task,一个 task 对应一个RDD分区 ,如果原创 2022-05-28 20:45:36 · 5599 阅读 · 0 评论 -
Spark1:概述
Spark1:概述一、概述二、Spark与Hadoop的对比1.从组成上来看2.从框架上来看3.从功能上来看①数据存储内存②Spark比Hadoop更通用③容错性④可用性三、Spark总体流程1.整体架构①Spark Core②Spark SQL③Spark Streaming④Mllib⑤GraphX目标2、运行模式四、小结参考一、概述Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark Core提供了Spark最基础与最核心的功能Spark SQL是Spark用来操作结构原创 2022-05-28 17:10:11 · 5358 阅读 · 0 评论 -
数据库管理系统MySQL
一、MySQL的介绍2、数据处理流程3、数据存储及处理4、数据库管理系统5、MySQL介绍及概念二、MySQL及DataGrip部署1、MySQL安装2、DataGrip的安装3、DataGrip连接MySQL三、SQL介绍及其规则1、SQL的介绍2、SQL的分类3、SQL的规则四、SQL分析之DDL1、数据库管理2、数据表管理五、SQL分析之DML1、创建表格2、插入数据3、更新数据4、删除数据六、SQL分析之DQL1、准备数据2、基本语法3、简单查询原创 2022-05-03 21:29:16 · 6686 阅读 · 1 评论 -
windows中pyspark的配置
遇到的各种报错汇总,包括有效的解决参考链接原创 2022-04-25 14:49:24 · 5227 阅读 · 0 评论 -
配置spark,并在idea中搭建项目
网上的普遍太久远,不太适配,记录自己历经三天的完美搭建原创 2022-04-25 14:33:08 · 8730 阅读 · 8 评论 -
大数据行业部署实战3:基于Hadoop的Web版的云盘
实验三、 基于Hadoop的Web版的云盘(必须基于实验一验证通过的环境)原创 2020-12-22 17:45:00 · 8282 阅读 · 7 评论 -
大数据行业部署实战2:环境大数据统计
实验二、环境大数据(必须基于实验一验证通过的环境) 实验目的1. 学会分析环境数据文件;2. 学会编写解析环境数据文件并进行统计的代码;3. 学会进行递归MapReduce。实验内容1、 分析数据文件2、 将数据文件上传至HDFS3 、编写月平均气温统计程序4 、查看月平均气温统计结果5、 编写每日空气质量统计程序6、 查看每日空气质量统计结果7 、将每日空气质量统计文件进行整合8、 编写各空气质量天数统计程序9 、查看各空气质量天数统计结果原创 2020-12-22 15:43:24 · 5922 阅读 · 10 评论 -
大数据行业部署实战1:Hadoop伪分布式部署
实验一、Hadoop伪分布式部署1.Hadoop 介绍1.1 Hadoop 生态系统1.2 Apache 版本衍化2. Hadoop-2.7.3 伪分布安装2.1 (配置从这开始)软硬件环境说明Hadoop搭建环境:2.2 环境搭建2.2.1 设置hosts文件映射2.2.2 设置操作系统环境2.3 Hadoop环境搭建2.3.1 在/app下创建hadoop目录2.3.2 下载并解压hadoop安装包2.3.3 在hadoop安装目录下创建子目录2.3.4设置环境变量2.3.5 配置hadoop-env.原创 2020-12-22 10:27:29 · 3655 阅读 · 0 评论 -
数据库基础
数据库基础入门一、数据库介绍二、Navicat基本操作1. 新建数据库2. 常规操作2.1 用户2.2 基本语句三、学习思路原创 2020-10-19 11:29:39 · 2637 阅读 · 0 评论 -
Linux操作系统1:常用命令
实验目的:掌握 Linux各类命令的使用方法,熟悉Linux的操作环境实验内容:练习使用Linux的常用命令,达到熟练应用的目的原创 2020-10-15 15:32:22 · 8318 阅读 · 0 评论