大数据与数据分析
文章平均质量分 88
大数据技术,数据分析,Hadoop,Spark
夏天又到了
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RDD的特点、算子与创建方法
本节将对RDD的基本概念、特点、分类、使用方法进行详细讲解。RDD作为Spark的核心数据结构,承载着弹性分布式数据集的特性。本节将深入探讨RDD的特点、算子的精细分类以及多样化的创建方法,为Spark数据处理奠定坚实基础。原创 2025-11-05 10:13:00 · 875 阅读 · 0 评论 -
Spark专有名词
DAG中的节点代表RDD(Resilient Distributed Dataset,弹性分布式数据集)的转换操作(如map、filter、reduce等),DAG中,边是连接节点的线条,用于表示节点之间的关系。在Spark的Standalone集群管理模式中,Master是一个关键的组件,它负责接收来自客户端的Spark作业请求,管理集群中的Worker节点,以及进行资源分配和作业调度。每个TaskSet中的任务是并行执行的,每个任务对应着RDD中的一个分区的数据处理。原创 2025-11-03 16:53:54 · 879 阅读 · 0 评论 -
【新书推荐】《Spark大数据开发与应用案例(视频教学版)》
本书在培训机构的教学实践中历时8年锤炼而成,以简明清晰且易于理解的方式,全面覆盖Spark集群构建、Spark Core、Spark SQL、Spark应用案例以及面试问答。为增强读者的学习体验,本书配套丰富的电子资源,包括示例源码、PPT教学课件、集群环境、教学视频以及作者微信群答疑服务。原创 2025-10-15 18:20:40 · 1088 阅读 · 0 评论 -
《Spark 3.0大数据分析与挖掘:基于机器学习》简介
#好书推荐##好书奇遇季#《Spark 3.0大数据分析与挖掘:基于机器学习》,京东当当天猫都有发售。Spark作为新兴的、应用范围广泛的大数据处理开源框架,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发,其中ML是Spark 3.0机器学习框架使用的核心。本书用于Spark 3.0 ML大数据分析与挖掘入门,本书配套示例源码、PPT课件、数据集与答疑服务。本书内容本书共分13章,从Spark 3.0大数据分析概述、基础安装和配置开始,依次介绍ML的DataFrame、ML的基原创 2022-03-20 13:11:29 · 3679 阅读 · 0 评论 -
【图书介绍】《Hadoop + Spark生态系统操作与实战指南》
《Hadoop+Spark生态系统操作与实战指南》内容简介本书用于Hadoop+Spark快速上手,本书全面解析Hadoop和Spark生态系统,通过原理解说和实例操作每一个组件,让读者能够轻松跨入大数据分析与开发的大门。全书共12章,大致分为3个部分,第1部分(第1~7章)讲解了Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环原创 2025-01-17 19:51:26 · 5381 阅读 · 8 评论 -
【图书介绍】几本适合当教材的大数据技术图书
第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。《R语言医学数据分析实践》共分为12章,内容包括R语言介绍、R语言基本语法、R语言数据清洗、R语言数据可视化、R语言统计建模分析方法、R语言机器学习实战入门、列线图在预测模型中的应用、临床数据挖掘中的生存分析、NHANES 数据库挖掘实战、GEO数据库挖掘实战、孟德尔随机化分析实战、单细胞测序实战。原创 2024-12-30 09:35:55 · 1445 阅读 · 0 评论 -
Spark SQL DML语句
DML(Data Manipulation Language,数据操作语言)操作主要用来对数据进行插入、更新和删除操作。本节主要介绍Spark SQL中的DML操作。Spark SQL提供了一个命令行工具,可以让用户直接通过命令行运行SQL查询。Spark SQL可以兼容Hive,以便Spark SQL支持Hive表访问、UDF(用户自定义函数)以及Hive查询语言(HiveQL/HQL)。原创 2024-12-25 16:31:54 · 1231 阅读 · 1 评论 -
Spark SQL数据加载、存储概述
Spark SQL支持通过DataFrame接口对各种数据源进行操作。DataFrame既可用于关系转换操作(指的是map、filter这样的DataFrame转换算子操作,同RDD的转换操作一样是惰性求值),也可用于创建临时视图,即将DataFrame注册为临时视图,进而对数据运行SQL查询。本节介绍使用Spark SQL数据源加载和保存数据的一般方法。原创 2024-11-27 12:01:30 · 1533 阅读 · 0 评论 -
Spark SQL大数据分析快速上手-Hive安装
由于Spark SQL的基础语法及常见操作是通过Spark SQL CLI命令行进行的,该工具可以用来在本地模式下运行Hive的元数据服务,并且通过命令行执行针对Hive的SQL查询。这个效率比较低,尽量不要使用INSERT语句写入数据,而是采用Hive分析现有的数据。由以上运行结果可见,Hive分析的数据是存储在HDFS上的,HDFS不支持随机写,只支持追加写,所以在Hive中不能使用UPDATE和DELETE语句,只能使用SELECT和INSERT语句。然后使用hive脚本,登录Hive命令行界面。原创 2024-11-26 09:44:12 · 784 阅读 · 0 评论 -
快速了解RDD的创建与处理过程
的创建及其处理过程。本节所有实战均在Spark Shell命令行方式下进行。Spark Shell是Spark提供的一个交互式分析工具,用于快速开发和调试Spark应用程序。它是一个集成了Scala解释器的交互式环境,允许用户直接在Shell中执行Spark操作,无须编写完整的Spark应用程序。Spark Shell提供了许多内置的函数和变量,例如SparkContext和SparkSession对象,这些对象在启动Spark Shell时会自动创建。原创 2024-11-20 09:10:43 · 905 阅读 · 0 评论 -
Spark SQL大数据分析快速上手-完全分布模式安装
前置环境安装参看此博文完全分布模式也叫集群模式。将Spark目录文件分发到其他主机并配置workers节点,即可快速配置Spark集群(需要先安装好JDK并配置好从Master到Worker的SSH信任)。原创 2024-11-20 09:05:21 · 3074 阅读 · 0 评论 -
Spark SQL大数据分析快速上手-伪分布模式安装
前置环境安装参看此博文伪分布模式也是在一台主机上运行,我们直接使用2.2节配置好的CentOS7-201虚拟机。伪分布模式需要启动Spark的两个进程,分别是Master和Worker。启动后,可以通过8080端口查看Spark的运行状态。伪分布模式安装需要修改一个配置文件SPARK_HOME/conf/workers,添加一个worker节点,然后通过SPARK_HOME/sbin目录下的start-all.sh启动Spark集群。原创 2024-11-12 09:30:45 · 1152 阅读 · 0 评论 -
【免费送书活动】《Spark SQL大数据分析快速上手》
这本书已经公开发行。读者只要在本帖评论区简单评论一下本书内容,博主将按评论时间先后,送出3本书,送满为止。为了提高朋友们对优快云博客的认同感,本博主免费赠送读者3本书,书名为《Spark SQL大数据分析快速上手》。原创 2024-11-07 08:47:23 · 402 阅读 · 0 评论 -
Spark本地模式安装
前置环境安装参看此博文。原创 2024-11-07 08:33:24 · 637 阅读 · 0 评论 -
Spark SQL大数据分析快速上手-DataFrame应用体验
本节主要介绍如何使用DataFrame进行编程。在旧版本中,Spark SQL提供两种SQL查询起始点:一个叫作SQLContext,用于Spark自己提供的SQL查询;一个叫作HiveContext,用于连接Hive的查询。SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合。因此,在SQLContext和HiveContext上可用的API,在SparkSession上同样可以使用。原创 2024-11-06 16:04:47 · 1366 阅读 · 0 评论 -
Hadoop完全分布式环境搭建步骤
本文介绍Hadoop完全分布式环境搭建方法,这个Hadoop环境用于安装配置Spark。假设读者已经安装好Visual Box 7.0.6虚拟环境与一个CentOS 7虚拟机(如果熟悉这两个步骤不,可以反馈给博主,博主将另外上个博文讲解)。下面直接从Linux的统一配置开始讲解。原创 2024-11-05 11:51:44 · 1364 阅读 · 0 评论 -
【图书介绍】《Spark SQL大数据分析快速上手》
Spark SQL大数据分析快速上手》内容基于Spark新版本展开,符合企业目前开发需要。《Spark SQL大数据分析快速上手》全面讲解Spark SQL相关知识和实战应用,各章均提供较为丰富的案例及其详细的操作步骤,并配套示例源码、数据集、PPT课件和教学大纲。《Spark SQL大数据分析快速上手》共10章。第1~3章为Spark SQL的基础准备部分,内容包括Spark SQL的发展和简介、Spark的典型数据容器及关系、Spark概述与环境搭建、Spark典型数据结构RDD;原创 2024-11-05 11:00:45 · 726 阅读 · 0 评论 -
《数据资产管理核心技术与应用》相关分享章节
这些数据可能是由企业自身产生的,也可能是从外部获取的(如社交媒体、第三方数据提供商、网络爬虫等),而且这些数据的格式多样,可能是结构化数据、半结构化数据或者非结构化数据,如图1-1所示。(2)第2~8章,主要介绍大数据时代数据资产管理包含的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等,全面介绍数据资产管理底层所涉及的核心技术。(1)第1章,主要让读者认识数据资产,了解数据资产相关的基础概念及其发展情况。原创 2024-08-07 08:47:15 · 550 阅读 · 0 评论 -
【图书推荐】《数据资产管理核心技术与应用》
数据资产管理核心技术与应用》深入探讨数据资产管理的核心技术与应用,融入作者在大数据领域多年的丰富经验。《数据资产管理核心技术与应用》为读者提供一套可以落地的数据资产管理框架,并详解两个基于该框架进行数据资产管理的应用案例,使读者能更好地了解数据资产管理底层所涉及的众多核心技术,让数据可以发挥出更大的价值。本书配套PPT课件、示例源代码、作者微信群答疑服务。全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。原创 2024-08-07 08:14:20 · 1610 阅读 · 0 评论 -
【图书推荐】《Hive入门与大数据分析实战》
Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转换、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive能将结构化的数据文件映射为一张数据库表,并能提供SQL查询分析功能,将SQL语句转换成MapReduce任务来执行,从而实现对数据进行分析的目的。本书配套示例源码、PPT课件、教学大纲。原创 2024-06-17 10:37:13 · 1598 阅读 · 1 评论 -
【图书推荐】《Spark入门与大数据分析实战》
本书基于Spark 3.3.1框架展开,系统介绍Spark生态系统各组件的操作,以及相应的大数据分析方法。本书各章节均提供丰富的示例及其详细的操作步骤,并配套示例源码、PPT课件和教学大纲。本书共分11章,内容包括Scala编程基础、Spark框架全生态体验、Spark RDD、Spark SQL、Kafka、Spark Streaming、Spark ML、Spark GraphX、Redis等技术框架和应用,并通过广告点击实时大数据分析和电影影评大数据分析两个综合项目进行实战提升。原创 2024-06-14 09:50:46 · 1628 阅读 · 0 评论 -
【图书推荐】《Spark 3.0大数据分析与挖掘:基于机器学习》
Spark作为新兴的、应用范围广泛的大数据处理开源框架,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发,其中ML是Spark 3.0机器学习框架使用的核心。本书用于Spark 3.0 ML大数据分析与挖掘入门,配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。原创 2024-06-11 08:46:19 · 1035 阅读 · 0 评论 -
【图书推荐】《分布式数据库HBase案例教程》
本书定位是HBase从入门到应用的简明教程,特色是以实战案例为主,内容系统全面,讲解深入浅出,操作步骤清晰明了。本书配套示例源码、PPT课件、开发环境、教学视频、习题及答案以及其他丰富的教学资源。本书共分为8章,内容包括NoSQL数据库、HBase体系架构、HBase的接口、MapReduce与HBase、HBase表设计、HBase和Hive、HBase深入剖析、论坛日志分析实战。陈建平,福州德明科技有限公司,大数据专家讲师。2006年从事大数据相关的工作,2010年开始从事大数据培训工作。原创 2024-06-11 08:38:16 · 1667 阅读 · 0 评论
分享